1 一元函数的极值

设函数处具有二阶导数,若,则处取得极值,且当时取得极小值,时取得极大值。

根据该定理,对于一个连续且处处具有二阶导数的一元函数,求它的极值方法为:首先求出的驻点,然后计算驻点处的二阶导数值,如果二阶导数不为0,则按照定理判断,如果为0,则需要根据极值的定义进行判定。

2 二元函数的极值

二元函数的极值问题一般可以使用偏导数来解决。

极值的必要条件:考虑二元函数具有偏导数,且极值点,则有

一般情况下,多元函数的极值点与驻点并没有关联,因此需要下面的充分条件进行判定。

极值的充分条件:二元函数在点的某邻域内连续且有一阶和二阶连续偏导数,又,令:在点

  • ,有极值:若,则为极小值;若,则为极大值
  • ,无极值(此时的驻点称为鞍点,可以想象马鞍形从正面和侧面的投影分别是最高点和最低点)
  • ,可能有极值,可能没有极值,需要根据其他方法(比如根据定义)进行判断

该定理可以根据二元函数的泰勒公式证明,可以参考一些高等数学或数学分析教材,这里略。

3 Hessian矩阵和多元函数的极值

下面对更多元的函数极值进行研究,首先研究为什么二元函数的极值判别要使用。在上面的定理中,由于一阶和二阶偏导数连续,因此两个混合偏导数相等,即,因此,我们可以将排列成一个实对称矩阵形式:可以发现,该矩阵的行列式,我们称这种由二阶偏导数构成的矩阵为Hessian矩阵。可以发现,矩阵对应了一个二次型,下面以研究二次型的角度重新审视一下极值的充分条件定理。的一阶顺序主子式,的二阶顺序主子式,因此:

  • 的二阶顺序主子式大于零(),有极值:
    • 若一阶顺序主子式大于零(),则为正定矩阵,函数具有极小值
    • 若一阶顺序主子式小于零(),则为负定矩阵,函数具有极大值
  • 的二阶顺序主子式小于零(),则为不定矩阵(既非正定也非负定),无极值,此处为鞍点
  • 的二阶顺序主子式等于零(),则为半正定矩阵或半负定矩阵,极值情况不确定,需要用其他方法进一步判断

关于矩阵的正定,有如下定理。

定义:对于任意的不全为零的向量组,恒有成立,则称二次型为正定二次型,对应的实对称矩阵是正定矩阵。

正定的充要条件主要有以下几个:

  1. 的所有特征值都大于零
  2. 的正惯性指数为
  3. 的所有顺序主子式大于零(Hurwitz定理)

关于矩阵的负定,有如下定理。

定义:对于任意的不全为零的向量组,恒有成立,则称二次型为负定二次型,对应的实对称矩阵是负定矩阵。

负定的充要条件主要有以下几个:

  1. 的所有特征值都小于零
  2. 的负惯性指数为
  3. 的所有奇数阶顺序主子式小于零,所有偶数阶顺序主子式大于零(Hurwitz定理)

关于矩阵的半正定和半负定就是分别将上述定义中的改成即可。

可以将以上结论扩展到元函数,此时就得到了元函数的极值判定方法。具体来说就是对于一个具有一阶和二阶偏导数连续的函数,可以求出它的一阶偏导数等于零的驻点,然后求出所有的二阶偏导数将驻点代入后的值,将这些值排列为实对称矩阵,这个矩阵就是Hessian矩阵:此时:

  • 为正定矩阵,则在此处取得极小值
  • 为负定矩阵,则在此处取得极大值
  • 为不定矩阵,则在此处无极值
  • 为半正定矩阵或半负定矩阵,则在此处的极值情况不确定,需要用其他方法进一步判断

利用这个结论,可以求一些多元函数的极值。

4 例子

例:求函数的极值。

首先求出的一阶偏导数,

令全体一阶偏导数等于零,求解这个方程组。这里可以看出是一个齐次线性方程组,系数矩阵为:通过初等行变换求解,可以得到方程的解为,这些均为函数的驻点。

下面求二阶偏导数,,均为常数,因此将这些驻点代入后的Hessian矩阵均相同,为:下面判断的正定性,这里使用顺序主子式的方式,一阶顺序主子式,二阶顺序主子式,三阶顺序主子式。因此,为正定矩阵,根据前面的结论,在这些驻点处均取得极小值。

在机器学习中,Hessian矩阵有十分重要的应用,例如牛顿迭代法就使用了这种方法进行快速收敛。

另外注意到,二次型的系数矩阵的2倍就是hessian矩阵,这也是一个快速计算hessian的技巧。