Hessian矩阵
1 一元函数的极值
设函数
根据该定理,对于一个连续且处处具有二阶导数的一元函数,求它的极值方法为:首先求出
2 二元函数的极值
二元函数的极值问题一般可以使用偏导数来解决。
极值的必要条件:考虑二元函数
一般情况下,多元函数的极值点与驻点并没有关联,因此需要下面的充分条件进行判定。
极值的充分条件:二元函数
- 当
,有极值:若 ,则为极小值;若 ,则为极大值 - 当
,无极值(此时的驻点 称为鞍点,可以想象马鞍形从正面和侧面的投影分别是最高点和最低点) - 当
,可能有极值,可能没有极值,需要根据其他方法(比如根据定义)进行判断
该定理可以根据二元函数的泰勒公式证明,可以参考一些高等数学或数学分析教材,这里略。
3 Hessian矩阵和多元函数的极值
下面对更多元的函数极值进行研究,首先研究为什么二元函数的极值判别要使用
- 当
的二阶顺序主子式大于零( ),有极值: - 若一阶顺序主子式大于零(
),则 为正定矩阵,函数具有极小值 - 若一阶顺序主子式小于零(
),则 为负定矩阵,函数具有极大值
- 若一阶顺序主子式大于零(
- 当
的二阶顺序主子式小于零( ),则 为不定矩阵(既非正定也非负定),无极值,此处为鞍点 - 当
的二阶顺序主子式等于零( ),则 为半正定矩阵或半负定矩阵,极值情况不确定,需要用其他方法进一步判断
关于矩阵的正定,有如下定理。
定义:对于任意的不全为零的向量组
,恒有 成立,则称二次型 为正定二次型,对应的实对称矩阵 是正定矩阵。 正定的充要条件主要有以下几个:
的所有特征值都大于零 的正惯性指数为 的所有顺序主子式大于零(Hurwitz定理) 关于矩阵的负定,有如下定理。
定义:对于任意的不全为零的向量组
,恒有 成立,则称二次型 为负定二次型,对应的实对称矩阵 是负定矩阵。 负定的充要条件主要有以下几个:
的所有特征值都小于零 的负惯性指数为 的所有奇数阶顺序主子式小于零,所有偶数阶顺序主子式大于零(Hurwitz定理) 关于矩阵的半正定和半负定就是分别将上述定义中的
和 改成 和 即可。
可以将以上结论扩展到
- 当
为正定矩阵,则 在此处取得极小值 - 当
为负定矩阵,则 在此处取得极大值 - 当
为不定矩阵,则 在此处无极值 - 当
为半正定矩阵或半负定矩阵,则 在此处的极值情况不确定,需要用其他方法进一步判断
利用这个结论,可以求一些多元函数的极值。
4 例子
例:求函数
首先求出
令全体一阶偏导数等于零,求解这个方程组。这里可以看出是一个齐次线性方程组,系数矩阵为:
下面求二阶偏导数,
在机器学习中,Hessian矩阵有十分重要的应用,例如牛顿迭代法就使用了这种方法进行快速收敛。
另外注意到,二次型