1.标量函数的求极值问题

函数由两部分组成,即:

  • 自变量
  • 对应法则(一种映射)

其中,如果对应法则和自变量均为标量,就是平时初高中见到的函数:,比如,考虑函数为一条抛物线,要求其最小值,可以对求导:

令导函数为零,解出,即在此处取得最小值。

对于多个自变量的多元函数,以两个自变量为例,求的极值,需要分别对求偏导并令它们为零:这可以看做是一个二元齐次线性方程组。

考虑一般情况,对于一个具有个自变量的函数,求其极值,需要对所有的自变量分别求偏导:这是一个元齐次线性方程组。

2.自变量为向量的求导与布局

对于式,可以将其自变量写成列向量的形式则函数变为,称此函数为向量函数。它的导数定义为:其中,分子部分是一个的标量,分母部分是一个的向量,根据式,可以将其定义为列向量的形式:可以看到,等号右边是一个的向量,这与分母部分的向量行数相等。

同理,对于式,将其自变量写成列向量的形式:

其导数定义为:等号右边是一个的向量,与分母部分的向量行数相等,这被称作分母布局(Denominator Layout)。

既然有分母布局,自然会想到,如果将定义为行向量:导数则定义为:可以发现等号右边是一个的行向量,这与分子的行数相等,被称作分子布局(Numerator Layout)。

举一个例子,比如,对于,则对应分母布局的导数为:其分子布局实际上就相当于式的转置:具体采用什么布局,取决于作者的定义,在阅读文献或书籍时,需要注意使用的是哪种布局。

3. 自变量和对应法则均为向量的求导

在前面两节,讨论了自变量由标量转化为向量后的求导,下面讨论对应法则也为向量的情况。

对于一个的向量的,和的向量,则函数写作:定义其导数为:这是一个的矩阵,与分母的行数相等,因此为分母布局。

举个例子,对于如下函数(其中):其分母布局的导数为:这是一个的矩阵,与分母的行数相等。

另外,在*张贤达《矩阵分析与应用》*中,我们刚刚讨论的两种形式也被称为行向量偏导形式和列向量偏导形式(梯度向量形式)。

4.扩展到矩阵形式的函数

前面介绍的的列向量的形式,现在讨论矩阵函数,也就是的矩阵形式,也可以看做是的列向量的组合,用表示。

此时对于自变量同样有三种情况,即(1)自变量是一个标量,(2)自变量是一个列向量,(3)自变量是一个矩阵。

我们先看(1),此时有:举例:对于(2),有:举例:对于(3),设自变量为的矩阵,记为,则有:举例:下面讨论对(3)求导。

定义为将矩阵按列向量化,也就是将矩阵转换为向量的线性变换,具体操作是将矩阵分别取第一列,第二列,直到最后一列,然后按顺序组成一个列向量。对于矩阵的向量化后,将得到的列向量:

比如,矩阵,则,这里,矩阵的向量化后,将得到的列向量。

接下来,我们要做的就是分别将向量化,分别得到的列向量:这样就将变成了,由式,我们很容易得出它的导数:这是一个的矩阵,与分母的行数相等,因此为分母布局,也被称为梯度矩阵的形式。与之对应的另一种矩阵,与分子的行数相等,为分子布局,也被称为雅可比矩阵(Jacobian Matrix)形式,它们互为转置关系。

5.矩阵的求导法则及其推导

约定:下面的公式均采用分母布局进行讨论。

5.1 自变量为向量,对应法则为标量的函数

式开始:

常数求导

加法法则

乘法法则

除法法则

常用公式1

后面会将向量写作粗体,如等价于其中,为常数向量,

常用公式2

这是一个系数矩阵为单位阵的标准二次型。

常用公式3

其中,是系数矩阵,。这是一个未标准化的二次型,当系数矩阵为单位阵时,就是公式

常用公式4

其中,为常数向量,

,所以有:因为常数矩阵,由式得:

5.2 自变量为矩阵,对应法则为标量的函数

从梯度矩阵的形式开始:

常数求导

加法法则

乘法法则

除法法则

常用公式1

其中,为常数向量,

常用公式2

其中,为常数向量,

因为标量的转置等于标量自己,所以有:式得:

常用公式3

其中,为常数向量,

常用公式4

其中,为常数向量,

由于行向量偏导形式和列向量偏导形式互为转置关系,则有:所以,我们把式中的分母的写为转置,就有:对于式,我们将其写为如下形式:式应用式,有:

5.3 其它常用公式1

考虑则有:其中,,为方阵。

因为:所以有:

同理可得证明略。

5.3 其它常用公式2

其中,,为方阵。

特别地,当为对称阵时,有,上式变为:

式可得:所以有: