考虑局部二次近似可以让我们更深入的认识最优化问题,得到更多解决这个问题的技术。
考虑在权空间中某个点处的泰勒展开
其中我们省略了立方和更高阶的项。这里定义为的梯度在处的值
且Hessian矩阵具元素
根据式(5.28)梯度对应的局部近似由
对于距离充分近的点,这些表达式对误差函数和它的梯度给出了合理的近似。
考虑在误差函数最小值的点附近的局部二次近似的特殊情况。这种情况下,由于在处,所以没有线性项,式(5.28)变成
其中Hessian矩阵是在处计算的。为了以几何方式来解释,考虑Hessian矩阵的特征方程
其中特征向量构成了完备正交集(附录C),即
现在,我们展开得到特征向量的线性组合形式
这可以解释成,原点变成了点,并旋转坐标轴与特征向量对齐(通过以为列的正交矩阵)的坐标系统变换,在附录C中有更详细的讨论。把式(5.35)代入式(5.32)并使用式(5.33)及(5.34)得到误差函数可以写成
的形式。
矩阵是正定的,当且仅当
因为特征向量组成了一个完备集,所以任意一个向量都可以写成
的形式。
根据(5.33)(5.34)得到
所以,当且仅当所有特征值为正的时候是正定的。图5.6展示了,在新的坐标系统中,基向量由特征向量给出,的等高线是以原点为中心的椭圆。
图 5.6 在最小值的邻域中,误差函数的二次函数近似
对于1维权空间,当
时,驻点是最小值。对于维权空间处的Hessian矩阵是正定时,驻点是最小值。