考虑局部二次近似可以让我们更深入的认识最优化问题,得到更多解决这个问题的技术。

考虑在权空间中某个点处的泰勒展开

其中我们省略了立方和更高阶的项。这里定义的梯度在处的值

且Hessian矩阵具元素

根据式(5.28)梯度对应的局部近似由

对于距离充分近的点,这些表达式对误差函数和它的梯度给出了合理的近似。

考虑在误差函数最小值的点附近的局部二次近似的特殊情况。这种情况下,由于在,所以没有线性项,式(5.28)变成

其中Hessian矩阵是在处计算的。为了以几何方式来解释,考虑Hessian矩阵的特征方程

其中特征向量构成了完备正交集(附录C),即

现在,我们展开得到特征向量的线性组合形式

这可以解释成,原点变成了点,并旋转坐标轴与特征向量对齐(通过以为列的正交矩阵)的坐标系统变换,在附录C中有更详细的讨论。把式(5.35)代入式(5.32)并使用式(5.33)及(5.34)得到误差函数可以写成

的形式。

矩阵是正定的,当且仅当

因为特征向量组成了一个完备集,所以任意一个向量都可以写成

的形式。

根据(5.33)(5.34)得到

所以,当且仅当所有特征值为正的时候是正定的。图5.6展示了,在新的坐标系统中,基向量由特征向量给出,的等高线是以原点为中心的椭圆。

图 5-6
图 5.6 在最小值的邻域中,误差函数的二次函数近似

对于1维权空间,当

时,驻点是最小值。对于维权空间处的Hessian矩阵是正定时,驻点是最小值。

results matching ""

    No results matching ""