现在，考虑最小二乘方法的几何解释比较有指导意义。为了达到这个目的，考虑坐标轴由 $t_n$ 给出的 $N$ 维空间， $\textbf{t} = (t_1,...,t_N)^T$ 是空间中的向量。通过 $N$ 个点估计出的每个基函数 $\phi_j(x_n)$ 也可以表示成相同空间中的一个向量，记作 $\varphi_j$ ，如图3.2展示。

图 3.2 最小二乘几何解释

注意 $\varphi_j$ 对应的是 $\Phi$ 的第 $j$ 列，而 $\phi(x_n）$ 对应的是 $\Phi$ 的第 $n$ 行。如果基函数的数量 $M$ 小于数据点的数量 $N$ ，那么 $M$ 个向量 $\phi_j(x_n)$ 可以生成 $M$ 维线性子空间 $S$ 。我们定义 $\textbf{y}$ 是 $N$ 维向量，其中第 $n^{th}$ 个元素由 $y(x_n,w) , n = 1,....,N$ 。由于 $\textbf{y}$ 是向量 $\varphi_j$ 的任意线性组合，所以它可以在 $M$ 维子空间的任意位置。平方和误差（3.12）等于 $\textbf{y, t}$ 之间的欧式距离（相差一个因子1/2）。所以 $w$ 的最小二乘解，对应子空间 $S$ 中与 $t$ 最近的 $\textbf{y}$ 的选择。直观地来说，从图3.2得到，我们预期这个解与 $t$ 在子空间 $S$ 上的投影正交。我们看到 $\textbf{y}$ 的解是由 $\Phi w_{ML}$ 给出的，然后可以很容易的证明它就是是正交投影的形式这一事实。

在实际应用中，当 $\Phi^T\Phi$ 接近奇异矩阵时，直接求解标准方程会导致数值计算上的困难。特别地，当两个或更多的基向量 $\varphi_j$ 共线或接近共线时，参数的结果会相当大。这样的退化在处理真实数据集的时候并不少见。这样的数值计算上的困难可以通过奇异值分解（singular value decomposition）简称SVD的方法来解决（Press et al., 1992; Bishop and Nabney, 2008）。注意，额外的正则项可以确保即使在退化的情况下，矩阵也是非奇异的。

最小二乘的几何解释

results matching ""

No results matching ""