在第1章中,通过最小化平方和误差函数使多项式函数来拟合数据集。同样展示了这个误差函数是高斯噪声模型下最大似然解的自然结果。让我们回到这个讨论中,并考虑最小二乘方法,并更加详细的讨论它与最大似然方法的关系。
和之前一样,假设目标变量是由确定函数加上高斯噪声给出的:
其中是均值为0,精度(方差的逆)为的高斯随机变量。因此可以写成:
回忆一下,如果假设一个平方损失函数,那么新的的值的最优的预测是由目标变量的条件均值给出。在式(3.8)的高斯条件分布下,得到条件均值:
注意,高斯噪声隐含上的的条件分布是单峰的,这可能不适用于某些应用。一个混合的条件高斯分布扩展,允许多峰条件分布,这我们将在14.5.1节中讨论。
现在,考虑输入和对应的目标值的数据集。把由目标向量组成列向量,记作。其中选择这个字体是为了与多元目标值的一次观测,记作做区分。假设这些数据是从分布(3.8)中独立的取出。那么,得到可调节参数的最大似然函数,形式为:
其中使用了式(3.3)。注意,在监督学习问题如回归(或分类)中,我们不是为了寻找输入变量分布的模型。所以会一直出现在条件变量的位置,因此从现在开始,为了保持记号的简洁性,在诸如这样的表达式中不显式地写出。取似然函数的对数,并使用一元高斯的标准形式(2.146),得到:
其中平方和误差函数定义为:
已经得到似然函数,我们可以通过最大似然的方法来确定。首先对于最大化。正如我们已经在1.2.5节中已经看到的那样,我们看到在条件高斯噪声分布的情况下,线性模型的最大化似然 函数等价于最小化由给出平方和误差函数。式(3.11)给出的对数似然函数的梯度为:
使这个梯度等于0,得到:
求解w,得到:
这被称为最小二乘问题的正规方程组(normal equations)。其中是被称为设计矩阵(design matrix)的一个的矩阵,其中,即
量
被称为矩阵的摩尔彭罗斯伪逆(Moore-Penrose pseudo-inverse)(Rao and Mitra, 1971; Golub and Van Loan, 1996)。它是逆矩阵概念在非方阵的推广。实际上,如果是方阵且可逆,那么使用性质,可以得到。
现在,我们可以更加深刻地认识偏置参数。如果显式地写出偏置参数,那么误差函数(3.12)变为:
对于求导并使其等于0,求解可得:
其中定义了:
因此偏置补偿了目标值的均值(在训练集上的)与基函数的值的加权均值之间的差。
我们也可以对于噪声精度参数最大化对数似然函数(3.11),得到:
因此,我们看到噪声精度的逆是由目标值在回归函数周围的残差的方差给出。