许多回归和分类的线性模型的公式都可以使用核函数自然产生的对偶表示来重写。在我们下一章中讨论支持向量机的时候,这个概念十分重要。这里,我们考虑一个参数通过最小化形式为

正则化的平方和误差函数来确定线性模型。其中。如果我们令关于的梯度等于0,那么我们看到的解是向量的线性组合的形式,系数是的形式为

的函数,其中是设计矩阵,第行由给出,向量,且我们定义了

我们现在不直接对参数向量进行操作,而是使用参数向量重新整理最小平方算法,得到一个对偶表示(dual representation)。如果我们将代入,那么可以得到

其中。我们现在定义Gram矩阵,它是一个的对称矩阵,元素为

其中引入了式(6.1)定义的核函数(kernel function)。使用Gram矩阵,平方和误差函数可以写成

关于的梯度为0,得到我们的解:

如果我们把它代入线性回归模型中,对于新的输入,我们得到了下面预测

其中我们定义了向量,它的元素为。因此我们看到对偶公式使得最小平方问题的解完全通过核函数表示。这被称为对偶公式,因为的解可以被表示为的线性组合,从而我们可以使用参数向量恢复出原始的公式。注意,在处的预测由训练集数据的目标值的线性组合给出。实际上,我们已经在3.3节中得到过这个结果,只不过记号稍微不同。

在对偶公式中,我们通过对一个的矩阵求逆来确定参数向量,而在原始参数空间公式中,我们要对一个的矩阵求逆来确定。由于通常远大于,因此对偶公式似乎没有实际用处。然而,正如我们将要看到的那样,对偶公式的优点是,它可以完全通过核函数来表示。于是,我们可以直接针对核函数进行计算,避免了显式地引入特征向量,这使得我们可以隐式地使用高维特征空间,甚至无限维特征空间。

基于Gram矩阵的对偶表示的存在是许多线性模型的性质,包括感知器。在6.4节,我们会研究回归的概率线性模型和高斯过程方法的对偶性。当我们在第7章讨论支持向量机的时候,对偶性也起着重要的作用。

results matching ""

    No results matching ""