考虑一组观测数据集,其中,因此是一个维欧几里得空间中的变量。 我们的目标是将数据投影到维度的空间中,同时最大化投影数据的方差。现阶段,我们假设的值是给定的。稍后在本章中,我们会研究从数据中确定合适的值的方法。

首先,考虑在一维空间上的投影。我们可以使用维向量定义这个空间的方向。为了方便(并且不失一般性),我们假定选择一个单位向量,从而(注意,我们只对的方向感兴趣,而对本身的大小不感兴趣)。这样,每个数据点被投影到一个标量值上。投影数据的均值是,其中,是样本集合的均值,形式为

投影数据的方差为

其中是数据的协方差矩阵,定义为

我们现在关于最大化投影方差。很明显,最大化的过程必须满足一定的限制来防止。恰当的限制来自标准化条件。为了强制满足这个限制,我们引入拉格 朗日乘数,记作,然后对下式进行一个无限制的最大化

通过令它关于的导数等于0,我们看到驻点满足

这表明一定是的一个特征向量。如果我们左乘,使用,我们看到方差为

因此当我们将设置为与具有最大的特征值的特征向量相等时,方差会达到最大值。这个特 征向量被称为第一主成分。

我们可以用一种增量的方式定义额外的主成分,方法为:在所有与那些已经考虑过的方向正交的所有可能的方向中,将新的方向选择为最大化投影方差的方向。如果我们考虑维投影空间的一般情形,那么最大化投影数据方差的最优线性投影由数据协方差矩阵个特征向量定义,对应于个最大的特征值。可以通过归纳法很容易地证明出 来。

总结一下,主成分分析涉及到计算数据集的均值和协方差矩阵,然后寻找的对应于个最大特征值的个特征向量。寻找特征值和特征向量的算法以及与特征向量分解相关的定理,可以参考Golub and Van Loan(1996)。注意,计算一个矩阵的完整的特征向量分解的代价为。如果我们计划将我们的数据投影到前个主成分中,那么我们只需寻找前个特征值和特征向量。这可以使用更高效的方法得到,例如幂方法(power method)(Golub and Van Loan, 1996),它的时间复杂度为,或我们也可以使用EM算法。

results matching ""

    No results matching ""