现在我们考虑把Fisher判别式推广到K>2个类别的情况,并假设输入空间的维数D大于类别的数量K。下面,我们引入D′>1个线性“特征”yk=wTkxk=1,...,D′。这些特征值可以很方便的组合成向量y的形式。同样的,权向量{wk}可以看成矩阵W的列,即
y=WTx
再次提醒,我们没有把任何偏置参数包含在y的定义中。把类内部协方差矩阵(4.28)推广到K个分类的情形,得到
SW=K∑k=1Sk
其中
Sk=∑n∈Ck(xn−mk)(xn−mk)Tmk=1Nk∑n∈Ckxn
Nk是类Ck的模式数量。为了找到类间协方差矩阵的推广,我是使用Duda and Hart (1973)方法,首先考虑整体协方差矩阵:
ST=N∑n=1(xn−m)(xn−m)T
其中m是整个数据集的均值
m=1NN∑n=1xn=1NK∑k=1Nkmk
N=∑kNk是数据的总数。整体协方差矩阵可以分解成式(4.40)(4.41)给出的类间协方差矩阵加上一个类间协方差矩阵SB
ST=SW+SB
其中
SB=K∑k=1Nk(mk−m)(mk−m)T
这些协方差矩阵是定义在原来的x空间中的。现在可以定义投影的D′维y矩阵中的类似矩阵
sW=K∑k=1∑n∈Ck(yn−μk)(yn−μk)T
和
sB=K∑k=1Nk(μk−μ)(μk−μ)T
其中
μk=1Nk∑n∈Ckyn,μ=1NK∑k=1Nkμk
同样的,我们想构造一个当类间协方差较大,且类内协方差较小时,值比较大的标量。这样的判别准则有很多选择(Fukunaga, 1990)。其中一个例子是
J(W)=Tr{s−1WsB}
这个判别准则可以写成投影矩阵W的显式函数
J(w)=Tr{(WSWWT)−1(WSWWT)}
最大化这个判别准则虽然有点繁琐,但还是很直接的,详细的推导可以参考Fukunaga (1990)。权值由S−1WSB的对应D′个最大的特征值的特征向量确定。
所有的这些判别准则都有一个很重要的结果。首先,我们注意式(4.46)中SB是由K个两个向量的外积得到的秩为1的矩阵的和组成,
此外,由于式(4.44)给出的限制条件,这些矩阵中只有(K−1)个是相互独立的,所以SB的秩最大等于(K−1),因此最多有(K−1)个非零特征值。这表明,向由SB的特征值所生成的(K−1)维子空间上的投影不改变J(W)的值,这意味这我们不可能找到多于(K−1)个线性“特征”(Fukunaga, 1990)。