现在我们考虑把Fisher判别式推广到 $K > 2$ 个类别的情况，并假设输入空间的维数 $D$ 大于类别的数量 $K$ 。下面，我们引入 $D' > 1$ 个线性“特征” $y_k = w_k^Tx k=1,...,D'$ 。这些特征值可以很方便的组合成向量 $y$ 的形式。同样的，权向量 $\{w_k\}$ 可以看成矩阵 $W$ 的列，即

$y = W^Tx \tag{4.39}$

再次提醒，我们没有把任何偏置参数包含在 $y$ 的定义中。把类内部协方差矩阵（4.28）推广到 $K$ 个分类的情形，得到

$S_W = \sum\limits_{k=1}^KS_k \tag{4.40}$

其中

$\begin{eqnarray} S_k &=& \sum\limits_{n \in C_k}(x_n - m_k)(x_n - m_k)^T \tag{4.41} \\ m_k &=& \frac{1}{N_k}\sum\limits_{n \in C_k}x_n \tag{4.42} \end{eqnarray}$

$N_k$ 是类 $C_k$ 的模式数量。为了找到类间协方差矩阵的推广，我是使用Duda and Hart (1973)方法，首先考虑整体协方差矩阵：

$S_T = \sum\limits_{n=1}^N(x_n - m)(x_n - m)^T \tag{4.43}$

其中 $m$ 是整个数据集的均值

$m=\frac{1}{N}\sum\limits_{n=1}^Nx_n = \frac{1}{N}\sum\limits_{k=1}^KN_km_k \tag{4.44}$

$N = \sum_kN_k$ 是数据的总数。整体协方差矩阵可以分解成式（4.40）（4.41）给出的类间协方差矩阵加上一个类间协方差矩阵 $S_B$

$S_T = S_W + S_B \tag{4.45}$

其中

$S_B = \sum\limits_{k=1}^KN_k(m_k - m)(m_k - m)^T \tag{4.46}$

这些协方差矩阵是定义在原来的 $x$ 空间中的。现在可以定义投影的 $D'$ 维 $y$ 矩阵中的类似矩阵

$s_W = \sum\limits_{k=1}^K\sum\limits_{n \in C_k}(y_n - \mu_k)(y_n - \mu_k)^T \tag{4.47}$

和

$s_B = \sum\limits_{k=1}^KN_k(\mu_k - \mu)(\mu_k - \mu)^T \tag{4.48}$

其中

$\mu_k = \frac{1}{N_k}\sum\limits_{n \in C_k}y_n , \mu = \frac{1}{N}\sum\limits_{k=1}^KN_k\mu_k \tag{4.49}$

同样的，我们想构造一个当类间协方差较大，且类内协方差较小时，值比较大的标量。这样的判别准则有很多选择（Fukunaga, 1990）。其中一个例子是

$J(W) = Tr\left\{s_W^{-1}s_B\right\} \tag{4.50}$

这个判别准则可以写成投影矩阵 $W$ 的显式函数

$J(w) = Tr\left\{(WS_WW^T)^{-1}(WS_WW^T)\right\} \tag{4.51}$

最大化这个判别准则虽然有点繁琐，但还是很直接的，详细的推导可以参考Fukunaga (1990)。权值由 $S_W^{−1}S_B$ 的对应 $D′$ 个最大的特征值的特征向量确定。

所有的这些判别准则都有一个很重要的结果。首先，我们注意式（4.46）中 $S_B$ 是由 $K$ 个两个向量的外积得到的秩为1的矩阵的和组成，

此外，由于式（4.44）给出的限制条件，这些矩阵中只有 $(K − 1)$ 个是相互独立的，所以 $S_B$ 的秩最大等于 $(K − 1)$ ，因此最多有 $(K − 1)$ 个非零特征值。这表明，向由 $S_B$ 的特征值所生成的 $(K − 1)$ 维子空间上的投影不改变 $J(W)$ 的值，这意味这我们不可能找到多于 $(K − 1)$ 个线性“特征”(Fukunaga, 1990)。

多分类的Fisher判别式

results matching ""

No results matching ""