在多类别分类的广义模型讨论中,我们看到对于一大类概率分布来说,后验概率由特征变量的线性函数的softmax变换给出,即

其中的“激活”

给出。我们使用最大似然来分别确认类的条件密度和先验,然后使用贝叶斯定理来得到对应的后验概率,从而隐式的确定了参数。现在我们考虑使用最大似然直接来确定这个模型的参数。为了达到这个目的,我们需要对关于所有的“激活”求导,它们由

其中是单位矩阵的元素。

接下来,我们写出似然函数。使用“1-of-K”表达方式是最容易的。似然函数由

其中,且是元素为目标变量的矩阵。取对数的负得到

这被称为多类别分类问题的交叉熵(cross-entropy)误差函数。

现在我们关于其中一个参数向量对误差函数求导。使用式(4.106)给出的softmax函数的导数结果,我们得到

其中我们使用了。再一次,我们看到了在线性模型的平方和误差函数以及logistic回归模型的误差函数中都出现过的误差与基函数的乘积的梯度形式。同样的,我们可以将这个公式用于每次只出现一个模式,每个权向量都使用式(3.22)更新的顺序算法。

我们已经看到,对于数据点,线性回归模型的对数似然函数关于参数向量的导数具有“误差”乘以特征向量的形式。同样的,对于logistic sigmoid激活函数与交叉熵误差函数(4.90)的组合,以及多类交叉熵误差函数(4.108)的softmax激活函数,我们也得到了相同的函数形式。这是一个更一般的结果的例子,正如我们将在4.3.6节看到的那样。

为了找到批量算法,我们再次使用Newton-Raphson更新来获得多类别问题的对应的IRLS算法。这需要求出块

与二分类问题一样,对类别logistic回归模型的Hessian矩阵是正定的,因此误差函数有唯一的最小值。多类别情况下的IRLS的实践细节可以参考Bishop and Nabney (2008)。

results matching ""

    No results matching ""