一旦我们有了类条件密度的参数函数形式后,就可以和先验类概率一起使用最大似然来确定参数的值。这就需要观测值和对应的类标签一起组成的数据集。
首先考虑二分类的情形,每个都是共享协方差矩阵的高斯类条件密度,并假设我们有数据集。这里标识类,标识类。把先验类概率记作,所以。对于一个类的点,我们有且
同样的对于类,我们有且
因此似然函数由
其中。通常最大化似然函数的对数比较方便。首先考虑关于来最大化。对数似然函数中依赖的项是
关于求导并使其等于0,整理可得
其中表示类数据点的总数,表示类数据点的总数。因此的最大似然估计和预期的一样是类别的点所占的比例。把先验概率的最大似然估计关联为类别的数据点数量占训练集总 数据的比例,就很容易的把它推广到多分类的情况。
现在,考虑关于的最大化。同样的选择对数似然函数中依赖的项:
关于求导并使其等于0,整理可得
这就是所有类别为的输入向量的均值。通过简单的整理,对应的解为
同样的,这就是所有类别为的输入向量的均值。
最后,考虑共享的协方差矩阵的最大似然解。选出对数似然函数中依赖的项,得到
其中,我们定义了
使用高斯分布的最大似然解的标准结果,得到,这表示与两个类别都有关系的协方差矩阵的加权平均。
这个结果很容易推广到个分类问题,来通过最大似然方法,求解每个类别的条件密度都是高斯分布,且协方差矩阵相同的对应参数。注意,因为高斯最大似然估计没有健壮性,类的高斯分布的拟合方法对于离群点并不健壮。