二元变量只能量化描述两种可能值中取一种的情况。但是,我们经常碰到的是从个可能的互斥状态中取一种的离散变量。尽管,有很多种不同的方式来表示这样的变量,我们先介绍一种被称为“1-of-K”的比较方便的方法。这种方法是:用维向量其中第元素为1,其它为0来表示。举个例子:如果有够取种状 态的变量,其中一次观测得到,那么就可以表示为:
注意,这样的向量满足。如果用参数来标记的概率,那么我们就得到的分布:
其中,由于参数表示概率,所以需要满足且。公式(2.26)分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的。
且
现在,考虑一个有个独立观测值的数据集。其对应的似然函数的形式为
得到似然函数只通过个:
依赖于个数据点。它表示观测到的次数。这些别称为这个分布的充分统计量(sufficient statistics)。
为了得到的最大似然解,我们需要在的和等于1的约束下,关于最大化。这可以通过拉格朗日乘数法得到,即:
对公式(2.31)关于求导并使之等于0得到:
把公式(2.32)代入限制条件,可得。所以我们的最大似然解:
就是观测所占的比例。
考虑在参数和观测总数N条件下联合分布。通过公式(2.29)得到:
这就是多项式分布(multinomial distribution)。标准化系数是把N个物体分成大小为的K组的方案总数,定义为
注意,满足下面的约束: