如果我们定义观测变量和潜在变量的一个联合概率分布,那么对应的观测变量本身的概率分布可以通过求边缘概率的方法得到。这使得观测变量上的复杂的边缘概率分布可以通过观测变量与潜在变量组成的扩展空间上的更加便于计算的联合概率分布来表示。因此,潜在变量的引入使得复杂的概率分布可以由简单的分量组成。本章中,我们会看到混合概率分布(例如2.3.9节讨论的高斯混合模型)可以用离散潜在变量来表示。连续潜在变量是第12章的主题。
除了提供了一个构建更复杂的概率分布的框架之外,混合模型也可以用于数据聚类。因此,在开始讨论混合概率分布时,我们会考虑寻找数据点集合中的聚类的问题。我们首先使用一个非概率的方法解决这个问题,这个方法被称为K均值算法(Lloyd, 1982)。之后,我们引入混合概率分布的潜在变量观点,其中离散潜在变量可以被看做将数据点分配到了混合概率分布的具体成分当中。潜在变量模型中寻找最大似然估计的一个一般的方法是期望最大化(EM)算法。我们首先使用高斯混合分布,以一种相当非形式化的方式介绍EM算法,然后我们会基于潜在变量的观点,给出一个更加仔细的处理方法。我们会看到,K均值算法对应于用于高斯混合模型的EM算法的一个特定的非概率极限。最后,我们会以一种一般的方式讨论EM算法。
高斯混合模型广泛应用于数据挖掘、机器学习和统计分析中。在许多应用中,参数由最大似然方法确定,通常会使用EM算法。然而,正如我们将看到的那样,最大似然方法有一些巨大的局限性。在第10章中,我们会看到,使用变分推断的方法,可以得到一个优雅的贝叶斯处理方式。与EM相比,这种方法几乎不需要额外的计算量,并且它解决了最大似然方法中的主要困难,也使得混合模型的分量的数量可以自动从数据中推断。