在概率模型的应用中,一个中心任务是在给定观测(可见)数据变量的条件下,计算潜在变量Z的后验概率分布,以及计算关于这个概率分布的期望。模型可能也包含某些确定性参数,我们现在不考虑它。模型也可能是一个纯粹的贝叶斯模型,其中任何未知的参数都有一个先验概率分布,并且被整合到了潜在变量集合中,记作向量。例如,在EM算法中,我们需要计算完整数据对数似然函数关于潜在变量后验概率分布的期望。对于实际应用中的许多模型来说,计算后验概率分布或者计算关于这个后验概率分布的期望是不可行的。这可能是由于潜在空间的维度太高,以至于无法直接计算,或者由于后验概率分布的形式特别复杂,从而期望无法解析地计算。在连续变量的情形中,需要求解的积分可能没有解析解,而空间的维度和被积函数的复杂度可能使得数值积分变得不可行。对于离散变量,求边缘概率的过程涉及到对隐含变量的所有可能的配置进行求和。这个过程虽然原则上总是可以计算的,但是我们在实际应用中经常发现,隐含状态的数量可能有指数多个,从而精确的计算所需的代价过高。

在这种情况下,我们需要借助近似方法。根据近似方法依赖于随机近似还是确定近似,方法大体分为两大类。随机方法,例如第11章介绍的马尔科夫链蒙特卡罗方法,使得贝叶斯方法能够在许多领域中广泛使用。这些方法通常具有这样的性质:给定无限多的计算资源,它们可以生成精确的结果,近似的来源是使用了有限的处理时间。在实际应用中,取样方法需要的计算量会相当大,经常将这些方法的应用限制在了小规模的问题中。并且,判断一种取样方法是否生成了服从所需的概率分布的独立样本是很困难的。

本章中,我们介绍了一系列的确定性近似方法,有些方法对于大规模的数据很适用。这些方法基于对后验概率分布的解析近似,例如通过假设后验概率分布可以通过一种特定的方式分解,或者假设后验概率分布有一个具体的参数形式,例如高斯分布。对于这种情况,这些方法永远无法生成精确的解,因此这些方法的优点和缺点与取样方法是互补的。

在4.4节中,我们讨论了拉普拉斯近似,它基于对概率分布的峰值(即最大值)的局部高斯近似。这里,我们考虑一类近似方法,被称为变分推断(variational inference)或者变分贝叶斯(variational Bayes),它使用了更加全局的准则,并且被广泛应用于实际问题中。我们最后简要介绍另一种变分的框架,被称为期望传播(expectation propagation)。

results matching ""

    No results matching ""