我们的第一个目标是寻找对后验概率分布的一个近似。为了完成这件事,我们使用10.1节的变分框架,变分后验概率分布的分解表达式为
我们可以使用式(10.9)给出的一般结果来找到这个分布中的因子的重估计方程。回忆一下,对于每个因子,我们取所有变量上的联合概率分布的对数,然后关于不在这个因子中的变量求平均。首先考虑上的概率分布。只保留与有函数依赖关系的项,我们有
我们看到,这是Gamma分布的对数,因此通过观察和的系数,我们有
其中
类似的,我们可以找到上的后验概率分布的变分重估计方程。同样的,使用一般的结果(10.9),只保留与有函数依赖关系的项,得到
由于这是一个二次型,因此分布是一个高斯分布,因此我们可以使用一般的配平方的方法,得到均值和协方差,结果为
其中
注意这个结果与被当成固定参数时得到的后验概率分布(3.52)的相似性。区别在于,这里被替换为了它在变分分布下的期望。实际上,在两种情形中,我们选择使用了同样的协方差矩阵的记号。
使用标准结果(B.27)、(B.38)和(B.39),我们可以得到所需的矩,形式为
变分后验概率分布的计算在开始时,对或中的一个概率分布的参数进行初始化,然后交替地重新更新这些因子,直到满足一个合适的收敛准则(通常根据下界来确定,稍后讨论)。
将变分方法得到的解与3.5节使用模型证据得到的解练习起来是很有意义的。考虑的情形,对应于上的一个无限宽的鲜艳概率分布。变分后验概率的均值为
与式(9.63)进行对比,表明在这种特别简单的模型中,变分方法得到的解与使用EM算法最大化模型证据函数的方法得到的解完全相同,唯一的区别是的点估计被替换为了它的期望 值。由于分布只通过期望对产生依赖,因此我们看到这两种方法对于无限宽的先验概率分布会给出相同的结果。