我们通过详细讨论一个具体的模型来说明变分方法的应用,这个模型是高斯模型的贝叶斯混合。这个模型可以被表示为图10.5中的有向图。这里我们从更一般的角度来讨论由有向图描述的模型中对变分方法的使用,推导出一些具有广泛适用性的结果。
对应于有向图的联合概率分布可以写成下面的分解形式
其中表示与结点关联的变量,表示与结点对应的父结点集合。注意,可能是一个潜在变量,也可能属于观测变量集合。现在,考虑一个变分近似,其中我们假定概率分布可以关于进行分解,即
注意,对于观测结点,在变分分布中没有因子。我们现在将公示(10.122)代入我们的一般结果(10.9)中,可得
等式右手边的任何不依赖于的项都可以整合到可加性常数中。事实上,唯一依赖于的项是由给出的的条件概率分布以及任何在条件集合中具有的条件概率分布。根据定义,这些条件概率分布对应于结点的子结点,因此他们也依赖于子结点的同父结点(co-parents),即子结点的除了结点本身之外的其他父结点。我们看到,所依赖的所有结点组成的集合对应于结点的马尔科夫毯,如图8.26所示。因此,在变分后验概率分布中的更新因子表示图上的一个局部计算。这使得构建用于变分推断的具有一般性的软件成为可能,在这种一般性的变分推断中,模型的形式不必事先指定(Bishop et al., 2003)。
如果我们现在确定模型的形式,其中所有的条件概率分布都有一个共轭-指数族的结构,那么变分推断的过程可以被转化为局部信息传递算法(Winn and Bishop, 2005)。特别的,对于一个特定的结点来说,一旦它接收到了来自所有的父结点和所有的子结点的信息,那么与这个结点相关联的概率分布就可以被更新。这反过来需要子结点从它们的同父结点已经接收完毕信息。下界的计算也可以得到简化,因为许多必要的值已经作为信息传递框架的一部分计算完毕。分布的信息传递形式有很好的缩放性质,对于大的网络很合适。