除了在隐含变量上进行推断之外,我们可能还希望对比一组候选模型。索引为的模型的先验概率分布为。这样,我们的目标是近似后验概率分布,其中是观测数据。因为不同的模型可能具有不同的结构,并且隐含变量的维度实际上可能不同,所以这比我们目前为止考虑的情况稍微复杂一些。因此我们不能简单地考虑考虑分解近似,而是必须意识到的后验概率分布必须以为条件,所以我们必须考虑。我们已经可以验证下面的基于变分概率分布的分解方式
其中是的下界,形式为
这里,我们假定是离散变量,但是同样的分析也适用于连续潜在变量,只要我们把求和替换为积分即可。我们可以使用拉格朗日乘数法关于概率分布最大化,结果为
其中
然而,如果我们关于最大化L,那么我们发现对于不同的值,解是相互偶合的,这与我们预期相符,因为这些概率分布是以为条件的。我们接下来首先通过最优化(10.35),或等价的,最优化,来独立地最优化每个,然后使用式(10.36)来确定。在对求得的值进行标准化之后,它的值可以用于模型选择或者模型平均。