除了在隐含变量 $Z$ 上进行推断之外，我们可能还希望对比一组候选模型。索引为 $m$ 的模型的先验概率分布为 $p(m)$ 。这样，我们的目标是近似后验概率分布 $p(m|X)$ ，其中 $X$ 是观测数据。因为不同的模型可能具有不同的结构，并且隐含变量 $Z$ 的维度实际上可能不同，所以这比我们目前为止考虑的情况稍微复杂一些。因此我们不能简单地考虑考虑分解近似 $q(Z)q(m)$ ，而是必须意识到 $Z$ 的后验概率分布必须以 $m$ 为条件，所以我们必须考虑 $q(Z, m) = q(Z|m)q(m)$ 。我们已经可以验证下面的基于变分概率分布的分解方式

$\ln p(X) = L - \sum\limits_m\sum\limits_Zq(Z|m)q(m)\ln\left\{\frac{p(Z,m|X)}{q(Z|m)q(m)}\right\} \tag{10.34}$

其中 $L$ 是 $\ln p(X)$ 的下界，形式为

$L = \sum\limits_m\sum\limits_Zq(Z|m)q(m)\ln\left\{\frac{p(Z,X,m)}{q(Z|m)q(m)}\right\} \tag{10.35}$

这里，我们假定 $Z$ 是离散变量，但是同样的分析也适用于连续潜在变量，只要我们把求和替换为积分即可。我们可以使用拉格朗日乘数法关于概率分布 $q(m)$ 最大化 $L$ ，结果为

$q(m) \propto p(m)exp\{L_m\} \tag{10.36}$

其中

$L_m = \sum\limits_Zq(Z|m)\ln\left\{\frac{p(Z,X|m)}{q(Z|m)}\right\}$

然而，如果我们关于 $q(Z|m)$ 最大化L，那么我们发现对于不同的 $m$ 值，解是相互偶合的，这与我们预期相符，因为这些概率分布是以 $m$ 为条件的。我们接下来首先通过最优化（10.35），或等价的，最优化 $L_m$ ，来独立地最优化每个 $q(Z|m)$ ，然后使用式（10.36）来确定 $q(m)$ 。在对求得的 $q(m)$ 值进行标准化之后，它的值可以用于模型选择或者模型平均。

模型比较

results matching ""

No results matching ""