在第2章中，我们讨论了指数族概率分布和它们的共轭先验的重要作用。对于本书中讨论的许多模型来说，完整数据是服从指数族分布的。然而，通常这对于观测数据的边缘似然函数来说是不成立的。例如，在混合高斯模型中，观测数据 $x_n$ 和对应的隐含变量 $z_n$ 的联合概率分布是指数族分布的成员，但是 $x_n$ 的边缘概率分布是高斯混合分布，因此不是指数族的成员。

目前为止，我们将模型中的变量分为了观测变量和隐含变量两组。我们现在进一步地将潜在变量和参数区分开。潜在变量（记作 $Z$ ）是分散的（extensive），它的数量随着数据集规模的增大而增大。参数（记作 $\theta$ ）是聚集的（intensive），它的数量固定，与数据集的规模无关。例如，在高斯混合模型中，指示变量 $z_{kn}$ （表示哪个分量 $k$ 对生成数据点 $x_n$ 起作用）表示潜在变量，而均值 $\mu_k$ 、精度 $\Lambda_k$ 以及混合系数 $\pi_k$ 表示参数。

考虑独立同分布数据的情形。我们将数据的值记作 $X = \{x_n\}$ 其中 $n = 1,...,N$ ，对应的潜在变量为 $Z = \{z_n\}$ 。现在假设观测变量和隐含变量的联合概率分布为指数族分布的成员，参数为自然参数 $\eta$ ，即

$p(X,Z|\eta) = \prod\limits_{n=1}^Nh(x_n,z_n)g(\eta)exp\{\eta^Tu(x_n,z_n)\} \tag{10.113}$

使用 $\eta$ 的共轭先验，可以把它写成

$p(\eta|\nu_0,\chi_0) = f(\nu_0,\chi_0)g(\eta)^{\nu_0}exp\{\nu_0\eta^T\chi_0\} \tag{10.114}$

回忆一下，共轭先验分布的意义为，对于 $u$ 向量来说，所有值为 $\chi_0$ 的观测的先验数量 $\nu_0$ 。现在考虑一个变分分布，它可以在潜在变量和参数之间进行分解，即 $q(Z, \eta) = q(Z)q(\eta)$ 。使用一般的结果（10.9），我们可以解出这两个因子，如下所述。

$\begin{eqnarray} \ln q^*(Z) &=& \mathbb{E}_\eta[\ln p(X,Z|\eta)] + const \\ &=& \sum\limits_{n=1}^N\{\ln h(x_n,z_n) + \mathbb{E}[\eta^T]u(x_n,z_n)\} + const \tag{10.115} \end{eqnarray}$

因此我们看到它可以分解为一组相互独立的项的和,每个 $n$ 都对应于一项，因此 $q^*(Z)$ 的解可以在 $n$ 上进行分解，即 $q^*(Z) = \prod_n q^*(z_n)$ 。这是诱导分解的一个例子。两侧取指数，我们有

$q^*(z_n) = h(x_n,z_n)g(\mathbb{E}[\eta])exp\{\mathbb{E}[\eta^T]u(x_n,z_n)\} \tag{10.116}$

其中标准化系数已经通过与指数族分布的标准形式进行比较的方式得到。

类似的，对于参数上的变分分布，我们有

$\begin{eqnarray} \ln q^*(\eta) &=& \ln p(\eta|\nu_0,\chi_0) + \mathbb{E}_Z[\ln p(X,Z|\eta)] + const \tag{10.117} \\ &=& \nu_0\ln g(\eta) + \nu_0\eta^T\chi_0+\sum\limits_{n=1}^N\{\ln g(\eta) + \eta^T\mathbb{E}_{z_n}[u(x_n,z_n)]\} + const \tag{10.118} \end{eqnarray}$

同样的，两侧取指数，然后通过观察法确定标准化系数，我们有

$q^*(\eta) = f(\nu_N,\chi_N)g(\eta)^{\nu_N}exp\{\nu_N\eta^T\chi_N\} \tag{10.119}$

其中我们已经定义了

$\begin{eqnarray} \nu_N &=& \nu_0 + N \tag{10.120} \\ \nu_N\chi_N &=& \nu_0\chi_0 + \sum\limits_{n=1}^N\mathbb{E}_{z_n}[u(x_n,z_n)] \tag{10.121} \end{eqnarray}$

注意， $q^*(z_n)$ 的解与 $q^*(\eta)$ 的解相互偶合，因此我们可以使用一个两阶段的迭代方法进行求解。在变分E步骤中，我们使用潜在变量上的当前后验概率分布 $q(z_n)$ 计算充分统计量的期望 $\mathbb{E}[u(x_n, z_n)]$ ，并且使用这个结果计算参数上的修正的后验概率分布 $q(\eta)$ 。然后，在接下来的变分M步骤中，我们使用修正后的参数后验概率分布寻找自然参数的期望 $E[\eta^T]$ ，它给出了潜在变量上的修正后的变分分布。

指数族分布

results matching ""

No results matching ""