目前为止，在本章中学习的概率分布（除了高斯混合分布）都是一种叫做指数族这一大类分布中的特殊例子（Duda and Hart, 1973; Bernardo and Smith, 1994）。指数族分布的成员拥有很多共同的重要性质，且在某种程度的通用性下讨论这些性质很有启发性。

给定参数 $\eta$ 的 $x$ 上的指数族分布是具有

$p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\} \tag{2.194}$

形式的概率分布的集合。其中 $x$ 可以是标量也可以是向量，可以是连续的也可以是离散的。 $\eta$ 是分布的自然参数（natural parameters）， $u(x)$ 是关于 $x$ 的某个函数。函数 $g(\eta)$ 可以解释为是为了保证分布标准化的系数，且满足：

$g(\eta)\int h(x)exp\{\eta^Tu(x)\}dx = 1 \tag{2.195}$

其中，对于离散变量积分就变成求和。

首先，给出一些本章之前讨论的一些分布，然后证明这些分布确实是指数族分布。首先考虑伯努利分布：

$p(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{1-x} \tag{2.196}$

把右侧表示成对数的指数形式，得到：

$\begin{eqnarray} p(x|\mu) &=& exp\{x\ln \mu + (1-x)\ln (1-\mu)\} \\ &=& (1-\mu)exp\left\{\ln\left(\frac{\mu}{1-\mu}\right)x\right\} \tag{2.197} \end{eqnarray}$

与公式（2.194）对照，得到：

$\eta = \ln\left(\frac{\mu}{1-\mu}\right) \tag{2.198}$

然后就可以解出 $\mu = \delta (\eta)$ ，其中

$\delta (\eta) = \frac{1}{1+exp(-\eta)} \tag{2.199}$

这就是logistic sigmoid函数。因此可以把伯努利分布写成式（2.194）的标准形式：

$p(x|\eta) = \delta(-\eta)exp(\eta x) \tag{2.200}$

其中使用了可以从式（2.199）中很容易证明的 $1 - \delta(\eta) = \delta(-\eta)$ ，对比公式（2.194）得到：

$\begin{eqnarray} u(x) &=& x \tag{2.201} \\ h(x) &=& 1 \tag{2.202} \\ g(\eta) &=& \delta(-\eta) \tag{2.203} \end{eqnarray}$

接下来，考虑单观测值 $x$ 的多项式分布：

$p(x|\mu) = \prod\limits_{k=1}^M\mu_k^{x_k} = exp\left\{\sum\limits_{k=1}^M x_k \ln\mu_k \right\} \tag{2.204}$

其中 $x = (x_1,...,x_N)^T$ 。同样的，可以写成式（2.194）的标准形式：

$p(x|\eta) = exp(\eta^Tx) \tag{2.205}$

其中 $\eta_k = \ln \mu_k$ ，且定义了 $\eta = (\eta_1,...,\eta_M)^T$ 。同样，对比式（2.194）得到：

$\begin{eqnarray} u(x) = x \tag{2.206} \\ h(x) = 1 \tag{2.207} \\ g(\eta) = 1 \tag{2.208} \end{eqnarray}$

注意，因为参数 $\mu_k$ 要满足

$\sum\limits_{k=1}^M\mu_k = 1 \tag{2.209}$

，所以给定任意 $M − 1$ 个参数 $\mu_k$ 剩下的参数就固定了，因此参数 $\eta_k$ 不是相互独立的。在某些情况下，去掉这个限制，只用 $M − 1$ 个参数来表示分布会比较方便。可以使用式（2.209）中的关系，用 $\{\mu_k\}，k=1,...,M-1$ 来表示最后的 $\mu_M$ ，这样就只剩下 $M - 1$ 个参数了。注意，剩余的参数仍然要满足：

$0 \leq \mu_k \leq 1, \sum\limits_{k=1}^{M-1}\mu_k \leq 1 \tag{2.210}$

使用式（2.209）的约束，这种表达方式下多项式分布变成：

$\begin{eqnarray} &exp&\left\{\sum\limits_{k=1}^Mx_k\ln \mu_k \right\} \\ &=& exp\left\{\sum\limits_{k=1}^{M-1}x_k\ln\mu_k + \left(1-\sum\limits_{k=1}^{M-1}x_k\right)\ln\left(1-\sum\limits_{k=1}^{M-1}\mu_k\right)\right\} \\ &=& exp\left\{\sum\limits_{k=1}^{M-1}x_k\ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right) + \ln\left(1-\sum\limits_{k=1}^{M-1}\mu_k\right)\right\} \tag{2.211} \end{eqnarray}$

现在，确定

$\ln\left(\frac{\mu_k}{1-\sum_j\mu_j}\right)=\eta_k \tag{2.212}$

首先两边对 $k$ 求和，然后重新整理，回带，就可以解出 $\mu_k$ ：

$\mu_k = \frac{exp(\eta_k)}{1+\sum_jexp(\eta_j)} \tag{2.213}$

这被称为softmax函数，或标准化指数（normalized exponential）。在这种表达方式下，多项式分布具有：

$p(x|\eta) = \left(1 + \sum\limits_{k=1}^{M-1}exp(\eta_k)\right)^{-1} exp(\eta^Tx) \tag{2.214}$

这是具有参数向量 $\eta = (\eta_1,...,\eta_{M-1})^T$ 的指数族的标准形式。其中：

$\begin{eqnarray} u(x) &=& x \tag{2.215} \\ h(x) &=& 1 \tag{2.216} \\ g(\eta) &=& \left(1+\sum\limits_{k=1}^{M-1}exp(\eta_k)\right)^{-1} \tag{2.217} \end{eqnarray}$

最后，考察高斯分布。对于一元高斯有：

$\begin{eqnarray} p(x|\mu,\delta^2) &=& \frac{1}{(2\pi\delta^2)^{1/2}}exp\left\{-\frac{1}{2\delta^2}(x-\mu)^2\right\} \tag{2.218} \\ &=& \frac{1}{(2\pi\delta^2)^{1/2}}exp\left\{-\frac{1}{2\delta^2}x^2 + \frac{\mu}{\delta^2}x - \frac{1}{2\delta^2}\mu^2 \right\} \tag{2.219} \end{eqnarray}$

经过一些简单的重排列之后，可以转化为式（2.194）给出的标准指数族分布的形式，其中：

$\begin{eqnarray} \eta &=& \left( \begin{array}{c} \mu/\delta^2 \\ -1/2\delta^2 \end{array} \right) \tag{2.220} \\ u(x) &=& \left( \begin{array}{c} x \\ x^2 \end{array} \right) \tag{2.221} \\ h(x) &=& (2\pi)^{-1/2} \tag{2.222} \\ g(\eta) &=& (-2\eta_2)^{1/2}exp\left(\frac{\eta_1^2}{4\eta_2}\right) \tag{2.223} \end{eqnarray}$

一些证明

2.213

由式2.212可得

$\mu_k=\left(1-\sum_j\mu_j\right)exp(\eta_k)$

令 $t = 1-\sum_j\mu_j$ 那么我们就有 $\mu_k = texp(\eta_k)$
于是 $\begin{eqnarray} t &=& 1-\sum_j\mu_j \\ &=& 1 - \sum_jt exp(\eta_j) \\ &=& 1 - t\sum_jexp(\eta_j) \end{eqnarray}$

整理可得

$t = \frac{1}{1+\sum_jexp(\eta_j)}$

带回前式我们就得到

$\mu_k = \frac{exp(\eta_j)}{1+\sum_jexp(\eta_j)}$

指数族

一些证明

2.213

results matching ""

No results matching ""