目前为止,在本章中学习的概率分布(除了高斯混合分布)都是一种叫做指数族这一大类分布中的特殊例子(Duda and Hart, 1973; Bernardo and Smith, 1994)。指数族分布的成员拥有很多共同的重要性质,且在某种程度的通用性下讨论这些性质很有启发性。

给定参数ηx上的指数族分布是具有

p(x|η)=h(x)g(η)exp{ηTu(x)}

形式的概率分布的集合。其中x可以是标量也可以是向量,可以是连续的也可以是离散的。η是分布的自然参数(natural parameters),u(x)是关于x的某个函数。函数g(η)可以解释为是为了保证分布标准化的系数,且满足:

g(η)h(x)exp{ηTu(x)}dx=1

其中,对于离散变量积分就变成求和。

首先,给出一些本章之前讨论的一些分布,然后证明这些分布确实是指数族分布。首先考虑伯努利分布:

p(x|μ)=Bern(x|μ)=μx(1μ)1x

把右侧表示成对数的指数形式,得到:

p(x|μ)=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(μ1μ)x}

与公式(2.194)对照,得到:

η=ln(μ1μ)

然后就可以解出μ=δ(η),其中

δ(η)=11+exp(η)

这就是logistic sigmoid函数。因此可以把伯努利分布写成式(2.194)的标准形式:

p(x|η)=δ(η)exp(ηx)

其中使用了可以从式(2.199)中很容易证明的1δ(η)=δ(η),对比公式(2.194)得到:

u(x)=xh(x)=1g(η)=δ(η)

接下来,考虑单观测值x的多项式分布:

p(x|μ)=Mk=1μxkk=exp{Mk=1xklnμk}

其中x=(x1,...,xN)T。同样的,可以写成式(2.194)的标准形式:

p(x|η)=exp(ηTx)

其中ηk=lnμk,且定义了η=(η1,...,ηM)T。同样,对比式(2.194)得到:

u(x)=xh(x)=1g(η)=1

注意,因为参数μk要满足

Mk=1μk=1

,所以给定任意M1个参数μk剩下的参数就固定了,因此参数ηk不是相互独立的。在某些情况下,去掉这个限制,只用M1个参数来表示分布会比较方便。可以使用式(2.209)中的关系,用{μk}k=1,...,M1来表示最后的μM,这样就只剩下M1个参数了。注意,剩余的参数仍然要满足:

0μk1,M1k=1μk1

使用式(2.209)的约束,这种表达方式下多项式分布变成:

exp{Mk=1xklnμk}=exp{M1k=1xklnμk+(1M1k=1xk)ln(1M1k=1μk)}=exp{M1k=1xkln(μk1M1j=1μj)+ln(1M1k=1μk)}

现在,确定

ln(μk1jμj)=ηk

首先两边对k求和,然后重新整理,回带,就可以解出μk

μk=exp(ηk)1+jexp(ηj)

这被称为softmax函数,或标准化指数(normalized exponential)。在这种表达方式下,多项式分布具有:

p(x|η)=(1+M1k=1exp(ηk))1exp(ηTx)

这是具有参数向量η=(η1,...,ηM1)T的指数族的标准形式。其中:

u(x)=xh(x)=1g(η)=(1+M1k=1exp(ηk))1

最后,考察高斯分布。对于一元高斯有:

p(x|μ,δ2)=1(2πδ2)1/2exp{12δ2(xμ)2}=1(2πδ2)1/2exp{12δ2x2+μδ2x12δ2μ2}

经过一些简单的重排列之后,可以转化为式(2.194)给出的标准指数族分布的形式,其中:

η=(μ/δ21/2δ2)u(x)=(xx2)h(x)=(2π)1/2g(η)=(2η2)1/2exp(η214η2)

一些证明

2.213

由式2.212可得

μk=(1jμj)exp(ηk)

t=1jμj那么我们就有μk=texp(ηk)
于是 t=1jμj=1jtexp(ηj)=1tjexp(ηj)

整理可得

t=11+jexp(ηj)

带回前式我们就得到

μk=exp(ηj)1+jexp(ηj)

results matching ""

    No results matching ""