目前为止,在本章中学习的概率分布(除了高斯混合分布)都是一种叫做指数族这一大类分布中的特殊例子(Duda and Hart, 1973; Bernardo and Smith, 1994)。指数族分布的成员拥有很多共同的重要性质,且在某种程度的通用性下讨论这些性质很有启发性。
给定参数η的x上的指数族分布是具有
p(x|η)=h(x)g(η)exp{ηTu(x)}
形式的概率分布的集合。其中x可以是标量也可以是向量,可以是连续的也可以是离散的。η是分布的自然参数(natural parameters),u(x)是关于x的某个函数。函数g(η)可以解释为是为了保证分布标准化的系数,且满足:
g(η)∫h(x)exp{ηTu(x)}dx=1
其中,对于离散变量积分就变成求和。
首先,给出一些本章之前讨论的一些分布,然后证明这些分布确实是指数族分布。首先考虑伯努利分布:
p(x|μ)=Bern(x|μ)=μx(1−μ)1−x
把右侧表示成对数的指数形式,得到:
p(x|μ)=exp{xlnμ+(1−x)ln(1−μ)}=(1−μ)exp{ln(μ1−μ)x}
与公式(2.194)对照,得到:
η=ln(μ1−μ)
然后就可以解出μ=δ(η),其中
δ(η)=11+exp(−η)
这就是logistic sigmoid函数。因此可以把伯努利分布写成式(2.194)的标准形式:
p(x|η)=δ(−η)exp(ηx)
其中使用了可以从式(2.199)中很容易证明的1−δ(η)=δ(−η),对比公式(2.194)得到:
u(x)=xh(x)=1g(η)=δ(−η)
接下来,考虑单观测值x的多项式分布:
p(x|μ)=M∏k=1μxkk=exp{M∑k=1xklnμk}
其中x=(x1,...,xN)T。同样的,可以写成式(2.194)的标准形式:
p(x|η)=exp(ηTx)
其中ηk=lnμk,且定义了η=(η1,...,ηM)T。同样,对比式(2.194)得到:
u(x)=xh(x)=1g(η)=1
注意,因为参数μk要满足
M∑k=1μk=1
,所以给定任意M−1个参数μk剩下的参数就固定了,因此参数ηk不是相互独立的。在某些情况下,去掉这个限制,只用M−1个参数来表示分布会比较方便。可以使用式(2.209)中的关系,用{μk},k=1,...,M−1来表示最后的μM,这样就只剩下M−1个参数了。注意,剩余的参数仍然要满足:
0≤μk≤1,M−1∑k=1μk≤1
使用式(2.209)的约束,这种表达方式下多项式分布变成:
exp{M∑k=1xklnμk}=exp{M−1∑k=1xklnμk+(1−M−1∑k=1xk)ln(1−M−1∑k=1μk)}=exp{M−1∑k=1xkln(μk1−∑M−1j=1μj)+ln(1−M−1∑k=1μk)}
现在,确定
ln(μk1−∑jμj)=ηk
首先两边对k求和,然后重新整理,回带,就可以解出μk:
μk=exp(ηk)1+∑jexp(ηj)
这被称为softmax函数,或标准化指数(normalized exponential)。在这种表达方式下,多项式分布具有:
p(x|η)=(1+M−1∑k=1exp(ηk))−1exp(ηTx)
这是具有参数向量η=(η1,...,ηM−1)T的指数族的标准形式。其中:
u(x)=xh(x)=1g(η)=(1+M−1∑k=1exp(ηk))−1
最后,考察高斯分布。对于一元高斯有:
p(x|μ,δ2)=1(2πδ2)1/2exp{−12δ2(x−μ)2}=1(2πδ2)1/2exp{−12δ2x2+μδ2x−12δ2μ2}
经过一些简单的重排列之后,可以转化为式(2.194)给出的标准指数族分布的形式,其中:
η=(μ/δ2−1/2δ2)u(x)=(xx2)h(x)=(2π)−1/2g(η)=(−2η2)1/2exp(η214η2)
一些证明
2.213
由式2.212可得
μk=(1−∑jμj)exp(ηk)
令t=1−∑jμj那么我们就有μk=texp(ηk)
于是
t=1−∑jμj=1−∑jtexp(ηj)=1−t∑jexp(ηj)
整理可得
t=11+∑jexp(ηj)
带回前式我们就得到
μk=exp(ηj)1+∑jexp(ηj)