目前为止,我们将先验概率分布的超参数α看成一个已知参数。我们现在将贝叶斯logistic回归模型进行推广,使得这个参数的值可以从数据集中推断出来。这可以通过将全局变分近似和局部变分近似结合到一个框架中的方式完成,从而在每个阶段都保留边缘似然函数的下界。Bishop and Svenen(2003)在研究专家模型的层次混合的贝叶斯方法中,采用了这样一种组合的方法。
特别的,我们再次考虑一个简单的各向同性的高斯先验概率分布,形式为
p(w|α)=N(w|0,α−1I)
我们的分析可以推广到更一般的高斯先验分布中,例如,如果我们希望为参数wj的不同子集关联一个不同的超参数,那么我们就可以将我们的分析进行推广。与之前一样,我们考虑α上的共轭超先验,这是一个Gamma分布
p(α)=Gam(α|α0,b0)
它由常数a0和b0控制。
这个模型的边缘似然函数现在的形式为
p(t)=∫∫p(w,α,t)dwdα
其中,联合概率分布为
p(w,α,t)=p(t|w)p(w|α)p(α)
我们现在无法直接计算关于w和α的积分。我们会在同一个模型中使用全局的变分方法和局部的变分方法来解决这个问题。
首先,我们引入一个变分分布q(w,α),然后应用式(10.2)给出的分解方式。在这种情况
lnp(t)=L(q)+KL(q∥p)
其中,下界L(q)和Kullback-Leibler散度KL(q∥p)的定义为
L(q)=∫∫q(w,α)ln{p(w,α,t)q(w,α)}dwdαKL(q∥p)=−∫∫q(w,α)ln{p(w,α|t)q(w,α)}dwdα
现在,由于似然因子p(t|w)的形式,下界L(q)仍然无法求解。于是,与之前一样,我们对每个logistic sigmoid因子应用一个局部的变分界限。这使得我们可以使用不等式(10.152),得到L(q)的下界,这个下界也是对数似然函数的一个下界。
lnp(t)≥L(q)≥˜L(q,ξ)=∫∫q(w,α)ln{h(w,ξ)p(w|α)p(α)q(w,α)}dwdα
接下来我们假设变分分布可以在参数和超参数之间进行分解,即
q(w,α)=q(w)q(α)
有了这种分解,我们可以使用式(10.9)给出的一般结果,得到最优因子的表达式。首先考虑概率分布q(w)。丢弃与w无关的项,我们有
lnq(w)=Eα[ln{h(w,ξ)p(w|α)p(α)}]+const=lnh(w,ξ)+Eα[lnp(w|α)]+const
我们现在使用式(10.153)消去lnh(w,ξ),使用式(10.165)消去lnp(w|α),有
lnq(w)=−E[α]2wTw+N∑n=1{(tn−12)wTϕn−λ(ξn)wtϕnϕTnw}+const
我们看到这是w的一个二次函数,因此q(w)的解是高斯分布。使用通常的配平方方法,我们有
q(w)=N(w|μN,ΣN)
其中我们定义了
Σ−1NμN=N∑n=1(tn−12)ϕnΣ−1N=E[α]I+2N∑n=1λ(ξn)ϕnϕTn
类似的,因子q(α)的最优解为
lnq(α)=Ew[lnp(w|α)]+lnp(α)+const
使用式(10.165)消去lnp(w|α),使用式(10.166)消去lnp(α),我们有
lnq(α)=M2lnα−α2E[wTw]+(α0−1)lnα−b0α+const
我们看到这是一个Gamma分布的对数,因此我们有
q(α)=Gam(α|aN,bN)=1Γ(aN)abNNαaN−1e−bNα
其中
aN=a0+M2bN=b0+12Ew[wTw]
我们还需要最优化变分参数ξn,这也可以通过最大化下界˜L(q,ξ)的方式得到。略去与ξ无关的项,对α积分,我们有
˜L(q,ξ)=∫q(w)lnh(w,ξ)dw+const
注意,它的形式与式(10.160)的形式完全相同,因此我们可以使用我们之前的结果(10.163),它可以通过直接对边缘似然函数的最优化得到,从而重估计方程的形式为
(ξnew)2=ϕTn(ΣN+μNμTN)ϕn
我们已经得到了三个量q(w),q(α)和ξ的重估计方程,因此在进行合适的最优化之后,我们可以在这些量之间进行循环,每次都对各个量进行更新。所要求解的各阶矩为
E[α]=aNbNE[wwT]=ΣN+μNμTN