具有高斯噪声分布的线性回归模型,误差函数,对应的负对数似然函数,由式(3.12)给出。如果我们在数据点n处,关于对误差函数贡献的参数向量w求导数,它具有“误差”yntn乘以特征向量ϕn的形式,其中yn=wTϕn。同样的,对于结合logistic sigmoid激活函数和交叉熵误差函数(4.90),或多类别交叉熵误差函数的softmax激活函数(4.108),我们都获得了同样简单的形式。现在我们证明,如果假设目标变量的条件分布是指数族分布,对应的激活函数为标准链接函数(canonical link function),那么这个结果是一个一般的结果。

再次使用式(4.84)给出的指数族分布限制。注意,这里我们把指数族分布的假设应用于目标变量t,而不是4.2.4节中应用于输入向量x。考虑目标变量的条件分布形式

p(t|η,s)=1sh(hs)g(η)exp{ηts}

使用与推导式(2.226)时相同的方法,得到t的条件均值(记作y)为

yE[t|η]=sddηlng(η)

因此y,η一定相关,我们把这个关系记作η=φ(y)

根据Nelder and Wedderburn(1972)的方法,我们把广义线性模型定义成y是输入(或特征)变量线性组合的非线性函数,即

y=f(wTϕ)

其中f(˙)在机器学习中被称为激活函数,f1(˙)在统计学中被称为连接函数。

现在考虑这个模型的对数似然函数,这是一个关于η的函数,由

lnp(t|η,s)=Nn=1lnp(tn|η,s)=Nn=1{lng(ηn)+ηntns}+const

其中我们假设所有观测共享共同的缩放参数(对应如服从高斯分布噪声的方差),因此s,n是无关的。关于模型参数w的对数似然函数的导数为

wlnp(t|η,s)=Nn=1{ddηnlng(ηn)+tns}dηndyndyndanaa=Nn=11s{tnyn}φ(yn)f(an)ϕn

其中an=wTϕn,且一起使用了yn=f(an)和式(4.119)关于E[t|η]的结果。现在,我们看到,如果我们的链接函数f1(y)的形式为

f1(y)=φ(y)

那么表达式会得到极大的简化。这得到f(φ(y))=y,因此f(φ)φ(y)=1。同样的,由于a=f1(y),得到a=φ,因此f(a)φ(y)=1。这种情况下,误差函数的梯度退化为

lnE(w)=1sNn=1{yntn}ϕn

对于高斯分布s=β1,而对于logistic模型s=1

results matching ""

    No results matching ""