具有高斯噪声分布的线性回归模型,误差函数,对应的负对数似然函数,由式(3.12)给出。如果我们在数据点n处,关于对误差函数贡献的参数向量w求导数,它具有“误差”yn−tn乘以特征向量ϕn的形式,其中yn=wTϕn。同样的,对于结合logistic sigmoid激活函数和交叉熵误差函数(4.90),或多类别交叉熵误差函数的softmax激活函数(4.108),我们都获得了同样简单的形式。现在我们证明,如果假设目标变量的条件分布是指数族分布,对应的激活函数为标准链接函数(canonical link function),那么这个结果是一个一般的结果。
再次使用式(4.84)给出的指数族分布限制。注意,这里我们把指数族分布的假设应用于目标变量t,而不是4.2.4节中应用于输入向量x。考虑目标变量的条件分布形式
p(t|η,s)=1sh(hs)g(η)exp{ηts}
使用与推导式(2.226)时相同的方法,得到t的条件均值(记作y)为
y≡E[t|η]=−sddηlng(η)
因此y,η一定相关,我们把这个关系记作η=φ(y)。
根据Nelder and Wedderburn(1972)的方法,我们把广义线性模型定义成y是输入(或特征)变量线性组合的非线性函数,即
y=f(wTϕ)
其中f(˙)在机器学习中被称为激活函数,f−1(˙)在统计学中被称为连接函数。
现在考虑这个模型的对数似然函数,这是一个关于η的函数,由
lnp(t|η,s)=N∑n=1lnp(tn|η,s)=N∑n=1{lng(ηn)+ηntns}+const
其中我们假设所有观测共享共同的缩放参数(对应如服从高斯分布噪声的方差),因此s,n是无关的。关于模型参数w的对数似然函数的导数为
∇wlnp(t|η,s)=N∑n=1{ddηnlng(ηn)+tns}dηndyndyndan∇aa=N∑n=11s{tn−yn}φ′(yn)f′(an)ϕn
其中an=wTϕn,且一起使用了yn=f(an)和式(4.119)关于E[t|η]的结果。现在,我们看到,如果我们的链接函数f−1(y)的形式为
f−1(y)=φ(y)
那么表达式会得到极大的简化。这得到f(φ(y))=y,因此f′(φ)φ′(y)=1。同样的,由于a=f−1(y),得到a=φ,因此f′(a)φ′(y)=1。这种情况下,误差函数的梯度退化为
∇lnE(w)=1sN∑n=1{yn−tn}ϕn
对于高斯分布s=β−1,而对于logistic模型s=1。