具有高斯噪声分布的线性回归模型,误差函数,对应的负对数似然函数,由式(3.12)给出。如果我们在数据点处,关于对误差函数贡献的参数向量求导数,它具有“误差”乘以特征向量的形式,其中。同样的,对于结合logistic sigmoid激活函数和交叉熵误差函数(4.90),或多类别交叉熵误差函数的softmax激活函数(4.108),我们都获得了同样简单的形式。现在我们证明,如果假设目标变量的条件分布是指数族分布,对应的激活函数为标准链接函数(canonical link function),那么这个结果是一个一般的结果。
再次使用式(4.84)给出的指数族分布限制。注意,这里我们把指数族分布的假设应用于目标变量,而不是4.2.4节中应用于输入向量。考虑目标变量的条件分布形式
使用与推导式(2.226)时相同的方法,得到的条件均值(记作)为
因此一定相关,我们把这个关系记作。
根据Nelder and Wedderburn(1972)的方法,我们把广义线性模型定义成是输入(或特征)变量线性组合的非线性函数,即
其中在机器学习中被称为激活函数,在统计学中被称为连接函数。
现在考虑这个模型的对数似然函数,这是一个关于的函数,由
其中我们假设所有观测共享共同的缩放参数(对应如服从高斯分布噪声的方差),因此是无关的。关于模型参数的对数似然函数的导数为
其中,且一起使用了和式(4.119)关于的结果。现在,我们看到,如果我们的链接函数的形式为
那么表达式会得到极大的简化。这得到,因此。同样的,由于,得到,因此。这种情况下,误差函数的梯度退化为
对于高斯分布,而对于logistic模型。