考虑从输入向量预测单一连续目标变量的问题(扩展到多个目标变量的情形很容易)。我们假设条件概率分布是一个高斯分布,均值与有关,由神经网络模型的输出确定,精度(方差的逆)

同样的,我们将权值的先验概率分布设为形式为

的高斯分布。对于次独立同分布的观测,对应的目标值集合,似然函数为

因此最终的后验概率为

由于的关系是非线性的,因此后验概率不是高斯分布。

使用拉普拉斯近似,我们可以找到对于后验概率分布的一个高斯近似。为了达到这个目的,我们必须首先需要得到使用迭代的数值最优化算法才能找到的后验概率分布的一个(局部)最大值。同样的,比较方便的做法是最大化后验概率分布的对数:

这对应于一个正则化的平方和误差函数。假设都是定值,那么我们可以通过标准的非线性最优化算法(如共轭梯度法),使用误差反向传播计算所需的导数,找到后验概率的最大值。我们将最大值的位置记作

找到了的众数,我们就可以通过计算后验概率分布的负对数的二阶导数,建立一个局部的高斯近似。根据式(5.165),负对数后验概率的二阶导数为

这里,是一个Hessian矩阵,由平方和误差函数关于的分量组成。计算和近似Hessian矩阵的方法已经在4节讨论过。这样,根据式(4.134)可以得到后验概率对应的形式为

高斯近似。同样,预测分布可以通过将后验概率分布求积分的方式获得

然而,即使是后验分布的高斯近似,因为网络函数的关系是非线性的,这个积分仍然无法得到解析解。为了将计算过程进行下去,现在我们假设,与发生变化造成的的变化幅度相比,后验概率分布的方差较小。这使得我们可以在附近对网络函数进行泰勒展开。只保留展开式的线性项,可得:

其中我们定义

使用这个近似,我们得到了一个线性高斯模型,为高斯分布。且也是高斯分布,它的均值是的线性函数,分布的形式为

于是我们可以使用式(2.115)给出的边缘分布的一般结果,得到

其中,与输入相关的方差为

我们看到预测分布是一个高斯分布,它的均值由网络函数给出,参数设置为了MAP值。方差由两项组成:第一项来自目标变量的固有噪声,第二项是一个与相关的项,表示由于模型参数的不确定性造成的内插的不确定性。可以将这个结果与式(3.58)和(3.59)给出的线性回归模型的对应的预测分布进行对比。

results matching ""

    No results matching ""