目前为止，我们假定了超参数 $\alpha, \beta$ 是固定的、已知的。我们可以使用3.5节讨论的模型证据框架，结合使用拉普拉斯近似得到的后验概率的高斯近似，得到确定这些超参数的值的步骤。

超参数的边缘似然函数，或模型证据，可以通过对网络权值进行积分的方法得到：

$p(D|\alpha,\beta) = \int p(D|w,\beta)p(w|\alpha)dw \tag{5.174}$

通过使用拉普拉斯近似的结果（4.135），这个积分很容易计算。取对数，得到

$\ln p(D|\alpha,\beta) \simeq - E(w_{MAP}) - \frac{1}{2}\ln\vert A \vert + \frac{W}{2}\ln\alpha + \frac{N}{2}\ln\beta - \frac{N}{2}\ln (2\pi) \tag{5.175}$

其中 $W$ 是 $w$ 中参数的总数。正则化误差函数的定义为

$E(w_{MAP}) = \frac{\beta}{2}\sum\limits_{n=1}^N\{y(x_n,w_{MAP}) - t_n\}^2 + \frac{\alpha}{2}w_{MAP}^Tw_{MAP} \tag{5.176}$

我们看到这与线性回归模型的对应的结果（3.86）的函数形式相同。

在模型证据框架中，我们通过最大化 $\ln p(D | \alpha, \beta)$ 对 $\alpha, \beta$ 进行点估计。首先考虑关于 $\alpha$ 进行最大化，这可以通过与3.5.2节讨论的线性回归的情形相类似的方法计算。首先，我们定义特征值方程

$\beta H\mu_i = \lambda_i\mu_i \tag{5.177}$

其中 $H$ 是在 $w = w_{MAP}$ 处计算的Hessian矩阵，由平方和误差函数的二阶导数组成。通过类比式（3.92）得到

$\alpha = \frac{\gamma}{w_{MAP}^Tw_{MAP}} \tag{5.178}$

其中 $\gamma$ 表示参数的有效数量，定义为

$\gamma = \sum\limits_{i=1}^W\frac{\lambda_i}{\alpha + \lambda_i} \tag{5.179}$

注意，这个结果与线性回归的情形完全相同。然而，对于非线性神经网络，它忽略了下面的事实： $\alpha$ 的改变会引起Hessian矩阵H的改变，进而改变特征值。于是，我们隐式地忽略了涉及到 $\lambda_i$ 关于 $\alpha$ 的导数的项。

同样的，根据式（3.95），我们看到，关于 $\beta$ 最大化模型证据，可以得到形式为

$\frac{1}{\beta} = \frac{1}{N - \gamma}\sum\limits_{n=1}^N\{y(x_n,w_{MAP}) - t_n\}^2 \tag{5.180}$

的重估计公式。

与线性模型一样，我们需要交替地进行超参数 $\alpha, \beta$ 的重新估计以及后验概率分布的更新。然而，对于神经网络来说，由于后验概率分布的多峰性质，情况更复杂。结果，使用最大化对数后验概率的方法找到的解 $w_{MAP}$ 将依赖于 $w$ 的初始化。只要我们考虑的是预测问题，那么仅仅由于隐藏层的结点交换和符号改变所造成的不同结果将给出相同的预测，并且预测的结果与等价解中的哪一个解被找到没有关系。然而，也可能存在不等价的解，这些通常会产生不同的最优超参数。

为了比较不同的模型，如具有不同隐含单元数量的神经网络，我们需要计算模型证据 $p(D)$ 。将使用迭代最优化过程得到的超参数值 $\alpha, \beta$ 代入式（5.175），我们可以得到模型证据的近似。一个更加仔细的计算方法是关于 $\alpha, \beta$ 求积分，并同时使用一个高斯近似(MacKay, 1992; Bishop, 1995a)。在这两种方法中，都需要计算Hessian矩阵的行列式 $\vert A \vert$ 。因为与矩阵的迹不同，行列式对于小的特征值比较敏感，而这些特征值通常很难精确计算，这在实际应用中会有很大的问题。

拉普拉斯近似基于的是权值的后验概率分布的众数附近的局部二次展开。在5.1.1节，我们已经看到，在两层神经网络中，任意给定的众数都是 $M!2^M$ 个等价的众数中的一个，这些等价的众数由网络的互换对称性和符号对称性造成，其中 $M$ 是隐藏结点的数量。当比较具有不同隐藏结点数量的网络时，考虑到这一点需要将模型证据乘以因子 $M!2^M$ 。

超参数优化

results matching ""

No results matching ""