这里,我们会使用一种基于10.5节介绍的局部界限的变分方法。这使得logistic回归的似然函数(由logistic sigmoid函数控制)可以有指数的二次形式近似。因此,与之前一样,比较方便的做法是选择形式为(4.140)的共轭高斯先验。现阶段,我们会将超参数看成固定的常数。在10.6.3节,我们会展示变分形式如何扩展到超参数未知的情形,这种情况下,超参数的值要从数据中进行推断。

在变分的框架上,我们寻找边缘似然函数的下界的最大值。对于贝叶斯logistic回归模型,边缘似然函数的形式为

首先,我们注意到的条件概率分布可以写成

其中。为了得到的下界,我们使用式(10.144)给出的logistic sigmoid函数的变分下界。为了方便,我们在这里重新写一下。

其中

于是,得到

注意,由于这个下界分别作用于似然函数的每一项,因此存在一个变分参数,对应于训练集的每个观测。使用,乘以先验概率分布,我们可以得到下面的的联合概率分布。

其中,表示变分参数的集合,并且

精确计算这个后验概率分布需要对不等式的左侧进行标准化。由于这是无法计算的,因此我们反过来对右侧进行操作。注意,右侧的函数不能看成一个概率密度,因为它没有被标准化。但是,一旦它被标准化,来表示一个后验概率分布,它就不再表示下界了。

由于对数函数是单调递增的函数,因此不等式表示。这给出了之间的联合概率分布的对数的下界,形式为

代入先验概率分布,不等式的右侧变成了一个关于的函数,形式为

这是的一个二次函数,因此我们可以通过分裂出的线性项和二次项,得到后验概率分布的对应的变分近似,这是一个高斯变分后验概率,形式为

其中

与拉格朗日框架一样,我们又一次得到了对后验概率分布的一个高斯近似。然后,变分参数提供的额外的灵活性使得这个近似的精度更高(Jaakkola and Jordan, 2000)。

这里,我们考虑了一个批量学习的问题,其中所有的训练数据能够一次全部得到。然而,贝叶斯方法本质上相当适用于顺序学习的问题,其中数据点每次只处理一个,然后被丢弃。得到顺序学习情形下的变分方法的公式是很容易的。

注意,式(10.149)给出的下界只适用于二分类问题,因此这个方法不能直接推广到个类别的多类问题。Gibbs(1997)研究了多分类问题的另一种下界的形式。

results matching ""

    No results matching ""