提升方法最早起源于统计学习理论,得到了泛化误差的上界。然而,这些上界过于宽松,没有实际的价值。提升方法的实际表现要远优于上界给出的值。Friedman et al.(2000)根据对一个指数误差函数的顺序最小化,给出了提升方法的一个不同的且非常简单的表述。
考虑下面定义的指数误差函数
其中是一个根据基分类器的线性组合定义的分类器,形式为
是训练集目标值。我们的目标是关于权系数和基分类器最小化。
然而,我们不进行误差函数的全局最小化,而是假设基分类器以及它们的系数固定,因此我们只关于和进行最小化。分离出基分类器的贡献,我们可以将误差函数写成
其中,系数可以被看做常数,因为我们只针对和进行最如果我们将被正确分类的数据点的集合记作,并且将剩余的误分类的点记作,那么我们可以将误差函数写成下面的形式
当我们关于进行最小化时,我们看到第二项是常数,因此这等价于对(14.15)进行最小化,因为在求和式前面的整个可乘性因子不影响最小值的位置。类似地,关于最小化,我们得到了式(14.17),其中由式(14.16)定义。
根据式(14.22),我们看到,找到和之后,数据点的权值使用下面的公式进行更新
使用下面的事实
我们看到在下一次迭代中,权值的更新为
由于与无关,因此我们看到它对于所有数据点的权值都贡献一个相同的因子,从而可以丢弃。这样我们就得到了式(14.18)。
最后,一旦所有的基分类器被训练完毕,新数据点通过计算由(14.21)定义的组合函数的符号进行分类。由于因子不影响符号,因此可以省略,得到了式(14.19)。