通过切线传播(tangent propagation)方法,我们可以使用正则化来让模型对于输入的变换具有不变性(Simard et al., 1992)。对于一个特定的输入向量,考虑变换产生的效果。假设变换是连续的(如平移或旋转,而不是镜像翻转),那么变换的模式会扫过维输入空间的一个流形。图5.15说明了的情形。

图 5-15
图 5.15 二维输入空间的例子,展示了在一个特定的输入向量上的连续变换的效果。一个参数为连续变量的一维变换作用于上会使它扫过一个一维流形。局部来看,变换的效果可以用切向量来近似。

假设变换由单一参数控制(如可能是旋转的角度)。那么被扫过的子空间是一维的,且以为参数。令这个变换作用于上产生的向量为,且。这样曲线的切线就由方向导数给出,且点处的切线向量为:

对于输入向量进行变换之后,网络的输出通常会发生变化。输出关于的导数为

其中为Jacobian矩阵的第个元素,正如5.3.4节讨论的那样。式(5.126)给出的结果可以用于修改标准的误差函数:给原始的误差函数增加一个正则化函数得到下面形式的误差函数

使得在数据点的邻域之内具有不变性。其中是正则化系数,且

当网络映射函数在每个模式向量的邻域内都具有变换不变性时,正则化函数等于零。的值确定了训练数据和学习不变性之间的平衡。

在实际执行过程中,切线向量可以通过即将原始向量从使用了小的进行变换后的对应的向量中减去,再除以进行有限差近似。图5.16阐述了这个过程。

图 5-16
图 5.16 (a)原始的手写数字x,(b)对应于无穷小顺时针旋转的切向量,其中蓝色和黄色分别对应于正值和负值,(c)将来自这个切向量的微小贡献作用于原始图像的结果,得到了 ,其中度。(d)真实的图像旋转,用作对比。

正则化函数通过Jacobian矩阵对网络的权值产生依赖。通过对5.3节中讨论的方法进行推广,计算正则化项关于网络权值的导数的反向传播公式可以很容易地得到。如果变换由个参数控制(如,对于二维图像的平移变换与面内旋转变换项结合),那么流形的维度为,对应的正则化项由形如式(5.128)的项求和得到,每个变换都对应求和式中的一项。如果同时考虑若干个变换,且让网络映射对于每个变换分别具有不变性,那么对于变换的组合来说就会具有(局部)不变性)Simard et al., 1992)。

一个被称为切线距离(tangent distance)相关技术,可以用来构造基于距离的方法(如最近邻分类器)的不变性(Simard et al., 1993)。

results matching ""

    No results matching ""