前一章中,我们研究了一类有相当简单的解析和计算性质的回归模型。现在,我们讨论一类与此相似的用于解决分类问题的模型。分类的目的是是将输入变量分到个离散的类别中的一类。一般情况下,类别是互不相交的,因此每个输入被分到唯一的一个类别中。输入空间被决策边界(decision boundary)或决策面(decision surface)划分成不同的决策区域(decision region)。本章,我们考虑线性分类模 型。所谓线性分类模型是指决策面是输入向量的线性函数,因此它定义了维输入空间中的维超平面。如果数据集可以被线性决策面精确地分类,那么我们说这个数据集是线性可分的(linearly separable)。

对于回归问题,我们希望预测的变量是一个实数向量。在分类问题中,有很多不同的方式来表达目标变量的标签。对于概率模型,二分类问题最方便的表达方式是二元表示方法。这种方法中,目标变量,其中表示类别,而表示类别。我们可以把的值解释为分类结果为的概率,其中概率只取极限值。对于的情况,比较方便的方法是使用“1-of-K”编码规则。这种方法是:是一个长度为的向量。如果类别为,那么的所有元素,除了等于1,其余的都等于0。例如,如果我们有5个类别,那么来自第2个类别的模式给出的目标向量为

同样的,我们也可以把的值解释为分类为的概率。对于非概率模型,目标变量使用其它表示方法有时候会更方便。

在第1章,我们提出了三种不同的解决分类问题的方法。最简单的方法是构造一个直接把向量分到具体的类别中判别函数(discriminant function)。但是,一个更强大的方法是在推断阶段对条件概率分布进行建模,然后使用这个概率分布进行最优决策。正如1.5.4节讨论的那样,分离推断和决策两个阶段,可以获得了很多有益的东西。有两种不同的方法来确定条件概率。一种是直接对它建模,例如把条件概率分布表示为参数模型,然后使用训练集来最优化参数。另一种是生成式的方法。在这种方法中,我们对类条件概率密度以及先验概率分布建模,然后使用贝叶斯定理来计算需要的后验概率分布

我们将在本章中讨论这三种方法的例子。

在第3章讨论的线性回归模型中,模型的预测是由参数的线性函数给出的。在最简单的情况下,模型对输入变量也是线性的,因此形式为,即是一个实数。然而对于分类问题,我们想预测的是离散的类别标签,或更一般地,预测位于区间的后验概 率。为了达到这个目的,我们考虑使用非线性函数的线性函数进行变换,来推广这个模型,即

在机器学习的文献中被称为激活函数(activation function),而它的反函数在统计文献中被称为链接函数(link function)。决策面对应于,即,因此决策面是的线性函数,即使函数为非线性函数也是如此。因此,由式(4.3)描述的这一类模型被称为广义线性模型(generalized linear model)(McCullagh and Nelder, 1989)。但是,需要注意,与回归中使用的模型相反,引入了非线性函数后,它们不再是关于参数线性的。这会导致比线性回归模型更加复杂的分析及计算。尽管这样,这些模型仍然比后续章节中讨论的更加一般的非线性模型来得简单。

本章中讨论的算法,在使用一个基函数向量(就像第3章的回归模型中那样),对输入变量进行固定的非线性变换的情况下同样适用。我们以直接在原始输入空间进行分类作为本章的开始。而第4.3章中,为了与后续章节的一致性,我们发现引入基函数会比较方便。

results matching ""

    No results matching ""