假设我们的目标是简单的尽可能的少做出错误的分类。我们需要一个规则把每个分到一个可用的分类中,这样的规则把输入空间切分成区域,称为决策区域(decision regions)。每个类别对应一个决策区域,如中所有点都被分为类。决策区域间的边界被称为决策边界(decision boundaries)或决策面(decision surfaces)。注意一个决策区域不一定要连续的,可以由几个分离的区域组成。后续的章节中,我们会给出决策边 界和决策区域的例子。为了找到最优的决策规则,先考虑只有两种类别的情况,就像癌症问题一样。错误发生在把属于的分到了中,反之亦然。发生这种情况的概率为:

可以随意选择把点分到两类中的一类的决策规则。很明显为了最小化对于的分类结果应该让公式(1.78)中被积函数尽可能的小。因此,对于如果,那么就把分到类中。根据乘积规则得到。由于两项的因子是相同的,所以可以重新定义结果:最小化错误分类的概率可以通过把分到使后验概率最大的分类中。图1.24展示了一元输入变量的二元分类问题

图 1-24
图 1.24: 两个类别的联合概率分布的关系,以及决策边界的值被分类为,因此属于决策区域,而的值被分类为,属于区域。错误出现在蓝色、绿色和红色区域,从而对于,错误的来源是将属于类别的点错分到类别(表示为红色区域与绿色区域的总和),同样的,对于的点,错误的来源是将属于类别的点错分到类别(表示为蓝色区域)。当我们改变决策区域的位置时,绿色区域和蓝色区域的总面积是一个常数,而红色区域的面积发生改变。的最优选择是的曲线与的曲线相交,对应于,因为此时红色区域消失。这等价于最小化错误分类率的决策规则,这个规则将分配到具有最大的后验概率的区域中。

对于更一般的类的情形,最大化正确率会稍微简单一些,即最大化:

当区域的选择使得每个的分类得到的最大时,上式取到最大值。再一次使用乘法规则,并且因子对于所有项都相同,可以得到每个都应该被分到有最大后验概率的类别中。

results matching ""

    No results matching ""