在第一章中,我们强调了概率论在模式识别中的核心作用。现在我们探讨一些概率分布以及他们的重要作用。这些概率分布本身就很有趣。他们可以组成更复杂的模型,且在本书中广泛使用。本章中介绍的分布还有一个重要的目的:让我们有机会在简单的模型中讨论一些关键的统计学概念,如贝叶斯推断。在后续章节中会在更复杂的模型里遇到这些简单的模型。

本章中讨论的分布的一个作用是在给定有限次观测后,对随机变量的概率分布建模。这被称为密度估计。本章中,会假定数据点是独立同分布的。必须强调的是,因为产生有限的观测数据集的概率分布有无限多种,所以密度估计问题本质上是病态的。实际上,任何在数据点处概率非零的分布都是潜在的候选。选择一个合适的分布与我们在第一章中多项式曲线拟合问题的讨论一样,与模型选择的问题相关。这是模式识别领域的一个中心问题。

首先,考虑离散随机变量的二项分布和多项式分布,以及连续随机变量的高斯分布。这些都是参数分布(parametric distribution)的具体的例子。这样叫是因为它们有少量可调节的参数(就像高斯分布中的均值和方差)控制了整个概率分布。把这样的模型应用到密度估计中需要使用观察到的数据来确定模型的合适的参数值这一步骤。在频率论的观点下,通过最优化某些准则(例如似然函数)来确定参数的具体值。相对的,在贝叶斯观点下,通过观测数据,先引入先验分布,然后通过贝叶斯定理计算出对应的后验分布。

我们将会看到,使得后验分布的函数形式与先验分布相同的共轭先验(conjugate priors)起着很重要的作用。它使得贝叶斯分析得到了极大的简化。举几个例子,多项式分布参数的共轭先验被叫做狄利克雷分布(Dirichlet distribution),高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族(exponential family)分布的例子。指数族分布的很多重要的性质,将在本章中详细讨论。

参数方法的一个局限是它假定分布有一个具体的函数形式。一些特别的应用可能不符合这个条件。一种替代的方法是分布的形式通常依赖于数据集的规模的非参数(nonparametric)密度估计方法。这些模型依然包含参数,但是这些参数控制的是模型的复杂度而不是分布的形式。最后以三种非参数化方法来结束本章,它们分别是:直方图、最近邻以及核函数。

results matching ""

    No results matching ""