高斯分布无论是本身,还是它作为更复杂的概率模型的基石,它在实际应用中都非常重要,但是对于某些连续变量把它作为密度函数是不合适的。其中在实践中出现的一种重要的例子是周期变量。

周期变量的一个例子是某个特定的地理位置的风向。实际中,我们可能测量许多天的风向值,然后希望通过一个参数分布来总结风向的规律。另一个例子是日历时间,其中我们可能感兴趣的是对周期为24小时或周期为一年的变量进行建模。这样的变量使用极坐标表示更方便。

我们可能选取一个方向作为原点,然后应用传统的概率分布(例如高斯分布)来处理这样的周期变量。但是,这种方法得出的结果会强烈依赖于原点的选择。例如,假设我们有两个观测,分别位是,然后我们使用标准一元高斯分布建模。如果把原点选择在,那么这个数据集的样本均值为,标准差在。而如果把原点选择在,那么均值为,标准差为。显然,我们需要找到一种特殊的方法来处理周期变量。

让我们考虑估计周期观测集合的均值的问题。从现在开始,我们用表示弧度。我们已经看到,简单的平均值非常依赖于坐标系的选择。为了给均值找到一个不变的度量,我们发现观测可以被看做单位圆上的点。因此,可以用二维单位向量来其中来描述,如图2.17所示。

图 2-17
图 2.17 周期变量

对向量求平均得到:

然后求出这个平均值对应的弧度。显然,这个定义保证均值的位置与极坐标原点选择无关。注意通常在单位圆的内部。这些观测值在笛卡尔坐标系中表示为,样本均值在笛卡尔坐标系中表示为。代入(2.167)并同等看待得到:

求两者的比值,使用等式,得到

很快,我们会看到,在周期变量上定义一个恰当的概率分布,最大似然估计很自然的得到这个结果。

现在,我们考虑高斯分布的周期化推广:von Mises分布。这里我们把注意力集中在一元的分布,虽然周期分布可以在任意维的超球面上找到。关于周期分布的广泛讨论,可以参考Mardia and Jupp (2000)。

按照惯例,考虑的周期概率分布的周期为。任何一个定义在上的概率密度不仅仅非负和积分等于1,而且有周期性的。因此,一定满足下面三个条件:

根据式(2.172),得到对于任意整数都有

可以很容易得到满足这三个条件的类高斯分布。考虑两个变量的具有均值和协方差矩阵为的高斯分布(其中I是的单位矩阵),所以:

的等高线是园,如图2.18中展示。

图 2-18
图 2.18

现在,考虑这个沿着一个固定半径的圆的分布的值,然后就能构造出没有被标准化周期分布。可以通过从笛卡尔坐标转化为极坐标的方式确定这个分布的形式,即:

同时,把映射到极坐标中:

接下来,把这些变换代入二维高斯分布(2.173)中,并限制在单位圆上,注意,我们只对关于的相关性感兴趣。关注高斯分布的指数得到:

其中表示与无关的项,同时我们使用了下面的三角等式:

如果定义,得到单位圆上分布的最终表达式:

这就是von Mises分布,或环形正态分布(circular normal)。这里的对应分布的均值,被称为浓度(concentration)参数,类似于高斯分布的方差的逆(精度)。式(2.179)中的标准化参数由项表达,这是第一类零阶Bessel函数(Abramowitz and Stegun, 1965),由

定义。对于大的,这个分布接近于高斯分布。图2.19给出了von Mises分布的图像,图2.20给出了函数的图像。

图 2-19
图 2.19 von Mises分布

图 2-20
图 2.20 Bessel函数

现在,考虑用最大似然来估计von Mises分布的参数。对数似然函数由:

令其关于的导数等于零,得到

为了求得,使用三角等式:

根据这些,得到

这是之前,把它看成二维笛卡尔空间的观测的均值的式(2.169)所得到的结果。

类似的,关于最大化(2.181),且使用(Abramowitz and Stegun, 1965)得到:

其中我们已经用最大似然解替换了对应的变量(我们正在关于进行联合最优化),我们定义:

函数由图2.20展示

图 2-20
图 2.20 函数A(m)

使用式(2.178)给出的三角等式,可以吧式(2.185)写成:

式(2.187)的右手边很容易求得,且函数可以数值求逆。

为了完整性,我们简要提一下其它构造周期概率分布的方法。最简单的方法是划分极坐标为固定大小区间,再画出观测点的直方图。这种方法的优点是简单、灵活,但是也有极大的局限性。我们将在2.5节详细讨论直方图方法时看到这一点。另一种方法与von Mises分布类似,都是从欧几里得空间的高斯分布开始,但是这个方法是在单位圆上求积分(边缘化),而不是把它当成概率的条件(Mardia and Jupp, 2000)。但是,这使得概率分布的形式更加复杂,因此我们不会更详细的讨论。最后一种方法是,在实数轴上的任何有效的分布(例如高斯分布)都可以通过把间隔为连续区间映射为周期变量,相当于把实数轴沿着单位圆进行包裹。与之前一样,得到的概率分布会比von Mises分布在计算上更加复杂。

von Mises分布的一个局限性是它是单峰的。但是,通过将多个von Mises分布混合,就可以得到能对多个峰值的周期变量进行建模的灵活框架。Lawrence et al. (2002)给出了一个使用von Mises分布的机器学习的应用例子。关于回归问题中条件密度建模的更多信息,可以参考Bishop and Nabney(1996)。

results matching ""

    No results matching ""