高斯分布无论是本身,还是它作为更复杂的概率模型的基石,它在实际应用中都非常重要,但是对于某些连续变量把它作为密度函数是不合适的。其中在实践中出现的一种重要的例子是周期变量。
周期变量的一个例子是某个特定的地理位置的风向。实际中,我们可能测量许多天的风向值,然后希望通过一个参数分布来总结风向的规律。另一个例子是日历时间,其中我们可能感兴趣的是对周期为24小时或周期为一年的变量进行建模。这样的变量使用极坐标表示更方便。
我们可能选取一个方向作为原点,然后应用传统的概率分布(例如高斯分布)来处理这样的周期变量。但是,这种方法得出的结果会强烈依赖于原点的选择。例如,假设我们有两个观测,分别位是,然后我们使用标准一元高斯分布建模。如果把原点选择在,那么这个数据集的样本均值为,标准差在。而如果把原点选择在,那么均值为,标准差为。显然,我们需要找到一种特殊的方法来处理周期变量。
让我们考虑估计周期观测集合的均值的问题。从现在开始,我们用表示弧度。我们已经看到,简单的平均值非常依赖于坐标系的选择。为了给均值找到一个不变的度量,我们发现观测可以被看做单位圆上的点。因此,可以用二维单位向量来其中来描述,如图2.17所示。
图 2.17 周期变量
对向量求平均得到:
然后求出这个平均值对应的弧度。显然,这个定义保证均值的位置与极坐标原点选择无关。注意通常在单位圆的内部。这些观测值在笛卡尔坐标系中表示为,样本均值在笛卡尔坐标系中表示为。代入(2.167)并同等看待得到:
求两者的比值,使用等式,得到:
很快,我们会看到,在周期变量上定义一个恰当的概率分布,最大似然估计很自然的得到这个结果。
现在,我们考虑高斯分布的周期化推广:von Mises分布。这里我们把注意力集中在一元的分布,虽然周期分布可以在任意维的超球面上找到。关于周期分布的广泛讨论,可以参考Mardia and Jupp (2000)。
按照惯例,考虑的周期概率分布的周期为。任何一个定义在上的概率密度不仅仅非负和积分等于1,而且有周期性的。因此,一定满足下面三个条件:
根据式(2.172),得到对于任意整数都有。
可以很容易得到满足这三个条件的类高斯分布。考虑两个变量的具有均值和协方差矩阵为的高斯分布(其中I是的单位矩阵),所以:
的等高线是园,如图2.18中展示。
图 2.18
现在,考虑这个沿着一个固定半径的圆的分布的值,然后就能构造出没有被标准化周期分布。可以通过从笛卡尔坐标转化为极坐标的方式确定这个分布的形式,即:
同时,把映射到极坐标中:
接下来,把这些变换代入二维高斯分布(2.173)中,并限制在单位圆上,注意,我们只对关于的相关性感兴趣。关注高斯分布的指数得到:
其中表示与无关的项,同时我们使用了下面的三角等式:
如果定义,得到单位圆上分布的最终表达式:
这就是von Mises分布,或环形正态分布(circular normal)。这里的对应分布的均值,被称为浓度(concentration)参数,类似于高斯分布的方差的逆(精度)。式(2.179)中的标准化参数由项表达,这是第一类零阶Bessel函数(Abramowitz and Stegun, 1965),由
定义。对于大的,这个分布接近于高斯分布。图2.19给出了von Mises分布的图像,图2.20给出了函数的图像。
图 2.19 von Mises分布
图 2.20 Bessel函数
现在,考虑用最大似然来估计von Mises分布的参数。对数似然函数由:
令其关于的导数等于零,得到
为了求得,使用三角等式:
根据这些,得到
这是之前,把它看成二维笛卡尔空间的观测的均值的式(2.169)所得到的结果。
类似的,关于最大化(2.181),且使用(Abramowitz and Stegun, 1965)得到:
其中我们已经用最大似然解替换了对应的变量(我们正在关于进行联合最优化),我们定义:
函数由图2.20展示
图 2.20 函数A(m)
使用式(2.178)给出的三角等式,可以吧式(2.185)写成:
式(2.187)的右手边很容易求得,且函数可以数值求逆。
为了完整性,我们简要提一下其它构造周期概率分布的方法。最简单的方法是划分极坐标为固定大小区间,再画出观测点的直方图。这种方法的优点是简单、灵活,但是也有极大的局限性。我们将在2.5节详细讨论直方图方法时看到这一点。另一种方法与von Mises分布类似,都是从欧几里得空间的高斯分布开始,但是这个方法是在单位圆上求积分(边缘化),而不是把它当成概率的条件(Mardia and Jupp, 2000)。但是,这使得概率分布的形式更加复杂,因此我们不会更详细的讨论。最后一种方法是,在实数轴上的任何有效的分布(例如高斯分布)都可以通过把间隔为连续区间映射为周期变量,相当于把实数轴沿着单位圆进行包裹。与之前一样,得到的概率分布会比von Mises分布在计算上更加复杂。
von Mises分布的一个局限性是它是单峰的。但是,通过将多个von Mises分布混合,就可以得到能对多个峰值的周期变量进行建模的灵活框架。Lawrence et al. (2002)给出了一个使用von Mises分布的机器学习的应用例子。关于回归问题中条件密度建模的更多信息,可以参考Bishop and Nabney(1996)。