在一些概率推断应用中,我们可能会有能用先验分布方便的表达出来的先验知识。例如,如果先验令变量的一些值的概率为0,那么不论后续观测到什么数据,后验分布都会令这些值的概率为0。但是,在许多情形下,我们几乎不知道分布应该具有的形式。这时,我们可能需找一种被称为无信息先验(noninformative prior)的先验分布。这种先验分布的目的是尽可能的后验分布产生小的影响(Jeffries, 1946; Box and Tao, 1973; Bernardo and Smith, 1994)。这有时也被称为“让数据自己说话”。
如果一个有参数控制的分布。我们可能忍不住提出是合适的先验。如果是有个状态的离散变量,这相当于简单的设置每个状态的概率为。然而,在连续参数的情况下,这种方法有两个潜在的困难。第一个是:如果的域是无界的,这时关于的积分是发散的,所以先验分布不能被正确的标准化。这样的先验被称作非正常的(improper)。实际应用中,如果对应的后验分布是正常的(proper),即它可以正确地标准化,那么可以使用这个非正常的先验。例如,如果假设高斯分布的均值的先验为均匀分布,一旦我们观测到至少一个数据点,均值的后验就会是正常的。
第二个困难来自于变量的非线性改变下的概率密度变换行为,由式(1.27)给出。如果函数是常数,且进行变量替换,那么也会常数。但是,如果选择密度等于常数,那么根据式(1.27),的概率密度为:
这时的概率密度就不再是常数了。由于似然函数是关于的简单函数,所以这个问题不会出现在最大似然中,所以可以自由的使用任意方便的参数化方法。如果选择了常数作为先验分布,那么必须注意对参数要使用一个合适的表达法。
这里考虑两个无信息先验的简单例子(Berger, 1985)。首先,概率密度形式为:
其中被称为位置参数(location parameter)。因为如果我们把平移一个常数,得到,那么
其中,所以这类密度具有平移不变性。所以新变量的概率密度的形式与原变量相同,因此密度与原点的选择无关。我们想要选择一个反映这个平移不变性的先验分布,所以我们选择一个赋予区间与区间相同的概率质量的先验。这隐含:
而且这对于任意的选择都成立,所以得到:
这隐含了是一个常数。位置参数的一个例子是高斯分布的均值。正如我们已经看到的,这种情况下的的共轭先验分布是一个高斯,然后取极限得到一个无信息先验。事实上,从式(2.141)和(2.142)可以知道,在这种极限情况下,得到的的后验分布中,先验的贡献消失了。
第二个例子,考虑密度形式:
其中。注意,如果被正确的标准化,那么这是一个标准化的密度。参数是伸缩参数(scale parameter)。如果我们把缩放一个常数即,有
其中,这就是概率密度的伸缩不变性(scale invariance)。这个变换对应单位的变化,例如,长度的单位从米变成了千米,我们想要选择一个反映这个伸缩不变性的先验分布。如果我们考虑区间和伸缩伸缩区间,对两个区间赋予相同的概率质量。得到:
因为这对于任意的选择都成立,所以得到:
得到。由于分布在的积分是发散的,所以这是一个非正常先验。有时把缩放参数的先验分布用参数的对数的概率密度表达更方便。使用公式(1.27)的概率密度变换规则,我们看到。因此,对于这个先验分布,在区间和区和以及区和上具有相同的概率质量。
缩放参数的一个例子是高斯分布的标准差,在我们确定了位置参数之后。由于
其中。就如之前讨论的,使用精度会比方便的多。使用密度的变换规则,得到分布对应上的分布形式。我们已经知道的共轭先验是式(2.146)给出的gamma分布。无信息先验在的特殊情况下得到。同样的,如果检查式(2.150)和式(2.151)给出的的后验分布的结果,得到对于,后验分布只与数据相关,而与先验分布无关。