在一些概率推断应用中，我们可能会有能用先验分布方便的表达出来的先验知识。例如，如果先验令变量的一些值的概率为0，那么不论后续观测到什么数据，后验分布都会令这些值的概率为0。但是，在许多情形下，我们几乎不知道分布应该具有的形式。这时，我们可能需找一种被称为无信息先验（noninformative prior）的先验分布。这种先验分布的目的是尽可能的后验分布产生小的影响（Jeffries, 1946; Box and Tao, 1973; Bernardo and Smith, 1994）。这有时也被称为“让数据自己说话”。

如果一个有参数 $\lambda$ 控制的分布 $p(x|\lambda)$ 。我们可能忍不住提出 $p(\lambda) = const$ 是合适的先验。如果 $\lambda$ 是有 $K$ 个状态的离散变量，这相当于简单的设置每个状态的概率为 $1 / K$ 。然而，在连续参数的情况下，这种方法有两个潜在的困难。第一个是：如果 $\lambda$ 的域是无界的，这时关于 $\lambda$ 的积分是发散的，所以先验分布不能被正确的标准化。这样的先验被称作非正常的（improper）。实际应用中，如果对应的后验分布是正常的（proper），即它可以正确地标准化，那么可以使用这个非正常的先验。例如，如果假设高斯分布的均值的先验为均匀分布，一旦我们观测到至少一个数据点，均值的后验就会是正常的。

第二个困难来自于变量的非线性改变下的概率密度变换行为，由式（1.27）给出。如果函数 $h(\lambda)$ 是常数，且进行变量替换 $\lambda = \eta^2$ ，那么 $\hat{h}(\eta) = h(\eta^2)$ 也会常数。但是，如果选择密度 $p_\lambda(\lambda)$ 等于常数，那么根据式（1.27）， $\eta$ 的概率密度为：

$p_\eta(\eta) = p_\lambda(\lambda)\Bigg\vert\frac{d\lambda}{d\eta}\Bigg\vert = p_\lambda(\eta^2)2\eta \propto \eta \tag{2.231}$

这时 $\eta$ 的概率密度就不再是常数了。由于似然函数 $p(x|\lambda)$ 是关于 $\lambda$ 的简单函数，所以这个问题不会出现在最大似然中，所以可以自由的使用任意方便的参数化方法。如果选择了常数作为先验分布，那么必须注意对参数要使用一个合适的表达法。

这里考虑两个无信息先验的简单例子（Berger, 1985）。首先，概率密度形式为：

$p(x|\mu) = f(x-\mu) \tag{2.232}$

其中 $\mu$ 被称为位置参数（location parameter）。因为如果我们把 $x$ 平移一个常数，得到 $\hat{x} = x + c$ ，那么

$p(\hat{x}|\hat{\mu}) = f(\hat{x} - \hat{\mu}) \tag{2.233}$

其中 $\hat{\mu} = \mu + c$ ，所以这类密度具有平移不变性。所以新变量的概率密度的形式与原变量相同，因此密度与原点的选择无关。我们想要选择一个反映这个平移不变性的先验分布，所以我们选择一个赋予区间 $A \leq \mu \leq B$ 与区间 $A - c \leq \mu \leq B - c$ 相同的概率质量的先验。这隐含：

$\int_A^Bp(\mu)d\mu = \int_{A-c}^{B-c}p(\mu)d\mu = \int_A^Bp(\mu-c)d\mu \tag{2.234}$

而且这对于任意的 $A,B$ 选择都成立，所以得到：

$p(\mu - c) = p(\mu) \tag{2.235}$

这隐含了 $p(\mu)$ 是一个常数。位置参数的一个例子是高斯分布的均值 $\mu$ 。正如我们已经看到的，这种情况下的 $\mu$ 的共轭先验分布是一个高斯 $p(\mu|\mu_0,\delta_0^2) = \mathcal{N}(\mu|\mu_0,\delta_0^2)$ ，然后取极限 $\delta_0^2 \to \infty$ 得到一个无信息先验。事实上，从式（2.141）和（2.142）可以知道，在这种极限情况下，得到的 $\mu$ 的后验分布中，先验的贡献消失了。

第二个例子，考虑密度形式：

$p(x|\delta) = \frac{1}{\delta}f\left(\frac{x}{\delta}\right) \tag{2.236}$

其中 $\delta > 0$ 。注意，如果 $f(x)$ 被正确的标准化，那么这是一个标准化的密度。参数 $\delta$ 是伸缩参数（scale parameter）。如果我们把 $x$ 缩放一个常数即 $\hat{x} = cx$ ，有

$p(\hat{x}|\hat{\delta}) = \frac{1}{\hat{\delta}}f\left(\frac{\hat{x}}{\hat{\delta}}\right) \tag{2.237}$

其中 $\hat{\delta} = c\delta$ ，这就是概率密度的伸缩不变性（scale invariance）。这个变换对应单位的变化，例如，长度 $x$ 的单位从米变成了千米，我们想要选择一个反映这个伸缩不变性的先验分布。如果我们考虑区间 $A \leq \delta \leq B$ 和伸缩伸缩区间 $A/c \leq \delta \leq B/c$ ，对两个区间赋予相同的概率质量。得到：

$\int_A^Bp(\delta)d\delta = \int_{A/c}^{B/c}p(\delta)d\delta = \int_A^Bp\left(\frac{1}{c}\delta\right)\frac{1}{c}d\delta \tag{2.238}$

因为这对于任意的 $A,B$ 选择都成立，所以得到：

$p(\delta) = p\left(\frac{1}{c}\delta\right)\frac{1}{c} \tag{2.239}$

得到 $p(\delta) \propto 1/\delta$ 。由于分布在 $0 \leq \delta \leq \infty$ 的积分是发散的，所以这是一个非正常先验。有时把缩放参数的先验分布用参数的对数的概率密度表达更方便。使用公式（1.27）的概率密度变换规则，我们看到 $p(\ln\delta) = const$ 。因此，对于这个先验分布，在区间 $1 \leq \delta \leq 10$ 和区 $10 \leq \delta \leq 100$ 和以及区 $100 \leq \delta \leq 1000$ 和上具有相同的概率质量。

缩放参数的一个例子是高斯分布的标准差 $\delta$ ，在我们确定了位置参数 $\mu$ 之后。由于

$\mathcal{N}(x|\mu,\delta^2) \propto \delta^{-1} exp\{-(\tilde{x}/\delta)^2\} \tag{2.240}$

其中 $\tilde{x} = x - \mu$ 。就如之前讨论的，使用精度 $\lambda = 1/\delta^2$ 会比 $\delta$ 方便的多。使用密度的变换规则，得到分布 $p(\delta) \propto 1/\delta$ 对应 $\lambda$ 上的分布形式 $p(\lambda) \propto 1/\lambda$ 。我们已经知道 $\lambda$ 的共轭先验是式（2.146）给出的gamma分布 $Gam(\lambda|a_0,b_0)$ 。无信息先验在 $a_0 = b_0 = 0$ 的特殊情况下得到。同样的，如果检查式（2.150）和式（2.151）给出的 $\lambda$ 的后验分布的结果，得到对于 $a_0 = b_0 = 0$ ，后验分布只与数据相关，而与先验分布无关。

无信息先验

results matching ""

No results matching ""