11.1.2节讨论的拒绝采样方法部分依赖于它能够成功确定常数k的一个合适的值。对于许多对概率分布 $p(z)$ 和 $q(z)$ 来说，确定一个合适的 $k$ 值是不现实的，因为任意的足够大的 $k$ 值都能够保证产生所求的分布的上界，但是这会产生相当小的接受率。

与拒绝采样的情形相同，采样-重要-再采样（sampling-importance-resampling, SIR）方法也使用采样分布 $q(z)$ ，但是避免了必须确定常数 $k$ 。这个方法有两个阶段。在第一个阶段， $L$ 个样本 $z^{(1)},...,z^{(L)}$ 从 $q(z)$ 中抽取。然后在第二个阶段，权值 $w_1,...,w_L$ 通过式（11.23）被构建出来。最后， $L$ 个样本的第二个集合从离散概率分布 $(z^{(1)},...,z^{(L)})$ 中抽取，概率由权值 $(w_1,...,w_L)$ 给定。

生成的 $L$ 个样本只是近似地服从 $p(z)$ ，但是在极限 $L \to \infty$ 的情况下，分布变为了正确的分布。为了说明这一点，考虑一元变量的情形，并且注意重新采样的值的累积分布为

$\begin{eqnarray} p(z \leq a) &=& \sum\limits_{l:z^{(l)} \leq a}w_l \\ &=& \frac{\sum_lI(z^{(l) \leq a})\tilde{p}(z^{(l)})/q(z^{(l)})}{\sum_l \tilde{p}(z^{(l)}) / q(z^{(l)})} \tag{11.25} \end{eqnarray}$

其中 $I(\dot)$ 是示性函数（参数为真时函数值为1，否则为0）。取极限 $L \to \infty$ ，并且假设概率分布进行了适当的正则化，我们可以将求和替换为积分，权值为原始的采样分布 $q(z)$ ，即

$\begin{eqnarray} p(z \leq a) &=& \frac{\int I(z \leq a)\{\tilde{p}(z) / q(z)\}q(z)dz}{\int\{\tilde{p}(z) / q(z)\}q(z)dz} \\ &=& \frac{\int I(z\leq a)\tilde{p}(z)dz}{\int\tilde{p}(z)dz} \\ &=& \int I(z \leq a)p(z)dz \tag{11.26} \end{eqnarray}$

它是 $p(z)$ 的累积分布函数。同样的，我们看到对 $p(z)$ 的标准化是不需要的。

对于 $L$ 的一个有限值，以及一个给定的初始样本集合，重新采样的值只是近似地从所求的概率分布中抽取。与拒绝采样的情形相同，随着样本分布 $q(z)$ 接近所求的分布 $p(z)$ ，近似的效果也会提升。当 $q(z) = p(z)$ 时，初始样本 $(z^{(1)},...,z^{(L)})$ 服从所求的概率分布，权值为 $w_n = 1/L$ ，从而重新采样的值也服从所求的分布。

$L$ 如果我们需要求出关于概率分布 $p(z)$ 的各阶矩，那么可以直接使用原始样本和权值进行计算，因为

$\begin{eqnarray} \mathbb{E}[f(z)] &=& \int f(z)p(z)dz \\ &=& \frac{f(z)[\tilde{p}(z) / q(z)]q(z)dz}{\int[\tilde{p}(z)/q(z)]q(z)dz} \\ &=& \sum\limits_{l=1}^Lw_lf(Z_l) \tag{11.27} \end{eqnarray}$

采样-重要性-再采样

results matching ""

No results matching ""