在Statlect上搜索概率和统计术语
统计列克特
指数 > 渐近理论

重要抽样

通过 博士

重要采样是一种方差减少技术,用于减少 近似期望值时近似误差的方差 与 蒙特 卡洛积分.

目录

等效期望

重要抽样基于一种简单的技术,可以计算 期望值有许多不同但等效的方式。

下一个命题显示了该技术如何用于离散随机 向量。

主张X 成为 Kx1 带支持的离散随机向量 R_X 联合概率 质量函数 [eq1]. 让 克(x) 成为一个功能 [eq2]. 让 Y 成为另一个 Kx1 离散随机向量 Y 具有联合概率质量函数 [eq3] 这样 [eq4] 每当 [eq5]. 然后, [eq6]

证明

这是作为获得 如下:[eq7]

连续随机向量的命题几乎相同。

主张X 连续 Kx1 支持随机向量 R_X 联合概率 密度函数 [eq8]. 让 克(x) 成为一个功能 [eq2]. 让 Y 成为另一个连续随机向量 Y 具有联合概率密度函数 [eq10] 这样 [eq11] 每当 [eq12]. 然后, [eq13]

证明

这是作为获得 如下:[eq14]哪里 我们有 用过的[eq15]如 坐标的多重积分的简写 x.

重要样本

假设我们需要计算期望值 值[eq16] 向量的函数 X 由蒙特卡洛整合。

标准的处理方式是使用计算机生成的样本 $ x_ {1} $,...,$ x_ {n} $ 的实现 n 独立随机向量 X_1,...,X_n 具有与 X, 并使用样本均值 [eq17]至 近似期望值。

由于上一节中的命题,我们可以计算出 的替代蒙特卡罗近似 [eq18] 通过提取 n 独立抽奖 [eq19] 从另一个随机向量的分布 Y (接下来我们假设它是离散的,但是我们所说的一切都适用 也可以用于连续向量)并通过使用样本 意思[eq20]如 一个近似值。这种技术称为 重要性 采样.

使用重要性抽样的原因是 Y 通常可以这样选择:近似误差的方差 比标准蒙特卡洛近似的方差小得多。

近似误差

在标准蒙特卡罗逼近的情况下, 近似误差 是[eq21]而, 在重要性抽样的情况下,近似误差的方差 是[eq22]

证明

在标准情况下,近似值 错误 是[eq23]和 其方差 是[eq24]在 在重要性抽样的情况下,我们 有[eq25]

理想样品

理想情况下,我们希望能够选择 Y 以这种方式 [eq26]是 一个常数,这意味着近似误差的方差为 零。

下一个命题表明何时可以实现这种理想情况。

主张 如果 [eq27] 对于任何 $ y $, 然后[eq28]什么时候 Y 具有联合概率质量 功能[eq29]

证明

比例 [eq30]是 如果比例性则为常数 健康)状况[eq31]持有。 通过强加 [eq32] 成为合法的概率密度函数,我们 得到[eq33]要么[eq34]

当然,分母 [eq35] 未知(否则我们将不会讨论如何计算蒙特卡洛 近似),因此无法实现最优 选择 Y. 但是,最优的概率质量函数的公式 Y 给我们一些关于选择的迹象 Y. 特别是 式[eq34]告诉 我们的概率质量函数 Y 应在概率质量函数之间的乘积处放置更多质量 的 X 和函数的值 $ g $ 更大。换句话说, X 应该倾斜,以使权重更大 X 为此 $ gleft(X
权)$ 更大。

直觉

在前面的部分中,我们已经看到重要性抽样包括: 计算的替代蒙特卡洛近似 [eq37] 通过提取 n 独立抽奖 [eq38] 从另一个随机向量的分布 Y 并通过使用样本 意思[eq39]如 一个近似值。我们还看到,这种近似具有很小的方差 当概率质量函数为 Y 放置的质量大于的概率质量函数 X 根据 X 为此 $ gleft(X
权)$ 更大。这很直观: $ gleft(X
权)$ 在某些时候更大,那么我们应该尝试采样 $ gleft(X
权)$ 在“重要”点上的频率更高(为了更准确 关于...的价值 $ gleft(X
权)$ 在这些时候);然后,当我们平均样本时,我们应该考虑 解释了一个事实,即我们通过对重点进行加权来对重点进行过度采样 减轻重量 [eq40]哪一个 小于 1 什么时候 [eq41] 小于 [eq42].

现在让我们用一个例子说明重要性抽样。

假设 X 具有标准正态分布(即均值 $ mu = 0 $ 和标准偏差 $ sigma = 1 $) 和 [eq43]的 功能 克(x) 达到最大点 $x=3$ 然后迅速去 0 对于的值 x 小于或大于 $3 $. 相反,概率密度函数 [eq44] 标准正态随机变量的几乎在零处 $x=3$. 结果,如果我们使用标准的蒙特卡洛近似,我们将提取 的很多价值 x 为此 克(x) 几乎为零,但我们提取的值很少 克(x) 与零不同,这导致 近似误差。

为了使体重转向 $x=3$, 我们可以从 Y, 哪里 Y 具有均值的正态分布 $亩= 3 $ 和标准偏差 $ sigma = 1 $.

以下MATLAB代码显示了如何执行此操作并计算标准Monte Carlo (MC) 和 the 重要性 采样 (IS) approximations 通过 using samples 的 $ n = 10,000 $ 从...的分布中独立得出 $ X $Y.

rng(0)
n=10000;
x=randn(n,1);
g=10*exp(-5*(x-3).^4);
MC=mean(g)
stdMC=sqrt((1/n)*var(g))
y=3+randn(n,1);
g=10*exp(-5*(y-3).^4);
gWeighted=g.*normpdf(y,0,1)./normpdf(y,3,1);
IS=mean(gWeighted)
stdIS=sqrt((1/n)*var(gWeighted))

两种近似的标准偏差 (stdMCstdIS) are 通过使用的样本方差估算 [eq45][eq46]. 如果运行代码,您会发现重要性抽样确实 逼近可显着降低逼近误差 (从0.0084到0.0012)。

如何引用

请引用为:

Taboga, Marco (2017). "重要抽样", 列克特ures on probability theory 和 mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/asymptotic-theory/importance-sampling.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。