在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计

大都会-哈丁斯算法

通过 博士

大都会-哈丁斯算法是最受欢迎的马尔可夫链之一 蒙特卡洛(MCMC)算法。

与其他MCMC方法一样,Metropolis-Hastings算法用于生成 来自一系列概率分布的序列相关绘图 收敛到给定的目标分布。

目录

初赛

阅读本讲座之前,您应该阅读以下内容的基础知识 马尔可夫链 MCMC.

特别要注意的是,MCMC算法会生成一个 随机序列 [eq1] 具有以下属性:

当我们为 $ T $ 期间,我们获得了由 实现 的 第一 $ T $ 条款 链:[eq2]

然后,我们使用 经验 分配 这样获得的样本中的近似目标 分配。

算法

$ fleft(x
权)$ 是分布的概率密度(或质量)函数,从中 我们希望提取抽奖样本。我们称之为 $ fleft(x
权)$目标分布.

表示为 [eq3] 我们选择的条件分布族,从中很容易 产生平局。我们要求 x, $ x ^ {prime} $ 和的论点 $ fleft(x
权)$ 都具有相同的尺寸。

大都会-哈丁斯算法从任何值开始 $ x_ {1} $ 属于目标分配的支持。价值 $ x_ {1} $ 可以由用户定义或从给定的分布中提取。

然后,后续值 $ x_ {2},ldots x_ {T} $ 递归生成。特别是通用值 $ x_ {t} $ 生成如下:

  1. $ y_ {t} $ 从密度分布 [eq4];

  2. [eq5]

  3. $ u_ {t}$ 从一个 制服 分配$ left [0,1
权] $;

  4. 如果 $ u_ {t} leq p_ {t} $, 组 $ x_ {t} = y_ {t} $; 否则,设置 $ x_ {t} = x_ {t-1} $.

以来 $ u_ {t}$ 是统一的 [eq6]那 是,接受提案的可能性 $ y_ {t} $ 作为新的吸引力 $ x_ {t} $ 等于 $ p_ {t} $.

术语

使用以下术语:

在特殊情况下,提案分配是对称的(即, [eq8] 对于任何值 $ x_ {t-1} $$ y_ {t} $), 然后接受概率 是[eq9]和 该算法称为 都市算法 (因为这 较简单的版本由Nicholas Metropolis发明)。

收敛证明

我们没有给出严格的收敛证明,但我们提供了主要的 直觉。

详细余额

关键步骤是证明目标分布和马尔可夫链 大都会-哈丁斯算法生成的结果满足详细平衡 条件(请参阅 马尔可夫链),以及 因此,目标分布是 链。

表示为 [eq10] 马尔可夫链的过渡核,即 从...过渡 $ x_ {t-1} $$ x_ {t} $.

什么时候 $x_{t}
eq x_{t-1}$, 然后 $ x_ {t} = y_ {t} $ 我们有 [eq11]

对称地,当过渡是从 $ x_ {t} $$ x_ {t-1} $$x_{t-1}
eq x_{t}$, 我们有

[eq12]

因此,当 $x_{t}
eq x_{t-1}$, 目标密度 $ f $ 链的过渡内核满足详细平衡 健康)状况[eq13]

什么时候 $ x_ {t} = x_ {t-1} $, 那么细致的余额条件就可以满足了,因为 [eq14][eq15]

通过将两个案例放在一起 ($ x_ {t} = x_ {t-1} $$x_{t}
eq x_{t-1}$), 我们发现,详细的余额条件总是可以满足的。作为一个 后果, $ fleft({}
权)$ 是链的固定分布。

技术条件

在证明详细的余额条件时,我们省略了重要的 详细信息:提案分配必须能够生成所有值 属于 支持 目标分布。这很直观:如果提案分配 从不产生价值 $ x_ {t} $ 目标分布为其分配正概率的对象,然后 当然,链条的静态分布不能等于 目标分布。从技术角度来看,如果有价值 $ x_ {t} $ 属于目标分布的支持,但从不提取 提案分配,然后 [eq16], 在详细余额证明中导致零除问题 条件并使其无效。

表示为 $ R_ {f} $ 支持 的 目标密度 $ fleft(x
权)$. 一个简单的条件,可以保证所有值都属于 $ R_ {f} $ 可以生成提案,因为 [eq17]对于 任何两个值 $ x,yin R_ {f} $.

此条件不仅足以证明目标分布是 链的固定分布,但这基本上是我们所需要的 证明链条是遍历人体的(即我们可以依靠 大数定律 对于相关序列)并收敛到平稳分布。为一个 关于此条件(以及其他次要技术条件)的讨论 在实践中始终感到满意) 罗伯特和卡塞拉 (2013)。

乘法常数

正如已经在 MCMC 方法,Metropolis-Hastings算法的主要优势之一 是我们需要知道目标分布 $ f $ 最多只能是一个乘法常数。这在 贝叶斯 推理,其中通常知道后验分布 乘法常数(当似然和先验已知时, 边际分布不是)。

假设[eq18]哪里 $ hleft(x
权)$ 是已知函数,但常数 $ c $ 不是。

然后,接受概率 是[eq19]

因此,我们不需要知道常数 $ c $ 计算接受概率,而后者是 取决于目标分布的算法 $ f $. 因此,Metropolis-Hastings算法允许我们从 即使我们不完全知道概率密度(或质量) 的分布!

独立大都市-哈丁斯

如果建议 $ y_ {t} $ 独立于先前状态 $ x_ {t-1} $, 那 是的[eq20]然后 该算法称为 独立大都市-哈丁斯 要么 独立连锁都市-哈斯汀.

例如,一个常见的选择是提取提案 $ y_ {t} $ 从一个 多变量 正态分布 (每次抽奖均独立于以前的抽奖)。

什么时候 $ y_ {t} $ 独立绘制,接受概率为 [eq21]

不难看出 $ p_ {t} = 1 $ 什么时候 [eq22] 对于任何 x. 换句话说,如果提案分配等于目标 分布,接受概率为 1 并且提案始终被接受。此外,由于提案是 独立,我们从目标获得独立抽奖的样本 分配。

相反,提案分配与目标的差异越大 分布,接受概率越低,越频繁 提案被拒绝,并且链条仍然停留在特定位置 长期以来,产生了高度序列相关的MCMC 样品。正如关于 MCMC 诊断,产生高度相关样本的链可以是 有问题的,因为它们需要运行很长时间, 可能会非常昂贵。因此,应该以提出建议为目标 与目标分布尽可能相似的分布,以便 以获得高验收概率和低序列相关性的样本。 不幸的是,没有简单通用的方法可以做到这一点, 选择好的提案分配是一个仍然很活跃的话题 由统计学家研究。但是,通常有效的策略是开始 使用简单的提案分配(例如,多元正态),生成一个 第一个MCMC样本(可能过于相关),并使用它来推断 目标分布的特征(例如其均值和协方差) 矩阵),有助于改善提案分配(例如,通过 调整用作建议的多元法线的均值和协方差)。

随机漫步大都会-哈丁斯

提案是否形成 如 [eq23]哪里 [eq24] 是从已知概率分布中得出的一系列独立抽签 (例如,多元正态),则该算法被称为 随机漫步 大都会-哈丁斯.

我们有 那[eq25][eq26]

因此,接受概率 是[eq27]

要了解此算法的属性,让我们考虑特殊的 (但在实践中很常见)情况下,随机分布 步行增量 $ arepsilon _ {t} $ 是对称的。在这种情况下,我们有 [eq28] 验收概率简化了 至[eq29]

还假设目标密度具有以下两个特征 (在实践中也很常见):

现在,考虑两种极端情况:

  1. 如果随机游走增加 $ arepsilon _ {t} $ 平均很小(他们 方差 很小),然后 的 比[eq30]和 接受概率 $ p_ {t} $ 总是很接近 1 (请记住,我们假设彼此接近的点具有 相似的密度);提案几乎总是被接受,但是它们是 彼此非常接近,并且生成的MCMC样本高度连续 相关

  2. 如果随机游走增加 $ arepsilon _ {t} $ 平均而言非常大(它们的方差很大),那么 比[eq31]是 通常在接近零时 $ x_ {t-1} $ 处于高概率区域(建议往往离此远 区域并具有低密度);提案经常被拒绝, 链长时间保持在高密度点上, 上升为高度相关的MCMC样本。

因此,如果增量的方差是 太大或太小。因此, 准确调整随机游动增量的方差,以避免 这两个极端情况。例如,我们可以通过反复试验来做到这一点 流程:我们首先从方差的好值开始猜测,然后 生成第一个MCMC样本;然后,我们看一下样本的迹线图 (看到 MCMC 诊断):如果我们看到链条被卡住的点( 跟踪图),我们减小了方差,而如果我们看到跟踪图 移动非常缓慢,我们增加了方差。然后,我们重新运行链。一个 另一种可能性是在运行时自动调整方差 连锁,链条。这样做的方法称为 适应性都市圈 方法。我们不在这里讨论它们,但是您可以阅读 这个好 介绍 如果您对该主题感兴趣。

参考文献

罗伯特·C·P·卡塞拉(2013) 蒙特卡洛 统计方法,施普林格出版社。

如何引用

请引用为:

Taboga, Marco (2017). "大都会-哈丁斯算法", 列克特ures 上 probability 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/Metropolis-Hastings-algorithm.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。