搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics

马尔可夫链蒙特卡罗(MCMC)方法

经过 ,博士学位

马尔可夫链蒙特卡罗(MCMC)方法是非常强大的蒙特卡罗方法 通常用于贝叶斯推论。

虽然“古典”蒙特卡罗方法依赖于计算机生成的样本 独立观察,MCMC方法基于技术 允许生成依赖观察序列(这些序列是 马尔可夫链条,因此方法的名称)。

在整个讲座中,我们将假设您熟悉:

目录

McMC如何工作

任何蒙特卡罗方法的目的是近似一些特征(例如, 给定概率分布的平均值。这是通过使用a完成的 计算机生成的绘制样本从给定分布计算a plug-in estimate 的 the 要近似的功能。特别是,假设我们有一个 random vector X with joint distribution function [eq1], 我们希望近似一个功能 [eq2] of the distribution $ f_ {x} $.

在马尔可夫链蒙特卡罗方法中,我们通过计算机算法生成 a sample [eq3] realizations of n random variables X_1, ..., X_N..

算法以这样的方式设计了序列 [eq4] 是马尔可夫链融合到静止分布 [eq5].

使用样品,如标准蒙特卡罗方法中使用,以产生插件 estimate[eq6]的 the feature [eq7], where [eq8] is the empirical distribution 的 sample $ xi _ {n} $ (即,分配概率的概率分布 $1/n$ 每个值的每个值 [eq9])。

与标准蒙特卡罗方法不同,变量 X_1, ..., X_N. 一般不独立。我们需要在我们的时候考虑这个事实 评估融合 [eq10] to [eq11]. For example, if [eq7] 是预期的价值 X, and [eq13] is the sample mean[eq14]我们 通常能够展示一个 ergodic theorem (依赖观察的大量法则)适用于样本 意思是,它使它收敛到预期的价值 X.

例子

下面提供了两个MCMC算法的流行示例:

示例1 - Metropolis-Hastings

最受欢迎的MCMC算法之一是Metropolis-Hastings(M-H) algorithm.

Denote by $fleft( x
ight) $ 目标分布的密度(或质量)功能,即 我们希望提取一系列抽奖(例如, $ F $. 可能是贝叶斯推理的后密度)。

Denote by [eq15] 我们能够提取样本的条件分布 IID draws (x, $ x ^ {prime} $ 并且目标分布的论点都具有相同的维度)。

M-H算法从任何值开始 $ x_ {1} $ 属于目标分布的支持并产生 subsequent values $ x_ {i} $ as follows:

  1. generate a proposal $ y_ {i} $ 从提案分布 [eq16];

  2. 计算接受 probability[eq17]

  3. draw a uniform random variable $ u_ {i} $ (on $left[ 0,1
ight] $);

  4. if $ u_ {i} leq p_ {i} $, 接受提案和设置 $ x_ {i} = y_ {i} $; 否则,拒绝提案并设置 $ x_ {i} = x_ {i-1} $.

可以证明,提供了一些技术条件,所以 sequence [eq18] 由此产生的是Markov链的实现,将其收敛于 固定分布 $fleft( x
ight) $. Furthermore, for any function $ g $, [eq19]在哪里 $ g $是 任何功能,使得预期值 [eq20] 存在并且是有限的 [eq21] denotes almost sure convergence as n 倾向于无限。换句话说,大量的强烈规律(ergodic 定理持有样本意味着 [eq22].

这种算法的力量在于您需要了解的事实 function $ F $. 只能达到乘法常量。例如,在 Bayesian inference 很常见,知道后部分布到a 乘法常数,因为可能性和之前是已知的 边缘分布不是。 Suppose[eq23]和 we know $hleft( x
ight) $ but not $ C $ 。然后,M-H算法中的接受概率 is[eq24]

因此,接受概率,这是唯一的数量 depends on $ F $., 可以在不知道常量的情况下计算 $ C $. 这是Metropolis-Hastings算法的美容:我们可以生成绘图 即使我们不完全了解该密度,即使我们不完全了解 distribution!

有关更多详细信息,请参阅讲座 Metropolis-Hastings algorithm.

例2 - GIBBS采样

另一种流行的MCMC算法是所谓的GIBBS采样算法。

假设您要生成随机向量的绘图 $ x_ {ullet} $ having joint density[eq25]在哪里 [eq26] are $ b $ 条目块(或单个条目) $ x_ {ullet} $.

Given a block $ x_ {ullet,b} $, denote by $ x_ {ullet,-b} $ 除了除外之外的包含所有块的矢量 $ x_ {ullet,b} $.

假设您能够从中生成绘图 $ b $ 条件分布 [eq27], ..., [eq28]. 在MCMC Jargon中,这些称为完整的条件分布。

GIBBS采样算法从任何向量开始 [eq29] 属于目标分布的支持并产生 subsequent values $ x_ {i} $ as follows:

  1. for $ B = 1,LDOTS,B $, generate $ x_ {i,b} $ 从条件分布 density[eq30]

换句话说,在每次迭代时,块将逐个提取一个 他们的全部条件分布,调节最新的所有抽奖 the other blocks.

注意在迭代时 i, when you extract the $ b $ - 块,最新的块绘制 1 to $b-1$ 那些已经在迭代中提取的那些 i, 虽然最新的街区 $b+1$ to $ b $ 是在之前的迭代中提取的那些 ($i-1$)。

可以证明Gibbs采样是大都会海星的特殊情况。 因此,如在m-h,序列 [eq31] 由算法生成的是实现Markov链收敛的 静止分布 $fleft( x
ight) $. 此外,样品装置的ergodic定理 [eq32] holds.

烧伤样本

常见做法是丢弃MCMC样品的第一个绘制。为了 例如,如果我们有110,000个绘图,我们丢弃了前10,000并保持了 remaining 100,000.

被丢弃的绘制集被称为 烧伤 sample.

我们为什么要做这个?如果起始值 $ x_ {1} $ 从与目标截然不同的分布中提取 distribution $ f_ {x} $, 然后也是随后的绘制的分布 $ x_ {2} $, $ x_ {3} $, ......将与之截然不同 $ f_ {x} $. 但是,由于链条,差异将变小和更小 收敛到目标分布。我们丢弃烧伤样本,我们 消除其分布远非目标分布的绘图 我们保留其分布更接近目标的绘图。这减少了这一点 使用MCMC样品进行的任何蒙特卡罗近似的偏差。

如何引用

请引用:

Taboga, Marco (2017). "马尔可夫链蒙特卡罗(MCMC)方法", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/Markov-Chain-Monte-Carlo.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。