马尔可夫链蒙特卡洛(MCMC)诊断工具可用于 检查使用MCMC算法生成的样品的质量是否为 足以提供目标分布的精确近似值。
特别是,MCMC诊断程序用于检查:
MCMC样本的大部分是否已从分布中提取 与目标分布有很大不同;
生成的样本大小是否太小。
在整个讲座中,我们将假定您熟悉 基础知识 马尔可夫链蒙特卡罗方法.
这是您需要记住的一些重要事实。
MCMC算法产生一个序列
随机变量(或向量)。该序列具有以下属性:
它是一个 马尔可夫链;
较大的
是,更多的分布
与目标分布类似(在技术上,我们说
链收敛到其静态分布,这在构造上等于
到目标分布);
通常,链的两个术语
和
不是
独立.
但是,两个术语在链中的距离越远,它们距离越近
彼此独立。换一种说法,
和
成为几乎独立于
变大。
当我们为
期间,我们得到一个由第一个
的实现
链:
和
然后我们使用 经验
分配 样本以近似目标分布。
MCMC诊断程序尝试发现什么样的问题?基本上有 两个主要问题
一般而言,起始值的分布
与目标分布不同。结果,
的分布
与目标分布不同,尽管差异变得
越来越小
的增加是因为通过建造,
收敛到目标分布
趋于无穷大。
可能会发生链收敛缓慢的情况,也就是说,
迭代,抽签的分布与
目标分布。通常,这发生在初始值
位于目标分布分配很小的区域
可能性.
当链缓慢收敛时,我们MCMC样本的很大一部分可能是 由从显着分布中得出的观察结果组成 与目标分配不同。
如果我们能够发现这种问题,可以尝试通过以下方法解决它:
丢弃大量的初始观测值(所谓的老化 样品);
增加迭代次数(即样本量)。
这两种修复方法都有增加抽奖比例的作用 从(更多)与目标相似的分布中提取 分配。
请记住,一般而言,该链的两个术语
和
不是独立的但是,他们几乎独立于
变大。
假设我们能够找到最小的数字
这样,对于任何
,
和
可以被视为独立于所有实际目的(他们的程度
依赖性可以忽略不计)。为了简单起见,还假设
样本量
是...的倍数
.
然后,我们可以形成一个
子样本
的
相互独立变量的实现。这个的尺寸
子样本,我们称之为 有效样本量,是
.
大致来说,MCMC示例是 当量 到样品
具有大小的独立观察
.
马尔可夫链项之间的依存关系的衰减速度越慢
是,更大
,
有效样本量越小。
当依赖性衰减非常缓慢时
(
很大),那么有效样本量很容易发生
(
)
从一定程度上讲,MCMC样本的样本数太小
样本使其经验分布非常嘈杂/不精确
目标分布。
如果我们能够发现这种问题,可以尝试通过以下方法解决它:
调整MCMC算法,以减少依赖性(降低
);
增加迭代次数(即样本数量)
)。
这两个修复程序都有增加有效样本量的效果。
注意: 给定有效样本量的定义 这里不严谨 并且通常不同于定义 在MCMC教科书和论文中找到。其唯一目的是清楚地说明 慢慢减弱依赖性可能产生的问题。
大多数MCMC诊断程序都会测试是否存在所描述的问题1和2 以上。
特别是缺少问题1和2,以下 假设 保持:
MCMC样本中的大多数观察结果均来自 与目标分布非常相似的分布;
样本的有效大小不能太小。
如果这两个假设成立,则 意义 就是它:
的 经验 分配 样本的任何大块都很好地近似于 目标分布。
大块是指相邻抽签的子样本,表示 整个样本的很大一部分(请参见下面的示例1)。
许多诊断程序用于测试上述含义(称之为 不错 大块)。如果诊断告诉我们大块不是 很好,那么我们的样本受到问题1或2的困扰,其质量为 还不够
诊断MCMC样本中问题的最简单方法是拆分样本 分成两个或更多的块,并检查我们是否在所有 大块。
例
假设我们的MCMC样本由
画(与
甚至):
哪里
通用抽奖
是一个
随机向量。然后,我们可以将样本分为两个
大块
和
计算他们的 样品
手段
如果
两种样本均值存在显着差异(我们可以进行正式
统计检验以检查差异),那么这是一个症状,
我们的MCMC样品的质量还不够。
在前面的示例中,我们比较了两者的样本均值 子样本,但也可以对其他样本进行比较 例如,在 样品 方差.
这种简单诊断的原理非常简单。如果我们发现 样本的两个块具有明显不同的经验分布, 则必须是两者中至少有一个不是很好的近似值 目标分布。这与漂亮的大块原则相矛盾。 因此,我们的样品质量不足。
诊断问题的另一种简单方法是运行MCMC算法,而不是
曾经有不同(可能非常不同)的起点
,
以获得多个MCMC样本。然后,我们检查是否得到相同的结果
所有样品的结果(可能是在去除老化后)。我们可以
通过测试样本均值或其他样本矩来进行检查
相似地,不同的MCMC样本之间存在显着差异
我们在上一节中所做的(样本拆分)。
痕迹图可以帮助我们了解哪种问题(如果有)会影响 我们的MCMC样本。
假设我们的MCMC样本由
抽签
哪里
通用抽奖
是一个
随机向量。
跟踪图是具有以下特征的折线图:
时间
()
在x轴上;
绘制坐标之一所取的值(例如,
如果
-th
坐标在y轴上绘制)。
下图包含三个跟踪图,它们说明了典型情况 我们可能会遇到。
在第一个轨迹图中(链1),没有明显的异常。那里 似乎是连续抽奖和链条之间的温和系列相关性 似乎多次探索了样本空间。
在第二个图(链2)中,样本的第一部分(直到
)
看起来与其余部分截然不同。最有可能的是
分布以及该链的后续项的分布是
与目标分配有很大不同,但随后链条缓慢
收敛到目标分布(大约
)。
我们有问题1:很大一部分样本来自分布
与目标分布有很大不同。
在第三个情节(链3)中, 连续抽签。该链在探索样本空间方面非常慢。的 样本空间仅被探索了几次。换句话说,似乎 在我们的样本中有一些独立的观察。很可能我们有问题 2:样本的有效大小太小。
接下来的两个轨迹图显示了如何解决问题1和2。
在第一个图中,使用了来自链2的相同样本,但是老化(
第一
观测值)被丢弃。
在第二个图中,生成了来自链3的新样本,但是样本
大小急剧增加(从
至
绘制),以增加有效样本量并让链条探索
样本空间很多次。
在这两种情况下,问题似乎都已经解决:MCMC的轨迹图 样本没有显示任何明显的异常。
我们注意到,尽管迹线图非常简单并且可以进行非正式诊断 工具,它们似乎是最常使用的工具:如果您要发布 在科学期刊上进行MCMC研究,您很有可能会 要求在研究中包括您的痕迹图!
通过检查迹线图,我们可以了解序列的程度 抽签的相关性。为了精确地测量序列相关性,我们可以使用 所谓的ACF(自相关函数)图,也称为相关图。从 这些图可以看到样本项之间的自相关 链条作为滞后的函数而减少(请参阅 自相关 对于 更多细节)。
下图包含三个MCMC样本的ACF样本图, 上一节已经讨论了跟踪图。
链1的ACF图显示,自相关在短时滞时很大,但是 然后很快就为零(请记住,迹线图没有提供 任何问题的证据)。
链2和3的曲线表明,不仅自相关很大, 短暂的滞后,但它也很快消失。有趣的是,以下示例的ACF 链2和链3非常相似,即使迹线图提供了证据 两个链受到不同问题的影响(问题1和2 分别)。根据我们的经验,这是发生的事情 经常。尽管ACF图可以帮助我们评估是否存在 问题并使我们能够更好地量化自相关,这很难 从ACF判断出问题所在。因此,建议使用跟踪 图和ACF图一起。
我们应该注意,MCMC专家通常同意以下事实:
没有任何一个诊断是完美的;
我们永远不能百分百确定MCMC样品的质量足够 (诊断可以帮助我们发现问题,但不能保证 没有问题)。
由于这些原因,我们能做的最好的事情就是分析我们的MCMC样本 尽可能准确并采用许多不同的诊断方法进行评估 他们的质量。
说了很多次诊断总是一个好主意,我们感到 就像提供另一条建议一样:始终保持连锁状态只要 可以运行许多具有不同起点的链,并且不遗余力 计算资源。这是避免问题的最佳方法。
请引用为:
Taboga, Marco (2017). "马尔可夫链蒙特卡洛(MCMC)诊断", 列克特ures on 可能性 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/Markov-Chain-Monte-Carlo-diagnostics.