在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计

最大似然

通过 博士

最大似然估计(MLE)是一种允许使用的估计方法 一个样本来估计概率分布的参数 生成了样本。

阅读本讲座之前,您应该熟悉这些概念 介绍在名为“ 点 估算 估算方法.

目录

样本及其可能性

最大似然估计问题的主要要素是 以下:

最大似然估计

最大似然估计 $ widehat {heta} $$ heta _ {0} $ 作为最大化的解决方案而获得 问题:[eq8]在 也就是说, $ widehat {heta} $ 是最大化样本可能性的参数 $ xi $. $ widehat {heta} $ 被称为 最大似然估计$ heta $.

在下面,符号 $ widehat {heta} $ 将用于同时表示最大似然估计量(随机变量) 和最大似然估计(随机变量的实现): 从上下文中可以清楚地看出含义。

相同的估算器 $ widehat {heta} $ 作为解决方案获得 的[eq9]即 通过最大化似然函数的自然对数。解决这个 问题等于求解原始问题,因为对数是 严格增加功能。似然的对数称为 对数似然 它表示为 通过[eq10]

渐近性质

为了导出最大似然估计的(渐近)性质,一个 需要指定关于样本的一组假设 $ xi $ 和参数空间 $ 的ta $.

下一部分提出了一组假设,可以轻松得出 最大似然估计的渐近性质。某些 假设是非常严格的,而其他假设则是非常通用的。因此, 接下来的部分将讨论如何限制最严格的假设 削弱以及如何使最通用的更具体。

注意:本节中的介绍并非旨在使每个 分严格。其目的是向读者介绍主要步骤 得出最大似然性的渐近性质所必需的 估计量。因此,可以跳过某些技术细节或 不再强调。掌握了与之相关的主要问题之后 MLE的渐近性质,有兴趣的读者可以参考其他资料 (例如。, 纽维和麦克法登-1994, Ruud-2000年)进行完全严格的演示。

假设条件

[eq11] 是一个序列 Kx1 随机向量。表示为 $ xi _ {n} $ 包含第一个样本 n 的实现 顺序[eq12]哪一个 是随机的实现 向量[eq13]

我们假设:

  1. IID。 [eq14] 是一个 IID序列.

  2. 连续变量。 通用术语 $ X_ {j} $ 序列的 [eq15] 是连续随机向量,其联合概率密度函数 [eq16]属于 到一组联合概率密度函数 [eq17] 由a索引 Kx1 参数 $ 的ta中的$ (我们删除了下标的位置 $ j $ 强调一个事实,即序列的术语是相同的 分散式)。

  3. 识别。 如果 [eq18], 然后 比[eq19]是 不 几乎可以肯定 不变。这也是 暗示 参数族 可识别的: 不存在另一个参数 [eq20] 这样 [eq21] 是的真实概率密度函数 $ X_ {j} $.

  4. 对数似然性。 对数似然是 可整合:[eq22]

  5. 最大。 密度函数 [eq23] 和参数空间 $ 的ta $ 总是存在独特的解决方案 [eq24] 最大化的 问题:[eq25]哪里 最右边的平等是独立的结果(请参见IID 以上假设)。当然是一样的 如 [eq26]哪里 [eq27] 是对数似然 [eq28]是 个别观察对对数似然率的贡献。它是 也一样 如 [eq29]

  6. 限额的可交换性。 密度函数 [eq17] 和参数空间 $ 的ta $ 是这样的 那[eq31]哪里 $ QTR {rm} {plim} $ 表示一个 概率极限。大致说来, 概率极限可以带入 $ rg max $ 操作员。

  7. 可微性。 对数似然 [eq32] 相对于两次连续微分 $ heta $ 在...附近 $ heta _ {0} $.

  8. 其他技术条件。 的导数 对数似然 [eq27] 行为举止良好,因此可以交换积分和 微分,计算他们的第一刻和第二刻以及概率 限制其条目的行为也很合理。

信息不平等

鉴于以上假设,我们可以得出关于 期望值 的 对数似然:[eq34]

证明

首先 所有,[eq35]因此, 的 不等式[eq36]是 满足且仅当 如果[eq37]哪一个 也可以写 如 [eq38](注意 到目前为止我们所做的一切都是合法的,因为我们假设 对数似然是可积的)。因此,证明我们的主张等同于 证明这最后的不平等成立。为了做到这一点,我们需要 使用 詹森不等式。以来 对数是严格的凹函数,根据我们的假设, 比[eq19]是 由于詹森的不等式,我们几乎不确定地是恒定的 有[eq40]但,[eq41]因此,[eq42]哪一个 正是我们需要证明的。

这种不平等称为 信息不平等 被许多 作者,对于证明最大可能性的一致性至关重要 估算器。

一致性

根据上述假设,最大似然估计器 [eq43] 是一个 一致估计 的 真实参数 $ heta _ {0} $:[eq44]哪里 $ QTR {rm} {plim} $ 表示概率极限。

证明

我们假设密度函数 [eq23] 和参数空间 $ 的ta $ 是这样的 那[eq46][eq47]的 最后的平等是正确的,因为 柯尔莫哥洛夫的强数定律 (我们有一个平均值有限的IID序列),即样本平均值 [eq48] 收敛 几乎可以肯定[eq49] 因此,它也收敛于概率 ( 收敛几乎肯定意味着在 可能性)。因此,将事情放在一起,我们 获得[eq50]在 信息不平等的证明(见上文),我们已经看到 那[eq51]哪一个, 明显, 暗示[eq52]从而,[eq53]

得分向量

表示为 [eq54] 对数似然的梯度,即一阶导数的向量 在该点评估的对数似然的 $ heta $. 此向量通常称为 得分向量.

鉴于上述假设,该分数预期为零 值:[eq55]

证明

首先,注意 那[eq56]因为 概率密度函数与 1. 现在,对任意分量取双方的一阶导数 $ heta _ {0,j} $$ heta _ {0} $ 并将导数放入 积分:[eq57]现在, 将被乘函数乘以除法 [eq58]:[eq59]以来[eq60]我们 能够 写[eq61]要么, 使用预期的定义 值:[eq62]哪一个 可以使用梯度符号以矢量形式编写 如 [eq63]这个 结果可用于得出分数的期望值,如下所示: 如下:[eq64]

信息矩阵

根据上述假设, 协方差矩阵 得分(称为 信息矩阵 或Fisher信息 矩阵) 是[eq65]哪里 [eq66] 是对数似然的Hessian,即秒的矩阵 对数似然的导数,在该点评估 $ heta $.

证明

根据先前的证明,我们知道 那[eq61]现在, 对任何分量取双方的一阶导数 $ heta _ {0,k} $$ heta _ {0} $, 我们 获得[eq68]重新排列 我们 得到[eq69]以来 这对任何人都是如此 $ j $ 和任何 k, 我们可以用矩阵形式表示 如 [eq70]哪里 左侧是梯度的协方差矩阵。这个结果是 等于我们需要证明的结果 因为[eq71]

后者的平等常被称为 信息平等.

渐近正态性

最大似然估计是渐近的 正常:[eq72]在 换句话说,最大似然估计器的分布 [eq73] 可以近似为 多元正态 分配 刻薄 $ heta _ {0} $ 和协方差 矩阵[eq74]

证明

表示 通过[eq75]的 对数似然的梯度,即的一阶导数的向量 对数似然。表示 通过[eq76]的 对数似然的Hessian,即对数的二阶导数矩阵 对数似然。由于最大似然估计 [eq77] 最大化对数似然,它满足一阶 健康)状况[eq78]此外, 根据中值定理,我们 有[eq79]哪里, 每个 $ j = 1,ldots,K,$, 中间点 [eq80] 满足[eq81]和 的 符号[eq82]表示 粗麻布的每一行在不同的点(行 $ j $ 在该点进行评估 [eq83])。 将一阶条件代入平均值方程,我们 获得[eq84]哪一个, 通过解决 [eq85], 变成[eq86]哪一个 可以改写 如 [eq87]我们 将显示第一对方括号中的项收敛于 常数,可逆矩阵的概率以及第二个项 一对方括号的分布收敛到正态分布。 结果将是他们的产品在分销上也趋于一致。 正态分布 斯卢茨基定理)。

关于第一个术语,请注意中间点 [eq88] 收敛到 $ heta _ {0} $:[eq89]因此, 跳过一些技术细节,我们 得到[eq90]如 就第二项而言,我们得到 [eq91]通过 将事物放在一起并使用连续映射定理和Slutsky的 定理(另请参阅 斯卢茨基定理),我们 获得[eq92]

通过信息相等(参见证明),渐近协方差矩阵 等于黑森州矩阵的期望值的负数: [eq93]

不同的假设

如前所述,上面所做的一些假设 限制性的,而其他的则非常通用。现在我们讨论前者如何 被削弱,以及如何使后者更具体。

假设1(IID)。 可以放宽假设 那 [eq94] 是IID,并允许序列项之间有一定的依存关系(请参见, 例如。, 比伦斯-2004 进行讨论)。以防万一 存在相关性时, 上面给出的MLE不再有效,需要替换为以下公式: 考虑到序列相关性。

假设2(连续变量)。 有可能证明 序列项也具有一致性和渐近正态性 [eq94] 从离散分布或从以下分布中提取 既不是离散的也不是连续的(例如,参见 纽维和 麦克法登-1994)。

假设3(识别)。 通常,不同 放宽IID假设时,需要使用识别条件(例如, 比伦斯-2004)。

假设5(最大值)。 为了确保最大数量的存在, 通常对参数空间和参数都施加要求。 对数似然函数。例如,可能要求参数 空间要紧凑(封闭且有界),对数似然函数应是 连续。另外,可能要求参数空间是凸的,并且 对数似然函数严格凹(例如: 纽维 和McFadden-1994年)。

假设6(限额的可交换性)。 为了确保 限额和 $ rg max $ 运算符,通常是以下情况 施加:[eq96]

假设8(其他技术条件)。 例如,参见 纽维和麦克法登(1994) 讨论 这些技术条件。

数值优化

在某些情况下,最大似然问题具有解析解。那 是,可以写出最大似然估计器 $ widehat {heta} $ 明确地作为数据的函数。但是,在许多情况下 明确的解决方案。在这些情况下,将使用数值优化算法 最大化对数似然率。演讲题为 最大似然 - 算法 讨论这些算法。

例子

以下讲座提供了如何进行解析推导的详细示例 最大似然(ML)估计量及其渐近方差:

以下讲座提供了如何执行最大可能性的示例 数值估算:

更多细节

以下各节包含有关最大可能性的更多详细信息 估计。

渐近协方差矩阵的估计

估计最大似然的渐近协方差矩阵的方法 估计器,包括OPG,Hessian和Sandwich估计器,在 演讲题目 最大 似然-协方差矩阵估计.

假设检验

对由最大似然估计的参数进行的假设检验为 在演讲中讨论 最大似然 - 假设检验,以及关于三部古典音乐的讲座 测试: 沃尔德测试, 分数测试, 似然比检验.

参考文献

Bierens,H.J.(2004年) 简介 计量经济学的数学和统计基础,剑桥 大学出版社。

纽维,W. K. 和 D. McFadden(1994)“第35章:大 样本估计和假设检验”, 手册 计量经济学,爱思唯尔。

Ruud,P.A.(2000年) 一个介绍 古典计量经济学理论, 牛津大学出版社。

如何引用

请引用为:

Taboga, Marco (2017). "最大似然", 列克特ures on 可能性 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/maximum-likelihood.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。