搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics

最大似然

经过 ,博士学位

最大似然估计(MLE)是一种允许使用的估计方法 一个样本来估计概率分布的参数 生成样本。

在阅读此讲座之前,您应该熟悉这些概念 介绍了题为题为的讲座 Point estimation Estimation methods.

目录

样本及其可能性

最大可能性估计问题的主要元素是 following:

最大可能性估算器

最大可能性估计器 $ widehat {heta} $ of $ heta _ {0} $ 获得为最大化的解决方案 problem:[eq8]在 other words, $ widehat {heta} $ 是最大化样本可能性的参数 $ xi $. $ widehat {heta} $ is called the 最大可能性估算器 of $ heta $.

在下面,符号 $ widehat {heta} $ 将用于表示最大可能性估计器(随机变量) 最大的似然估计(实现随机变量): 意义从上下文中会很清楚。

The same estimator $ widehat {heta} $ 获得为解决方案 of[eq9]IE。, 通过最大化似然函数的自然对数。解决这个问题 问题相当于解决原始的问题,因为对数是一个 严格越来越多的功能。调用可能性的对数 日志可能 和 it is denoted by[eq10]

渐近性质

获得最大似然估计器的(渐近)属性,一个 需要为样本指定一组关于样本的假设 $ xi $ 和参数空间 $ theta $.

下一节呈现了一系列假设,允许容易地派生 最大似然估计器的渐近特性。某些 假设是完全限制性的,而其他假设是非常通用的。所以, 随后的部分讨论了最具限制性的假设如何 削弱以及最通用的方式如何更具体。

注意:本节中的演示文稿并不瞄准每百万 十分严格。它的目的是介绍读者到主要步骤 这是导出最大可能性的渐近性质所必需的 估计。因此,一些技术细节要么跳过或 解除强调。掌握与之相关的主要问题后 感兴趣的读者可以指的是Mle的渐近性质可以参考其他来源 (e.g., Newey和McFadden - 1994年, Ruud - 2000)对于完全严谨的演示。

Assumptions

Let [eq11] be a sequence of Kx1 随机向量。表示 $ xi _ {n} $ 包含第一的样品 n realizations of the sequence[eq12]哪一个 是一个随机的实现 vector[eq13]

We assume that:

  1. IID。 [eq14] is an IID sequence.

  2. 连续变量。 A generic term $ x_ {j} $ of the sequence [eq15] 是连续随机矢量,其联合概率密度函数 [eq16]属于 一组联合概率密度函数 [eq17] indexed by a Kx1 parameter $ heta在$ $ (我们在哪里丢弃下标 $ j $ 突出显示序列的术语相同的事实 distributed).

  3. 鉴别。 If [eq18], then the ratio[eq19]是 not almost surely constant. This also implies that the parametric family is identifiable: 不存在另一个参数 [eq20] such that [eq21] 是真正的概率密度函数 $ x_ {j} $.

  4. 可积分的日志可能性。 日志可能是 integrable:[eq22]

  5. 最大。 密度函数 [eq23] 和参数空间 $ theta $ 是这样一生都存在唯一的解决方案 [eq24] of the maximization problem:[eq25]在哪里 最右边的平等是独立的后果(见IID 上面的假设)。当然,这是一样的 as[eq26]在哪里 [eq27] 是日志可能性和 [eq28]是 个人观察的贡献对日志可能性。这是 also the same as[eq29]

  6. 限制的盈利能力。 密度函数 [eq17] 和参数空间 $ theta $ are such that[eq31]在哪里 $ qtr {rm} {plim} $ denotes a limit in probability。粗略地说, 可以在内部带来概率限制 $ rg max $ operator.

  7. 可怜的性。 这 log-likelihood [eq32] 是两倍相对于 $ heta $ in a neighborhood of $ heta _ {0} $.

  8. 其他技术条件。 衍生品 log-likelihood [eq27] 表现得很好,以便可以交换集成和 差异化,计算他们的第一和第二矩,概率 涉及他们的参赛作品的限制也表现得很好。

信息不等式

鉴于上面的假设,我们可以推导出一个重要的事实 expected value 的 the log-likelihood:[eq34]

证明

首先 all,[eq35]所以, the inequality[eq36]是 满足于 if[eq37]哪一个 can be also written as[eq38](笔记 到目前为止,我们所做的一切都是合法的,因为我们已经承担了这一点 日志似然是可集成的)。因此,证明我们的索赔等同于 证明这最后一次不平等持有。为了做到这一点,我们需要 use Jensen's inequality。自从 对数是严格凹入的函数,并通过我们的假设来说 ratio[eq19]是 不等于我们的不等式问题并不常态 have[eq40]但,[eq41]所以,[eq42]哪一个 正是我们需要证明的东西。

这种不平等,称为 信息不平等 经过 many 作者,对于证明最大可能性的一致性至关重要 estimator.

一致性

鉴于上述假设,最大可能性估计器 [eq43] is a consistent estimator 的 the true parameter $ heta _ {0} $:[eq44]在哪里 $ qtr {rm} {plim} $ 表示概率的极限。

证明

我们假设密度函数 [eq23] 和参数空间 $ theta $ are such that[eq46][eq47]这 最后的平等是真的,因为,通过 Kolmogorov的大量规定 (我们有一个有限平均值的IID序列),样本平均值 [eq48] converges almost surely to [eq49] 因此,它也会融合概率 ( 收敛几乎肯定意味着融合 probability)。因此,把东西放在一起,我们 obtain[eq50]在 我们看到了信息不平等的证明(见上文) that[eq51]哪一个, obviously, implies[eq52]因此,[eq53]

分矢量

Denote by [eq54] 日志可能性的梯度,即第一衍生物的向量 对数可能性,在该点评估 $ heta $. 这个矢量通常被称为 分矢量.

鉴于上述假设,评分预期为零 value:[eq55]

证明

首先,注意 that[eq56]因为 概率密度函数集成到 1. 现在,从双方的第一个衍生相对于任何组件 $ heta _ {0,j} $ of $ heta _ {0} $ 并将衍生物带入其中 integral:[eq57]现在, 乘法并划分积分函数 [eq58]:[eq59]自从[eq60]我们 can write[eq61]或者, 使用预期的定义 value:[eq62]哪一个 可以使用梯度表示法以向量形式写入 as[eq63]这 结果可用于导出得分的预期值 follows:[eq64]

信息矩阵

鉴于上述假设, covariance matrix of the score (called 信息矩阵 或费舍尔信息 matrix) is[eq65]在哪里 [eq66] 是日志可能性的黑森思人,即第二矩阵 原木可能性的衍生物,在该点处进行评估 $ heta $.

证明

从以前的证据,我们知道 that[eq61]现在, 采用双方的第一个衍生与任何组成部分 $ heta _ {0,k} $ of $ heta _ {0} $, we obtain[eq68]重新排列, we get[eq69]自从 this is true for any $ j $ and any k, 我们可以以矩阵形式表达 as[eq70]在哪里 左侧是梯度的协方差矩阵。这个结果是 相当于我们需要证明的结果 because[eq71]

后者平等通常被称为 信息平等.

渐近常态

最大可能性估计器是渐近的 normal:[eq72]在 其他单词,最大似然估计器的分布 [eq73] 可以近似a multivariate normal distribution with mean $ heta _ {0} $ and covariance matrix[eq74]

证明

表示 by[eq75]这 日志可能性的梯度,即第一衍生物的向量 日志可能。表示 by[eq76]这 Hessian的日志可能性,即,第二衍生物的矩阵 日志可能。由于最大可能性估计器 [eq77] 最大化日志可能性,它满足了第一个订单 condition[eq78]此外, 通过平均值定理,我们 have[eq79]在哪里, for each $ j = 1,ldots,k,$, 中间点 [eq80] satisfy[eq81]和 the notation[eq82]表示 每行粗麻布在不同的点评估(行 $ j $ 在该点进行评估 [eq83])。 以平均值方程代替第一订单条件,我们 obtain[eq84]哪一个, by solving for [eq85], becomes[eq86]哪一个 can be rewritten as[eq87]我们 将显示第一对方括号中的术语会聚 恒定,可逆矩阵的概率和第二个术语 一对方括号会聚分布到正态分布。 结果是他们的产品也会在分发到a 正态分布(通过 Slutsky's theorem)。

就第一个术语而言,请注意中间点 [eq88] 汇集概率 $ heta _ {0} $:[eq89]所以, 我们跳过一些技术细节 get[eq90]作为 远程是第二任期,我们得到了 [eq91]经过 把东西放在一起,使用连续的映射定理和slutsky的 定理(参见讲座的练习 Slutsky's theorem), 我们 obtain[eq92]

通过信息平等(见其证据),渐变协方差矩阵 等于黑森州矩阵的预期价值的负数: [eq93]

不同的假设

如前所述,上面制造的一些假设是相当的 限制性,而其他人非常通用。我们现在讨论前者的能力如何 被削弱,后者如何更具体。

假设1(IID)。 可以放宽假设 that [eq94] IID是序列条款之间的一些依赖性(参见, e.g., Bierens - 2004 讨论)。以防万一 依赖性存在,渐近协方差矩阵的公式 上面给出的MLE不再有效,需要被公式替换 考虑串行相关性。

假设2(连续变量)。 有可能证明 一致性和渐近性常态也是当序列的条款时 [eq94] 从离散分布或分布中提取 既不离散也不连续(参见,例如, 纽伊 and McFadden - 1994)。

假设3(识别)。 Typically, different 当IID假设放松时需要识别条件(例如, Bierens - 2004)。

假设5(最大值)。 确保最大值, 要求通常在参数空间和上施加 日志似然函数。例如,可能需要参数 空间紧凑(关闭和有界),日志似然函数是 连续的。此外,参数空间可能需要凸形和 log-似然函数严格凹陷(例如: Newey and McFadden - 1994)。

假设6(限制的交换性)。 To ensure the 限制的盈利能力和 $ rg max $ 操作员,通常是以下条件 imposed:[eq96]

假设8(其他技术条件)。 See, for example, Newey和McFadden(1994年) for a discussion of 这些技术条件。

数值优化

在某些情况下,最大可能性问题具有分析解决方案。那 是,可以写出最大似然估计器 $ widehat {heta} $ 明确作为数据的函数。但是,在许多情况下,没有 明确的解决方案。在这些情况下,使用数值优化算法 最大化日志可能性。讲座题为 最大似然 - Algorithm 讨论这些算法。

例子

以下讲座提供了如何分析派生的详细示例 最大可能性(ML)估算器及其渐近方差:

以下讲座提供了如何执行最大可能性的示例 数值估计:

更多细节

以下部分包含有关最大可能性的更多详细信息 estimation.

渐近协方差矩阵的估计

估计最大可能性渐近协方差矩阵的方法 讨论了估算器,包括OPG,Hessian和三明治估计, the lecture entitled Maximum 可能性 - 协方差矩阵估计.

假设检验

通过最大可能性估计的参数的假设的测试是 讨论了题为题为题为的讲座 最大似然 - Hypothesis testing以及三个古典的讲座 tests: Wald test, score test, 可能性比率测试.

参考

Bierens,H. J.(2004) Introduction to 经济学的数学和统计基础,剑桥 University Press.

纽伊,W. K.和D. McFadden(1994)“第35章:大 样本估计和假设检测“,在 Handbook of Econometrics,elewsvier。

Ruud,P. A.(2000) An introduction 经济学经济学理论, 牛津大学出版社。

如何引用

请引用:

Taboga, Marco (2017). "最大似然", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/maximum-likelihood.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。