在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计 > 最大似然

最大似然-算法

通过 博士

在演讲中 最大 可能性 我们已经解释了最大似然估计 $ widehat {heta} $ 参数的 $ heta _ {0} $ 作为最大化的解而获得 问题[eq1]哪里:

  1. $ Theta $ 是参数空间;

  2. $ xi $ 是观察到的数据(样本);

  3. [eq2] 是样本的可能性,取决于参数 $ heta $;

  4. $ rg max $ 运算符给出对数似然的参数 [eq3] 达到最大值。

在一些有趣的情况下,上述最大化问题具有解析性 解。换句话说,可以写 $ widehat {heta} $ 明确地作为数据的函数(例如,参见 最大似然 指数分布参数的估计)。然而, 在许多情况下,上述问题也没有明确的解决方案。 在这种情况下,有必要采用数值算法 对数可能性最大化。

这些算法如何工作?

它们基于两个不同的计算机程序。第一个程序是 以参数值作为参数的函数(称为FUN) 向量 $ heta $ 和数据 $ xi $, 并返回对数似然所取的值作为输出 [eq4]. 如下所示 图。[eq5]

第二个程序是一个例程,它多次调用函数FUN。 每次,都有不同的猜测 $ widehat {heta} $ 作为输入提供,函数FUN作为输出返回 对应于该猜测的对数可能性,并且此输出值存储在 计算机内存。根据例程,当例程找到“好的猜测”时, 预先指定的条件,停止执行并将猜测用作 最大化问题的近似解。这可以通过 下图。

[eq6]

数学的各个分支都与唯一相关 设计能够有效且有效地执行上述任务的算法 有效的方式。基本上,这些算法包含两个规则: 一种用于生成解决方案的新猜测(步骤3),另一种用于确定 当猜测足够好时(步骤6)。

通常,对数似然函数的属性要一起最大化 结合算法的特性,保证了所提出的解决方案 从某种意义上说, 真正的解决方案,所提出的解决方案可以通过 让例程执行足够多的迭代。然而, 这种融合称为 数值收敛, 不能总是从理论上保证,例如,因为 对数似然函数的性质很难研究,或者不是 给定所选算法,足以证明数值收敛。

在没有理论保证的情况下,可以进行数值收敛 实现后,通常会采用启发式方法:数值优化 该算法运行了几次,开始的时间可能不同,并且可能是随机的 参数的值(即步骤1中的不同初始猜测);我摔倒 算法(或大多数算法)的运行导致了相同的提议 解(不大的数值差异),则认为这是 证据表明,拟议的解决方案是对真实情况的良好近似 解。这种方法称为 多次开始, 要么 多起点,方法(例如, 舍恩1991)。

输入数值优化的数学细节将引导我们 误入歧途。为了具体起见,以下各节以定性的方式论述 提出一些实际问题,任何人都有最大的可能 问题应该意识到。在讨论了这些问题之后,我们将提出 一些例子。

目录

更多细节

最小化器和最大化器

常用的数值优化算法通常会执行 默认情况下最小化功能。最大似然问题可以是 这些算法很容易解决。只需注意 找到一个函数的最大值与找到那个函数的最小值相同 其签名的功能已更改。换一种说法, 解决[eq7]是 与...相同 解决[eq8]

约束与无约束优化

让参数 $ heta $ 成为 p尺寸 向量。如果参数空间 $ Theta $ 是整个 p尺寸 实向量 即[eq9]然后 一种算法 无约束优化 可以使用。这个 表示对参数空间和算法没有任何限制 将搜索整个空间 $ U {211d} ^ {p} $ 寻找解决方案。否则,如果参数空间小于的集合 p尺寸 实向量 即[eq10]哪里 $子集$ 表示严格包含,然后是 受约束的 优化 可以使用。这仅表示该算法无法 搜寻整个空间的时间更长 $ U {211d} ^ {p} $ 解决方案,但必须将其自身限制为子集 $ Theta $.

约束优化算法通常要求参数 空间 $ Theta $ 根据对条目的相等性或不平等性约束来指定 $ heta $.

如果参数是 $2$尺寸 并且其第二项不能为负,指定了参数空间 如 [eq11]哪里 $ heta _ {2} $ 是参数的第二项 $ heta $. 另一个例子是 $2$尺寸 向量,使得其项的总和小于或等于 1:[eq12]

注意,最大似然估计的渐近正态性基于 对数似然函数的导数在 $ heta _ {0} $ (真实参数值)。此外,渐近的估计 协方差矩阵需要计算 对数似然函数在 $ widehat {heta} $ (请参阅标题为“ 最大 似然-协方差矩阵估计)。因为一个的导数 在给定集合上定义的函数仅在属于 该集合的内部,可以得出以下结论: 当以下情况不能使用渐近正态性 $ widehat {heta} $ 要么 $ heta _ {0} $ 在...的边界上 $ Theta $, 也就是说,当约束具有约束力时。有一些技巧可以得出 最大似然估计的渐近分布 约束是有约束力的,但是这些技术极其复杂,它们 适用性通常受到限制(例如, 纽维和 麦克法登-1994)。

此外,大多数软件包通常都包含功能强大且经过良好测试的软件包 无约束优化的算法,但可靠的例程 约束优化可能更难找到或难以使用 有效率的。

由于上述原因,通常会尽力避免受到约束 尽可能优化问题。例如,一些约束 可以将优化问题重新参数化为无约束问题。我们 举例说明如何实现。

假设一个参数 $ heta _ {1} $ 需要严格肯定,即 [eq13]. 我们可以重新参数化它 如 [eq14]所以 对新参数没有任何限制,因为原始参数 始终尊重约束 [eq15].

假设一个参数 $ heta _ {1} $ 需要在单位间隔内,即 [eq16]. 我们可以重新参数化它 如 [eq17]所以 对新参数没有任何限制,因为原始参数 始终尊重约束 [eq18].

假设两个参数需要满足约束 [eq19]. 我们可以替代 [eq20] 在对数似然函数中,并通过减少问题的维数 删除参数 $ heta _ {2} $.

而且,约束优化问题有时会转化为 通过罚款不受约束的。这样做如下: 解决约束 问题[eq21]a 寻找无约束修改的解决方案 问题[eq22]哪里 [eq23] 是一个 罚函数 定义为 如下:[eq24]

换句话说,优化算法可以搜索整个 空间 $ U {211d} ^ {p} $ 解决方案,但是当算法提出的猜测不在 参数空间,函数返回值 in, 这样就永远不会选择猜测作为解决方案。因为无限 罚款 [eq25] 是不连续且不可微的,通常由罚款代替 连续且可微的,在数值上非常接近 它(例如, 格里瓦,纳什和索弗2009)。这个可以 导致效率和速度的显着提高 优化。但是请记住,现代优化软件是 通常能够处理无限量的罚款。

选择特定的算法

文献中已经提出了数千种优化算法 (例如,参见Wikipedia的文章, 优化 技术)。这些算法之间的主要区别是:是否或 他们不是要求函数的导数的计算是 是否能够保证数值收敛的最佳状态, 他们是否可以处理不平滑的问题(即不连续的问题或 不可微分)函数。

除非您是该领域的专家,否则通常不是一个好主意 自己决定要使用哪种算法并编写计算机 从头开始执行它的例程。在大多数情况下,最好的选择是 使用统计信息中已内置的优化例程 您用于执行最大似然估计的软件。通常, 选择将非常有限,因此您可以尝试最适合的方法 您。例如,在MATLAB中,您基本上有两种内置算法,一种 called fminsearch, that does not require 的 computation of derivatives, and one called fminunc, 确实需要它。第一个往往比较慢,但是非常健壮并且 也可以处理行为不正常或不连续的功能,而第二个 一个要快得多,但不能正确处理非平滑函数。 无论您选择哪种方式,请记住多启动方法(请参见上文) 提供了巨大的价值,因此请始终多次运行优化, 具有不同(可能随机)的起点,以便检查 所提出的解决方案是稳定的。

基于导数的算法

几种算法要求输入的一阶和二阶导数 对数似然函数,并使用这些导数形成对 参数值。根据算法,这些导数可以是 由用户提供,以函数形式计算 每个参数值的导数,或直接由 优化算法,通过使用 数值的 区分技术。记住数值微分 技术往往不稳定,因此,如果对数似然的导数 函数可以通过分析来计算,最好将它们提供给 优化算法。

停止条件

如我们所见,数值优化算法不断提出新的建议 根据一些人的猜测,直到找到一个好的猜测为止 预先指定的条件(请参见上图中的步骤6)。有什么标准 通常用来决定猜测是否足够好?有几种 通用标准,通常将它们结合使用。其中一些 以下简要描述了标准。

例子

如何使用MATLAB执行最大似然估计的示例是 讲座中提供 最大似然-MATLAB 例.

参考文献

Griva,I.,Nash,S.和Sofer,A.(2009年) 线性的 和非线性优化,第二版,SIAM。

Newey,W. K. and D. McFadden(1994)“第35章:大 样本估计和假设检验”, 手册 计量经济学,爱思唯尔。

Schoen,F.(1991年) " 随机技术 全球优化:最新进展调查”, 全球优化杂志,1,207-228。

如何引用

请引用为:

Taboga, Marco (2017). "最大似然-算法", 列克特ures on probability 的ory and mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/maximum-likelihood-algorithm.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。