搜索Statlect上的概率和统计信息
统计 章程
指数 > Fundamentals of statistics

模型选择标准

经过 ,博士学位

模型选择标准是用于选择a的规则 statistical model among a set of 候选模型,基于观察到的数据。通常,标准尝试 最小化预期的不相似性,由此测量 Kullback-Leibler divergence,在所选模型和真实模型之间(即, 产生数据的概率分布)。

在本讲座中,我们专注于估计的模型的选择 by the maximum likelihood method.

目录

竞争模式

首先,我们需要精确定义我们的统计模型的原因。

统计模型是一组可能具有的概率分布 生成我们正在分析的数据。

例子 Suppose we observe n data points [eq1] 所有这些都从相同的概率分布中独立绘制 (在技术方面,他们是 IID draws)。如果我们假设绘制来自正常分布,那么 我们正在制定统计模型:我们正在限制我们的注意 the set of all normal distributions 我们正在统治所有概率分布 不正常。请注意,正常分布有两个 parameters, 均值  亩 and the variance  西格玛^ 2. , 因此我们正在考虑的分布集(统计模型) 包括许多正常分布:每个可能的夫妇 [eq2]. 如果我们假设数据已经从中汲取 exponential distribution,然后我们正在制定替代模型。这 指数分布有一个参数  $ lambda $ , 被叫率参数。我们的统计模型是一种包括许多可能的集合 分布:一个用于参数的每个可能值的  $ lambda $ .

前面的例子,虽然是不可否认的,但简单地介绍了 方法是我们将要处理的问题:我们如何选择一个型号 (例子中的正常与指数分布)如果我们认为两个或 更多替代模型是合理的吗?

符号和主要假设

让我们表示观察数据的向量  $ xi $ . 我们假设数据是连续的,并且是一个模型  $ xi $ is a family of joint probability density functions[eq3]参数化 通过参数向量 $ heta _ {m} $ for each model $ m = 1,ldots,m $.

我们专注于连续分布,以简化讨论,但 我们所说的一切也有效地用于离散分布 直接的修改(更换具有概率的概率密度 mass functions).

例子 在矢量上方的例子中  $ xi $ contains the n data points:[eq4] 这 number of models is $M=2$. 两个参数向量 are[eq5] 为了 正常分布 and[eq6] 为了 指数分布。联合概率密度函数 first model is [eq7] 因为 the joint 独立随机变量的载体的密度等于产品 他们的边缘密度。联合概率密度函数 second model is[eq8] 在哪里 [eq9] 是一个指示灯函数(如果等于1,则  $ x_ {j} >0$ and to 0 otherwise).

我们假设模型参数估计最大可能性(ml)。我们 denote by [eq10] ML估计的参数  $ m $ models.

如果您想看到一些估计估计的一些示例,您可以拥有 看看这两个讲座:

最后,我们将表示 [eq11] 生成数据的未知概率分布,以及  $ s $ 由模型选择标准选择的模型的索引。清楚地,  $ s $ can range between 1 and  $ m $ .

一般标准

Akaike (1973) 是第一个提出一般的人 选择通过最大可能性估计的模型的标准。他提出了 最小化所选模型之间的预期不相似性 [eq12] 在ml估计和真正的分布 [eq13].

估计模型与真正分布之间的不相似性是 measured by the Kullback-Leibler divergence [eq14] 在哪里 预期值是关于真实密度的 [eq15]

预期的不相似性被计算为 [eq16] 在哪里 期望是对抽样分配的 [eq17], 哪个是样本的函数  $ xi $ , 被视为随机。

理想情况下,我们想选择最小化预期的模型 dissimilarity:[eq18]

但是,预期的不相似性无法完全计算,因为 true distribution [eq19] 和抽样分配 [eq20] are unknown.

Akaike (1973) 提出了预期的近似 可以很容易地计算的不相似性,从而产生所谓的akaike 信息标准(AIC)。

例如,被证明,通过 Burnham and Anderson (2004),其他流行的选择标准,如AIC纠正 小样本偏见(AICC; Sugiura 1978, 赫维和蔡1989)和贝叶斯信息 Criterion (BIC; Schwarz 1978)基于不同的 相同措施的预期不相似的近似值。

流行标准

我们简要介绍了最受欢迎的选择标准。

Akaike信息标准(AIC)

根据Akaike信息标准,所选模型  $ s $ 解决最小化 problem[eq21] 在哪里 the value of the  $ m $ - model is [eq22] 在哪里 [eq23] 是要估计的参数数量  $ m $ - model.

请注意,应用于所有模型值的任何线性变换都没有 更改所选模型。事实上,许多参考文献定义了 value of the  $ m $ - model as[eq24]

纠正Akaike信息标准(AIC)

在小样本中更精确的近似是所谓的 纠正Akaike信息标准(AICC),根据该值的值 be minimized is[eq25] 在哪里  $ n $ 样品的大小是用于估计的。

贝叶斯信息标准(BIC)

据另一个流行的标准是贝叶斯信息标准 所选模型是实现最小值的模型 of[eq26]

复杂性的惩罚

正如您可能已经注意到的那样,所有这些标准都惩罚了惩罚的维度 模型:参数数量越高  $ k_ {m} $ is, the more model  $ m $ is penalized.

这种复杂性的惩罚是典型的模型选择标准:模型 许多参数更有可能过度贴合,即朝圣者 high value of the log-likelihood [eq27]. 讨论过于拟合,看看讲座 R 平方的线性回归.

复杂性惩罚也与所谓的 bias-variance trade-off: by 提高模型复杂性,我们通常会降低偏差并增加 方差;除了一定程度的复杂性,方差的增加是 大于偏见的减少,因此,我们的质量 推论变得更糟。

参考

Akaike,H.,H.,1973。信息理论作为延伸的信息理论 最大可能性原则。在:Petrov,Bn和Csaki,F。第二 国际信息理论研讨会。 Akademiai Kiado,布达佩斯,PP。 276-281.

Burnham,K.P.和安德森,D.R.,2004。多模型 推论:了解模型选择中的AIC和BIC。社会学方法 &研究,33(2),PP。261-304。

赫尔维奇,下午赫尔维奇和Tsai,C.L.,1989.回归和时间 序列模型选择在小型样本中。 Biometrika,76(2),pp。297-307。

施瓦茨,G.,1978年。估算模型的维度。这 统计数据,6(2),第461-464页。

Sugiura,N.,1978年。进一步分析数据 Akaike的信息标准和有限校正,统计 理论与方法,7(1),PP。13-26。

如何引用

请引用:

Taboga, Marco (2017). "模型选择标准", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/model-selection-criteria.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。