在Statlect上搜索概率和统计术语
统计 列克特
指数 > 的基本原理 统计

多重共线性

通过 博士

共共线性是一个影响 线性回归 楷模 其中一个或多个回归系数很高 相关的 与 其他回归变量的线性组合。发生这种情况时, 最小二乘 估计量 回归系数中的一个非常不精确, 是的,它具有很高的 方差 , 即使 样本量 大。

目录

设置和符号

在讨论多重共线性之前,让我们介绍一下我们的概念 即将使用:

矩阵形式的回归方程 是 [eq1]

最小二乘 估算器

最小二乘 估算器 $ widehat {eta} $ 是最小化的解决方案 问题 [eq2] 什么时候 X 具有 全职 , 解决方案 是 [eq3]

最小二乘 估计量的方差

在某些情况下, 协方差 矩阵 最小二乘 估计量 是 [eq4] 哪里  sigma ^ 2 是的方差 $ arepsilon _ {i} $ 对于 $ i = 1,\ ldots,N $.

特别地,该协方差矩阵的公式完全适用于 正常 线性回归模型 并在 关于的讲座 的性质 最小二乘 估算器.

完美的多重共线性

最极端的情况是完美的多重共线性,其中至少 一个回归变量可以表示为 线性组合 另一个 回归器。在这种情况下, X 可以写成其他列的线性组合。作为结果, X 不是 全职 还有, 的基本结果 矩阵产品和 等级 ,产品等级 $ X ^ {op} X $ 小于 K, 以便 $ X ^ {op} X $ 不是 可逆的 。就这样 最小二乘 估算器的公式甚至无法计算。

粗略地说,尝试求逆秩不足矩阵就像尝试 计算零的倒数。在完美多重共线性的情况下,我们 尝试计算方程式(1)中的方差,我们得出 除以零的问题:我们除以  sigma ^ 2 零,因此回归系数的方差 (的对角线元素 [eq5]) 去无穷大。

非完美多重共线性

当其中一个回归变量与a高度相关但不等于a 其他回归变量的线性组合,那么我们说回归 尽管多重共线性不是完美的,但遭受多重共线性的困扰。

在这种情况下,设计矩阵是完整的,但距离还很远 排名不足。

继续上面的零除类比,当多重共线性为 不完美,我们正在分裂  sigma ^ 2 等式(1)中的数值非常小,因此 回归系数非常大。

方差膨胀系数

我们如何测量多重共线性度?我们如何制作 上面的非完美多重共线性的定义更精确吗?

多重共线性度通常是针对每个 回归器 $ X_ {ullet k} $ ($ k = 1,\ ldots,K $ ), 通过比较两个数量:

  1. 的差异 [eq6] (OLS估算系数的 $ X_ {ullet k} $ 在估计的回归中)如果 $ X_ {ullet k} $ 与其他所有回归变量都不相关;

  2. 的实际方差 [eq7].

这两个量之间的比率(实际/假设方差)为 称为方差膨胀因子(VIF)。 VIF通过多少 给定回归变量与其他回归变量的线性相关性增加 相对于基线情况的系数估计的方差 没有相关性。

可以证明方差膨胀因子为系数 [eq8][eq9] 哪里 $ R_ {k} ^ {2}$ 是个 R 平方 其中的回归 $ X_ {ullet k} $ 是因变量, $ X_ {ullet j} $ ($j
eq k$) 是因变量。

如果所检查的回归变量与线性组合高度相关 其他回归变量,然后 $ R_ {k} ^ {2}$ 接近1,方差膨胀因子大。在极限时 $ R_ {k} ^ {2}$ 趋于1,也就是说,在上面讨论的完全多重共线性的情况下,  $ VIF_ {k} $ 趋于无穷大。

尽管没有经验法则是完美的(请参阅 奥布莱恩 2007),高于10的VIF值(即 $ R_ {k} ^ {2}>0.9$) 通常被认为是可能值得采用 减少多重共线性的补救措施(见下文)。

数值问题

关于多重共线性存在一个重要且经常被忽略的问题:何时 X 几乎是奇异的,计算的结果 逆 [eq10] 上 计算机可能会因数值错误而严重偏见。

这非常重要:即使我们对高VIF感到满意并且 愿意接受以下事实:回归变量之间的线性相关 夸大了我们的OLS估计值的方差,但我们仍应检查 多重共线性不是大数值误差的潜在来源。在 下一节我们将展示如何执行此检查。

条件编号

条件编号是最常用的统计信息,用于检查是否 倒置 $ X ^ {op} X $ 可能会导致数值问题。

在这里,我们对条件编号的概念进行了直观介绍, 但是看 布兰迪玛特(2007) 正式但 易于理解的介绍。

考虑OLS估计 [eq11]

由于计算机执行有限精度算术,因此引入了舍入 产品和加法计算中的错误,例如 矩阵乘积 $ X ^ {op} y $. 反过来,当我们乘以时,这些舍入误差会被放大(或减弱) $ X ^ {op} y $ 反过来说 [eq12]. 误差放大了多少?条件数 $ X ^ {op} X $ 告诉我们在最坏的情况下它们放大了多少。因此对于 例如,如果条件数等于100,则在某些情况下 计算中的舍入误差 $ X ^ {op} y $ 乘以100倍 [eq13].

虽然没有确切的规则,但有些作者(例如, 格林2000 )暗示可能存在多重共线性 如果条件数为 $ X ^ {op} X $ 大于20

大多数统计软件包都具有内置函数来计算条件 矩阵数。有关条件编号计算的详细信息, 看到 布兰迪玛特(2007).

补救措施

我们该如何处理多重共线性?

完善多重共线性的补救措施

在完美多重共线性的情况下,至少一个回归变量是线性的 其他回归指标的组合。换句话说,它是多余的,并且 不添加任何信息。那么补救措施是将其从 回归。

非完美多重共线性的补救措施

当多重共线性不是完美的时,可以采取以下补救措施 考虑:

参考文献

布兰迪玛特(P.Brandimarte)(2006) 数值型 财经方法:基于MATLAB的简介, 2nd 版,Wiley Interscience。

格林(W.H.) (2002年) 计量经济学 分析 ,第5版。学徒大厅。

奥布莱恩(2007) 注意事项 方差通货膨胀因素的经验法则,品质& Quantity, 41, 673-690.

如何引用

请引用为:

Taboga, Marco (2017). "多重共线性", 列克特 ures 上 probability 的 ory and mathematical 统计 , Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/multicollinearity.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。