在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计

岭回归

通过 博士

Ridge回归是用于指代 线性回归 模型 其系数不是由 普通最少 方格 (OLS),但 估计量, 称为岭估计器 有偏见的 但有较低 方差 比OLS 估算器。

在某些情况下, 均方 错误 岭估计量的(它的方差和 其偏差的平方)小于OLS估算器的偏差的平方。

目录

线性回归

岭估计是在线性回归上进行的 模型[eq1]哪里:

岭估计

请记住 $ widehat {eta} $ 解决最小化 问题[eq2]哪里 $ x_ {i} $ 是个 i-th 排 X$ b $$ widehat {eta} $Kx1 列向量。

什么时候 X 具有 全职,解决方案 OLS问题 是[eq3]

岭估计器 [eq4] 解决了轻微修改的最小化 问题[eq5]哪里 $ lambda $ 是一个正常数。

因此,在岭估计中,我们向最小二乘准则添加了一个惩罚: 最小化平方和 残差[eq6]加 向量的平方范数 系数[eq7]

换句话说,岭问题惩罚了较大的回归系数,并且 参数越大 $ lambda $ 是,惩罚越大。我们将在下面讨论如何选择罚款 参数 $ lambda $.

最小化问题的解决方案 是[eq8]哪里 I 是个 $ Kimes K $ 单位矩阵.

证明

最小化的目标函数可以是 以矩阵形式写成 如下:[eq9]的 一阶条件的最小值是 $ RIDGE $ 关于 $ b $ 应该等于 零:[eq10]那 是的[eq11]要么[eq12]的 矩阵[eq13]是 任何正定 $ lambda>0$ 因为,对于任何 Kx1 向量 $a
eq 0$, 我们 有[eq14]哪里 最后的不平等源于以下事实: $ x_ {i} a $ 等于 0 每一个 i, $ a_ {k} ^ {2} $ 至少对一个人严格来说是积极的 k. 因此,矩阵具有 充分 秩 它是 可逆的. 结果,满足一阶条件 通过[eq15]我们 现在需要检查这确实是全局最小值。请注意,粗麻布 矩阵,即 $ RIDGE $, 是[eq16]从而, Hessian是正定的(它是矩阵的正倍 我们刚刚证明是肯定的)。从而, $ RIDGE $ 严格凸入 $ b $, 这意味着 $ b $ 是全球最低要求。

如果您阅读以上证明,您会注意到,与OLS估算不同, 我们不需要假设设计矩阵 X 是全职的。换句话说,当 X 没有完整的排名。

岭估计量的偏差和方差

在本节中,我们推导了在以下情况下岭估计的偏差和方差 通常的假设(例如,在 正常 线性回归模型) 那[eq17] 哪里 sigma ^ 2 是一个正常数, I 是个 $尼姆N $ 单位矩阵换句话说,我们假设 有条件的X, 回归的误差为零均值和恒定方差 sigma ^ 2 并且是不相关的。

偏压

岭估计量的条件期望值 [eq18][eq19]哪一个 与...不同 $ eta $ 除非 $ lambda = 0 $ (OLS案例)。

估计量的偏差 是[eq20]

证明

我们可以写岭估计 如 [eq21]因此, [eq22]的 岭估计量是无偏的 是的[eq23]如果 而且只有 如果[eq24]但 只有在以下情况下才有可能 $ lambda = 0 $, 也就是说,如果脊线估算器与OLS估算器一致。哪里 I 是个 $ Kimes K $ 单位矩阵偏见 是[eq25]

方差

协方差 矩阵 岭估计量 是[eq26]

证明

请记住 $ widehat {eta} $ 有条件的 方差[eq27]我们 可以将岭估计量写为OLS的函数 估算器:[eq28]因此,[eq29]

重要的是,岭估计器的方差总是小于 OLS估计量的方差。更确切地说,两者之间的区别 OLS估计器和岭估计器的协方差矩阵 [eq30]是 正定(请记住关于 高斯-马可夫 定理 比较两个估计量的协方差矩阵 检查它们的差异是否为正定)。

证明

为了进行比较,OLS 估计量必须存在。作为结果, X 必须是全职。有了这个假设, OLS估算器 是[eq31]现在, 定义 矩阵[eq32]哪一个 是可逆的。然后,我们可以重写山脊的协方差矩阵 估计为 如下:[eq33]的 两个协方差矩阵之间的差异 是[eq34]如果 $ lambda>0$, 后一个矩阵是正定的,因为对于任何 $v
eq 0$, 我们 有[eq35][eq36]因为 $ X ^ {op} X $ 它的逆是正定的

均方误差

岭估计量的均方误差(MSE) 等于其痕迹 协方差矩阵加上其偏差的平方范数 (所谓的 偏差方差 分解):[eq37]

OLS估算器的偏差为零,因此其MSE 是[eq38]

两种MSE之间的区别 是[eq39]哪里 我们已经使用了两个矩阵的迹线之和等于 他们的总和的痕迹。

我们两个词有区别 ($ rame {1} $$ rame {2} $)。 我们已经证明 矩阵[eq40]是 正定。结果,它的踪迹(术语 $ rame {1} $) 是严格肯定的。

偏差的平方(项 $ rame {2} $) 严格来说也是积极的。因此,两者之间的区别 $ rame {1} $$ rame {2} $ 可以 原则上是正面的或负面的。

有可能证明(请参阅 特奥波尔德1974 费伯兄弟1976)是否有差异 正或负取决于惩罚参数 $ lambda $, 并且总是有可能找到一个值 $ lambda $ 这样差异是正的。换一种说法, 总是在那里 存在惩罚参数的值,以使岭估计器具有 均方误差低于.

无论从实践还是理论上来说,这一结果都是非常重要的 立场。尽管根据高斯-马尔可夫定理,OLS估计量具有 在无偏估计量中,方差最低(MSE最低), 存在一个偏差估计器(岭估计器),其MSE低于 OLS。

如何选择惩罚参数

我们刚刚证明存在一个 $ lambda $ 因此,在MSE的意义上,岭估计比OLS更好。 问题是:如何找到最优的 $ lambda $?

找到最好的最常见的方法 $ lambda $ 通过所谓的留一法交叉验证:

  1. 我们选择一个网格 $ P $ 可能的值 [eq41] 对于惩罚参数;

  2. 对于 $ i = 1,ldots,N $, 我们排除 i-th 观察 [eq42] 从样本中我们:

    1. 用剩下的 $N-1$ 要计算的观测值 $ P $ 岭估计 $ eta $, 表示为 [eq43], 下标在哪里 $ lambda _ {p},i $ 指示惩罚参数设置为等于 $ lambda _ {p} $ ($ p = 1,ldots,P $) 和 i-th 观察已被排除;

    2. 计算 $ P $ 排除样本的样本外预测 观察[eq44]对于 $ p = 1,ldots,P $.

  3. 我们计算出 预测[eq45]对于 $ p = 1,ldots,P $.

  4. 我们选择最佳惩罚参数 $ lambda ^ {st} $ 最小化MSE的 预测:[eq46]

换句话说,我们设定 $ lambda $ 等于在遗忘模式中产生最低MSE的值 交叉验证练习。

岭估计量不是尺度不变的

OLS估计器的一个不错的特性是它是尺度不变的:如果我们 将设计矩阵乘以可逆矩阵 $ R $, 那么我们获得的OLS估计值等于先前的估计值乘以 通过 $ R ^ {-1} $. 例如,如果我们将回归系数乘以2,则OLS估算 该回归系数除以2。

用更正式的术语来说,考虑OLS估计 [eq47]和 重新设计的设计矩阵 [eq48]

与新设计矩阵关联的OLS估计 是[eq49]

因此,无论我们如何重新调整回归变量的大小,我们总是获得相同的结果。 结果。这是OLS估计器的一个不错的属性,但不幸的是,这不是 岭估计器拥有的。考虑估计 [eq50]然后, 与重新缩放的矩阵相关的岭估计 [eq48][eq52]哪一个 等于 [eq53] 只要 如果[eq54]那 只是 如果[eq55]

换句话说,岭估计仅在特殊情况下是尺度不变的 比例矩阵的情况 $ R $ 是正常的。

始终使用标准化变量

通常不存在尺度不变性,这意味着我们对 变量的缩放比例(例如,以厘米为单位表示回归值 米或几千或几百万美元)会影响系数估算值。 由于这是非常不希望的,因此我们通常要做的是 标准化 回归中的所有变量,也就是说,我们从每个减去 变量的均值,然后除以其标准差。这样, 系数估计不受制于缩放比例的任意选择 变量。

参考文献

Farebrother,R.W.(1976) " 平均结果 岭回归平方误差”,《皇家统计杂志》 社会,B系列(方法论),38,248-250。

的obald,C.M.(1974年) " 均值的概括 平方误差应用于岭回归”,《皇家杂志》 统计学会,B系列(方法论),36,103-106。

如何引用

请引用为:

Taboga, Marco (2017). "岭回归", 列克特ures 上 probability theory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/ridge-regression.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。