在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计

线性回归的R平方

通过 博士

线性回归模型在预测模型的输出变量方面有多好 输入变量的依据?输出中有多少可变性 用线性回归输入的可变性来解释? R 线性回归的平方是提供定量的统计量 回答这些问题。

目录

定义

在给出线性回归的R平方的定义之前,我们警告 我们的读者发现,在 文献,通常这些定义仅在 特殊但重要的情况,其中线性回归包括一个常数 在其回归器中。我们选择此处给出的定义,因为我们认为它 更容易理解,但也请我们的读者咨询其他 资料来源。

考虑一下 线性的 回归 模型[eq1]哪里 $ x_ {i} $ 是一个 $ 1imes K $ 输入向量和 $ eta $ 是一个 Kx1 回归系数向量。假设我们有一个样本 $ N $ 观察 [eq2], 对于 $ i = 1,ldots,N $. 给出估计 $ b $$ eta $ (例如OLS估算值),我们可以计算出 回归:[eq3]

表示为 $ S_ {y} ^ {2} $ 未经调整的样本 方差 的 输出:[eq4]哪里 $ overline {y} $ 是个 样品 意思[eq5]

样本方差 $ S_ {y} ^ {2} $ 是衡量输出(即, 我们试图解释的可变性 与回归 模型。

表示为 $ S_ {e} ^ {2} $ 平方的均值 残差:[eq6]哪一个 与 未经调整的样本 方差 样本均值的残差 残差[eq7]是 等于零。除非另有说明,否则我们将维持 假设 $ overline {e} = 0 $ 在下面。

样本方差 $ S_ {e} ^ {2} $ 是残差(即部分残差)变化的量度 我们无法解释的输出变异性 与回归模型。直观地讲,当线性预测 回归模型是完美的,那么残差总是等于零,并且 它们的样本方差也等于零。相反,越少 线性回归模型的预测是准确的,最高的是 残差的方差。

我们现在准备给出R平方的定义。

定义 线性回归的R平方,表示为 $ R ^ {2} $, 是[eq8]哪里 $ S_ {e} ^ {2} $ 是残差的样本方差,并且 $ S_ {y} ^ {2} $ 是输出的样本方差。

因此,R平方是样本方差的递减函数。 残差:残差的样本方差越大,则 R平方是。

请注意,R的平方不能大于1:当 残差的样本方差为零,当残差的样本方差小于1时 残差的样本方差严格为正。

当残差的方差等于0时,R平方等于0 输出的方差,即当使用 回归模型并不比使用输出的样本均值更好 预测。

可以证明如果R的平方不能小于0 回归包括其回归变量之间的常数,并且 $ b $ 是OLS的估计 $ eta $ (在这种情况下,我们也有 $ overline {e} = 0 $)。 在这个重要的特殊情况之外,R平方可以取负值。

总之,R平方是线性回归拟合程度的度量 数据(从更多的技术角度来说,这是一种拟合优度度量):何时 等于1(并且 $ overline {e} = 0 $), 它表明回归的拟合是完美的;而且越小越好 回归的拟合度越差。

调整后的R平方

调整后的R平方可通过使用 调整样本 方差[eq9][eq10]代替 未经调整的样本方差 $ S_ {y} ^ {2} $$ S_ {e} ^ {2} $.

这样做是因为 $ s_ {y} ^ {2} $$ s_ {e} ^ {2} $ 是的无偏估计量 [eq11][eq12] 在某些假设下(请参阅标题为“ 方差估计 的 正态线性回归模型)。

定义 线性回归的调整后R平方,表示为 $ overline {R} ^ {2} $, 是[eq13]哪里 $ s_ {e} ^ {2} $ 是残差的调整样本方差,并且 $ s_ {y} ^ {2} $ 是调整后的输出样本方差。

调整后的R平方也可以写为未经调整的函数 样品 差异:[eq14]

证明

这是事实的直接后果 那[eq15][eq16]

的 比[eq17]用过的 上式中的“自由度调整”通常称为“自由度调整”。

调整的直觉如下。当数 K 回归系数(和回归系数)很大,则R平方趋向 之所以小是因为能够调整许多回归 系数可以显着减少残差的方差(a 过度拟合现象;极端的情况是 回归器 K 等于观察数 $ N $ 我们可以选择 $ b $ 使所有残差等于 0)。 但是能够机械地减小残差的方差 调整 $ b $ 并不意味着回归误差的方差 $ arepsilon _ {i} $ 一样小。调整自由度可以将这一事实纳入 考虑并避免低估误差项的方差。

从更专业的角度讲,调整背后的想法是,我们将 真的很想知道是 数量[eq18]但 未经调整的样本方差 $ S_ {e} ^ {2} $$ S_ {y} ^ {2} $ 是...的有偏估计 [eq19][eq20] (偏见是向下的,也就是说,它们往往被低估了)。作为一个 结果,我们估计 [eq21][eq22] 调整后的样本方差 $ s_ {e} ^ {2} $$ s_ {y} ^ {2} $, 这是无偏估计量。

如何引用

请引用为:

Taboga, Marco (2017). "线性回归的R平方", 列克特ures on probability 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/R-squared-of-a-linear-regression.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。