线性回归模型在预测模型的输出变量方面有多好 输入变量的依据?输出中有多少可变性 用线性回归输入的可变性来解释? R 线性回归的平方是提供定量的统计量 回答这些问题。
在给出线性回归的R平方的定义之前,我们警告 我们的读者发现,在 文献,通常这些定义仅在 特殊但重要的情况,其中线性回归包括一个常数 在其回归器中。我们选择此处给出的定义,因为我们认为它 更容易理解,但也请我们的读者咨询其他 资料来源。
考虑一下 线性的
回归
模型哪里
是一个
输入向量和
是一个
回归系数向量。假设我们有一个样本
观察
,
对于
.
给出估计
的
(例如OLS估算值),我们可以计算出
回归:
表示为
的 未经调整的样本
方差 的
输出:
哪里
是个 样品
意思
样本方差
是衡量输出(即,
我们试图解释的可变性 与回归
模型。
表示为
平方的均值
残差:
哪一个
与
未经调整的样本
方差 样本均值的残差
残差
是
等于零。除非另有说明,否则我们将维持
假设
在下面。
样本方差
是残差(即部分残差)变化的量度
我们无法解释的输出变异性
与回归模型。直观地讲,当线性预测
回归模型是完美的,那么残差总是等于零,并且
它们的样本方差也等于零。相反,越少
线性回归模型的预测是准确的,最高的是
残差的方差。
我们现在准备给出R平方的定义。
定义
线性回归的R平方,表示为
,
是
哪里
是残差的样本方差,并且
是输出的样本方差。
因此,R平方是样本方差的递减函数。 残差:残差的样本方差越大,则 R平方是。
请注意,R的平方不能大于1:当 残差的样本方差为零,当残差的样本方差小于1时 残差的样本方差严格为正。
当残差的方差等于0时,R平方等于0 输出的方差,即当使用 回归模型并不比使用输出的样本均值更好 预测。
可以证明如果R的平方不能小于0
回归包括其回归变量之间的常数,并且
是OLS的估计
(在这种情况下,我们也有
)。
在这个重要的特殊情况之外,R平方可以取负值。
总之,R平方是线性回归拟合程度的度量
数据(从更多的技术角度来说,这是一种拟合优度度量):何时
等于1(并且
),
它表明回归的拟合是完美的;而且越小越好
回归的拟合度越差。
调整后的R平方可通过使用
调整样本
方差和
代替
未经调整的样本方差
和
.
这样做是因为
和
是的无偏估计量
和
在某些假设下(请参阅标题为“
方差估计 和
的
正态线性回归模型)。
定义
线性回归的调整后R平方,表示为
,
是
哪里
是残差的调整样本方差,并且
是调整后的输出样本方差。
调整后的R平方也可以写为未经调整的函数
样品
差异:
这是事实的直接后果
那和
的
比用过的
上式中的“自由度调整”通常称为“自由度调整”。
调整的直觉如下。当数
回归系数(和回归系数)很大,则R平方趋向
之所以小是因为能够调整许多回归
系数可以显着减少残差的方差(a
过度拟合现象;极端的情况是
回归器
等于观察数
我们可以选择
使所有残差等于
)。
但是能够机械地减小残差的方差
调整
并不意味着回归误差的方差
一样小。调整自由度可以将这一事实纳入
考虑并避免低估误差项的方差。
从更专业的角度讲,调整背后的想法是,我们将
真的很想知道是
数量但
未经调整的样本方差
和
是...的有偏估计
和
(偏见是向下的,也就是说,它们往往被低估了)。作为一个
结果,我们估计
和
调整后的样本方差
和
,
这是无偏估计量。
请引用为:
Taboga, Marco (2017). "线性回归的R平方", 列克特ures on probability 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/R-squared-of-a-linear-regression.