本讲座涉及标准化 线性的 回归,即其中变量为 标准化。
通过减去变量来标准化变量 样本平均值 并除以 标准偏差。被之后 标准化后,变量的均值和单位标准差为零。
我们将处理线性
回归哪里
是样本中的观察结果,
回归器
和
回归系数
,
是因变量,
是错误项。
在标准化回归中,所有变量的均值和单位均为零
标准偏差或等效单位
方差。更多
恰恰,对于
.
此外,我们假设因变量也是
标准化:
通常,要包含在回归模型中的变量的均值不为零
和单位方差表示为
这样的变量(其中上标
表示该变量未标准化)。然后,我们将其标准化
将其包括在回归中。
我们计算样本均值和方差
:
然后,我们计算标准化变量
用于
回归:
对于
和
.
对因变量执行相同的过程
如果它没有零均值和单位方差。
如果回归中包含截距,则需要特别注意, 也就是说,如果其中一个回归变量是常数且等于1。
显然,常数不能标准化,因为其方差为零且 不允许除以零。
我们有两种可能性:
我们保留常数不变,也就是说,我们不对其进行标准化;
我们从回归中删除常数。
如果所有变量,包括因变量
,
如我们上面假设的那样标准化,那么就不需要包含
回归中的常数,因为
最小二乘
估计 它的系数的绝对值将等于零(下面有证明)。
因此,接下来我们总是要删除常数。
用矩阵写回归
形成哪里
是个
自变量向量
的
回归向量
是个
回归系数矩阵和
的
错误项向量。
的OLS估计量
是
假设第一个回归变量是常数且等于1,其他所有回归变量
回归器是标准化的。表示为
通过删除的第一列获得的矩阵
(即包含常量的列)。然后,
被阻止
对角线:
哪里
因为变量是标准化的,所以非对角线块为零。
作为结果,
被阻止
对角线:
此外,哪里
因为
是标准化的。
因此,通过执行两个块矩阵的乘法
和
,
我们得到
换句话说,当我们添加一个截距时,另一个的OLS估算器 回归变量不变,估计截距始终等于 零。
在回归中对变量进行标准化可大大简化 计算其样本协方差和相关性。
两个回归变量之间的样本协方差
和
是
哪里
样本均值
和
之所以为零,是因为两个回归指标是标准化的。
由于同样的原因,样本之间的协方差
和
是
样本之间的相关性
和
是
哪里
样本方差
和
等于1,因为两个回归变量是标准化的。
同样,样本之间的相关性
和
是
因此,在标准化回归中,样本相关性和样本方差 重合。
表示为
的
独立变量的向量和
的
回归矩阵,这样回归方程可以写成
矩阵 形成
如
哪里
是个
回归系数向量和
是个
错误项向量。
的OLS估计量
是
当所有变量都标准化后,OLS估计量可以写为 样本相关性的函数。
表示为
的
-th
排
.
请注意
-th
的元素
是
此外,
-th
的元素
是
表示为
的样本相关矩阵
,
那就是
其矩阵
-th
项等于
.
然后,
同样,用
的
其向量
-th
项等于
,
所以
那
从而, 我们可以将OLS估计量写为样本的函数
相关性
矩阵:
具有标准化的线性回归模型的估计系数 变量被称为 标准化系数。他们是 有时被认为比一个系数更容易解释 非标准化回归。
一般而言,回归系数
被解释为对因变量产生的影响
的
-th
回归器增加一个单位。
有时,例如,当我们读取由
其他人,我们无法判断回归器的单位是否增加
或多或少,或者我们不确定效果的相关性
在因变量上。在这些情况下,标准系数为
更容易解释。
在标准回归中,变量的单位增加等于变量的单位增加
标准偏差。大致来说,标准差是平均值
随机变量与其均值的偏差。因此,当变量不同于
它的平均值是一个标准偏差,即某种意义上的“典型”偏差。
然后,标准化系数
告诉您典型偏差的多少倍或分数
是由于
-th
回归器。
标准化的另一个好处是比较起来比较容易 在回归者中。特别是如果我们问哪个回归变量最大 对因变量的影响,那么我们有一个简单的答案: 系数绝对值最高的回归器。实际上, 该回归值与平均值之间的典型偏差将产生最大的 与其他典型偏差产生的效果相比 回归他们的意思。
请引用为:
Taboga, Marco (2017). "具有标准变量的线性回归", 列克特ures on probability 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/linear-regression-with-standardized-variables.