在Statlect上搜索概率和统计术语
统计列克特
指数 > 的基本原理 统计

具有标准变量的线性回归

通过 博士

本讲座涉及标准化 线性的 回归,即其中变量为 标准化。

通过减去变量来标准化变量 样本平均值 并除以 标准偏差。被之后 标准化后,变量的均值和单位标准差为零。

目录

标准化

我们将处理线性 回归[eq1]哪里 $ i = 1,ldots,N $ 是样本中的观察结果, K 回归器 [eq2]K 回归系数 [eq3], $ y_ {i} $ 是因变量, $ arepsilon _ {i} $ 是错误项。

在标准化回归中,所有变量的均值和单位均为零 标准偏差或等效单位 方差。更多 恰恰,[eq4]对于 $ k = 1,ldots,K $.

此外,我们假设因变量也是 标准化:[eq5]

如何获得标准化变量

通常,要包含在回归模型中的变量的均值不为零 和单位方差表示为 $ x_ {ik} ^ {u} $ 这样的变量(其中上标 $ u $ 表示该变量未标准化)。然后,我们将其标准化 将其包括在回归中。

我们计算样本均值和方差 $ x_ {ik} ^ {u} $: [eq6]

然后,我们计算标准化变量 $ x_ {ik} $ 用于 回归:[eq7]对于 $ i = 1,ldots,N $$ k = 1,ldots,K $.

对因变量执行相同的过程 $ y_ {i} ^ {u} $ 如果它没有零均值和单位方差。

没有拦截

如果回归中包含截距,则需要特别注意, 也就是说,如果其中一个回归变量是常数且等于1。

显然,常数不能标准化,因为其方差为零且 不允许除以零。

我们有两种可能性:

  1. 我们保留常数不变,也就是说,我们不对其进行标准化;

  2. 我们从回归中删除常数。

如果所有变量,包括因变量 $ y_ {i} $, 如我们上面假设的那样标准化,那么就不需要包含 回归中的常数,因为 最小二乘 估计 它的系数的绝对值将等于零(下面有证明)。 因此,接下来我们总是要删除常数。

证明

用矩阵写回归 形成[eq8]哪里 $ y $ 是个 $尼姆1 $ 自变量向量 X$尼姆K $ 回归向量 $ eta $ 是个 Kx1 回归系数矩阵和 ε$尼姆1 $ 错误项向量。

的OLS估计量 $ eta $[eq9]

假设第一个回归变量是常数且等于1,其他所有回归变量 回归器是标准化的。表示为 $ X _ {-1} $ 通过删除的第一列获得的矩阵 X (即包含常量的列)。然后, $ X ^ {op} X $ 被阻止 对角线:[eq10]哪里 因为变量是标准化的,所以非对角线块为零。

作为结果, [eq11] 被阻止 对角线:[eq12]

此外,[eq13]哪里 $ Noverline {y} = 0 $ 因为 $ y_ {i} $ 是标准化的。

因此,通过执行两个块矩阵的乘法 [eq14]$ X ^ {op} y $, 我们得到 [eq15]

换句话说,当我们添加一个截距时,另一个的OLS估算器 回归变量不变,估计截距始终等于 零。

样本协方差

在回归中对变量进行标准化可大大简化 计算其样本协方差和相关性。

两个回归变量之间的样本协方差 $ x_ {ik} $$ x_ {il} $[eq16]哪里 样本均值 $ overline {x_ {k}} $$ overline {x_ {l}} $ 之所以为零,是因为两个回归指标是标准化的。

由于同样的原因,样本之间的协方差 $ y_ {i} $$ x_ {ik} $[eq17]

样本相关

样本之间的相关性 $ x_ {ik} $$ x_ {il} $[eq18]哪里 样本方差 $ s_ {k} ^ {2} $$ s_ {l} ^ {2} $ 等于1,因为两个回归变量是标准化的。

同样,样本之间的相关性 $ y_ {i} $$ x_ {ik} $[eq19]

因此,在标准化回归中,样本相关性和样本方差 重合。

最小二乘估算器

表示为 $ y $$尼姆1 $ 独立变量的向量和 X$尼姆K $ 回归矩阵,这样回归方程可以写成 矩阵 形成 如 [eq20]哪里 $ eta $ 是个 Kx1 回归系数向量和 ε 是个 $尼姆1 $ 错误项向量。

的OLS估计量 $ eta $[eq21]

当所有变量都标准化后,OLS估计量可以写为 样本相关性的函数。

表示为 $ x_ {i ullet} $i-th 排 X. 请注意 $ left(k,l
权)$-th 的元素 $ X ^ {op} X $[eq22]

此外, k-th 的元素 $ X ^ {op} y $[eq23]

表示为 $ r_ {xx} $ 的样本相关矩阵 X, 那就是 $ Kimes K $ 其矩阵 $ left(k,l
权)$-th 项等于 $ r_ {kl} $. 然后,[eq24]

同样,用 $ r_ {xy} $Kx1 其向量 k-th 项等于 $ r_ {ky} $, 所以 那[eq25]

从而, 我们可以将OLS估计量写为样本的函数 相关性 矩阵:[eq26]

标准化系数

具有标准化的线性回归模型的估计系数 变量被称为 标准化系数。他们是 有时被认为比一个系数更容易解释 非标准化回归。

解释

一般而言,回归系数 $ eta _ {k} $ 被解释为对因变量产生的影响 的 k-th 回归器增加一个单位。

有时,例如,当我们读取由 其他人,我们无法判断回归器的单位是否增加 或多或少,或者我们不确定效果的相关性 $ eta _ {k} $ 在因变量上。在这些情况下,标准系数为 更容易解释。

在标准回归中,变量的单位增加等于变量的单位增加 标准偏差。大致来说,标准差是平均值 随机变量与其均值的偏差。因此,当变量不同于 它的平均值是一个标准偏差,即某种意义上的“典型”偏差。 然后,标准化系数 $ eta _ {k} $ 告诉您典型偏差的多少倍或分数 $ y_ {i} $ 是由于 k-th 回归器。

标准化系数之间的比较

标准化的另一个好处是比较起来比较容易 在回归者中。特别是如果我们问哪个回归变量最大 对因变量的影响,那么我们有一个简单的答案: 系数绝对值最高的回归器。实际上, 该回归值与平均值之间的典型偏差将产生最大的 与其他典型偏差产生的效果相比 回归他们的意思。

如何引用

请引用为:

Taboga, Marco (2017). "具有标准变量的线性回归", 列克特ures on probability 的ory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/linear-regression-with-standardized-variables.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。