搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics

正常线性回归模型

经过 ,博士学位

讲座讨论了正常线性回归的主要特性 Model (NLRM), a 线性 regression model 其中假设回归的错误矢量有一个 复发器矩阵上的多变量正态分配条件。这 假设多变量正常,以及其他假设(主要是 关于错误的协方差矩阵),允许在分析上派生 普通最小二乘(OLS)估计的分布 回归系数和其他几个统计数据。

目录

环境

我们使用题为讲座中使用的相同符号 Properties of the OLS estimator (您可以参考更多详细信息): $尼姆1 $ 从属变量的观察矢量表示 $ y $, the $尼姆k $ 回归器矩阵(称为设计矩阵)表示 X, the $尼姆1美元 错误矢量表示 埃斯利昂 and the Kx1 回归系数的矢量表示 $ eta $, 这样回归方程可以用矩阵形式编写 as[eq1]这 OLS estimator $ widehat {eta} $ 是最小化平方之和的矢量 residuals[eq2]和, if the design matrix X 拥有完整等级,可以计算 as[eq3]

假设

在正常的线性回归模型中所做的假设是:

  1. the design matrix X 拥有全级别(因此, $ x ^ {op} x $ 是可逆性的,并且OLS估计器是 [eq4]);

  2. conditional on X, the vector of errors 埃斯利昂 has a 多变量正态分布 with mean equal to 0 和协方差矩阵相等 to[eq5]在哪里 西格玛^ 2. 是一个积极的常数和 I is the $ n $ identity matrix;

注意,假设协方差矩阵 埃斯利昂 是对角线意味着条目 埃斯利昂 是相互独立的,即 $ arepsilon _ {i} $ is independent of $ arepsilon _ {j} $ for $i
eq j$. 此外,假设协方差矩阵的所有对角线条目 等于意味着所有条目 埃斯利昂 具有相同的方差,即 [eq6] for any i. 后一种假设通常被称为“同性恋假设”, 如果满足假设,我们说错误是同性恋。 相反,如果同性恋不持有,我们说错误是 heteroscedastic.

分布OLS估计

在上一节中的假设下,OLS估计人有一个 多元正态分布,在设计矩阵上有条件。

主张 在正常的线性回归模型中,OLS估计器 $ widehat {eta} $ 有多元正态分布,条件开启 X, with mean [eq7]和 covariance matrix[eq8]

证明

首先,注意 that[eq9]这 事实,我们正在调节 X 意味着我们可以治疗 X 作为恒定矩阵。因此,有条件的 X, the OLS estimator $ widehat {eta} $ is a linear 转化多元正常随机载体 (the vector 埃斯利昂)。 这意味着也意味着 $ widehat {eta} $ 是多变量正常的,与 mean[eq10]和 variance[eq11]

Note that [eq12] 意味着OLS估计器是无偏见的,不仅有条件,而且还有 无条件地,因为通过迭代期望的法律,我们有 that[eq13]

估计误差项的方差

错误术语的方差 西格玛^ 2. 通常不知道。一个常用的估计 西格玛^ 2. 是调整后的样本方差 residuals:[eq14]在哪里 回归残差是 [eq15]

享有的属性 [eq16] 总结了以下主张。

主张 在正常的线性回归模型中,调整后的样本方差 residuals [eq16] 是条件下无偏见的估计 西格玛^ 2.:[eq18]此外, conditional on X, [eq16] has a Gamma distribution with parameters $ n-k $ and 西格玛^ 2. and it is independent of $ widehat {eta} $.

证明

表示 $ e $ the $尼姆1 $ 残余载体。请记住OLS估计的先前证明 can be written as[eq20]作为 a consequence, we have[eq21]这 matrix[eq22]是 清晰对称(通过转置来验证它)。它也是个体化的 because[eq23]所以,[eq24]在哪里 [eq25] 具有标准的多变量正态分布,即多变量 正常分布零平均值和单位协方差矩阵。自从此以来 matrix $ m $ 是对称和幂的,二次形式 [eq26]具有 a Chi-Square分布 with a number of 自由度等于矩阵的痕迹 $ m $ (see the lecture Normal 分布 - 二次形式)。但痕迹 $ m $ is[eq27]自从 Chi-Square随机变量的预期值等于其数量 自由度 - 我们 have[eq28]而且, 二次形式的事实 $ q $ 有一个Chi-Square分布 $ n-k $ 自由度意味着样品 variance[eq29]具有 具有参数的伽马分布 $ n-k $ and 西格玛^ 2. (见讲座 Gamma distribution 对于这个事实的证据)。要得出结论,我们需要证明这一点 [eq30] is independent of $ widehat {eta} $. Since[eq31][eq32]我们 have that [eq16] and $ widehat {eta} $ 是相同多变量正常随机向量的功能 埃斯利昂. Therefore, by standard 结果二次形式的独立性 涉及正常载体, [eq16] and $ widehat {eta} $ are independent if $ m arspsilon $ and [eq35] 是正交的。为了检查他们的正交性,我们只需要验证 产品之间的产品 [eq36] and $ m $ is zero:[eq37]

请注意,在这种情况下,建议的估算器不仅是无偏的 有条件地,但也无条件地因为,通过迭代的法律 我们有期望 that[eq38]

估计OLS估计的协方差矩阵

我们已经证明,在正常线性回归模型中 OLS估计的条件协方差矩阵(条件开 X) is[eq8]

然而,在实践中,该数量并不完全是因为方差 错误术语,即 西格玛^ 2., 是未知的。但是,我们可以用估算器替换其未知值 上面提出(残留物的调整后的样本方差),以便 获得协方差矩阵的估算 $ widehat {eta} $:[eq40]

该估算器通常用于构建 test statistics 那 allow to conduct tests of hypotheses about the 回归系数。

最大可能性估计

可以证明,OLS估计的正常系数 线性回归模型等于 maximum likelihood 估计。相反,最大可能性估计器 错误术语的差异与衍生的估计器不同 以上。有关这两个事实的证明,请参阅题为题为的讲座 Linear 回归 - 最大可能性估计.

假设检验

In the lecture on Linear 回归和假设检测 我们解释了如何执行 hypothesis tests 关于普通线性回归模型的系数。

如何引用

请引用:

Taboga, Marco (2017). "正常线性回归模型", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/normal-linear-regression-model.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。