在Statlect上搜索概率和统计术语
统计 列克特
指数 > 的基本原理 统计

线性回归模型

通过 博士

线性回归模型属于 条件模型。线性 回归模型,输出变量(也称为因变量),或 真人在线斗地主regressand是输入变量的线性函数(也 称为自变量或回归变量)和无法观察到的误差项 这会给输入和输出之间的线性关系增加噪声。

目录

主要真人在线斗地主和符号

本节介绍主要真人在线斗地主以及符号和术语 用于处理线性回归模型。

我们真人在线斗地主统计学家观察到实现的样本 [eq1] 对于 $ i = 1,ldots,N $ (即 样本量 等于  $ N $ )。 输出变量是标量,用  $ y_ {i} $ , 以及相关的输入 $ 1imes K $ 向量,用  $ x_ {i} $ .

假定输入与输入之间存在线性关系。 输出: [eq2] 哪里  $ eta $ 是一个 Kx1 常数向量,称为 回归系数$  是 psilon _ {i} $ 是一个不可观察到的误差项,其中包含了  $ y_ {i} $ 输入向量中不包含的  $ x_ {i} $ (例如,测量误差或输入变量未被 统计员)。请注意,假定每个关系都成立 $ i = 1,ldots,N $, 一样的  $ eta $ .

真人在线斗地主我们有一个体重,身高和年龄分别为 观察,我们想建立一个线性回归模型来预测体重 根据身高和年龄。然后,我们可以真人在线斗地主 那 [eq3] 哪里  $ w_ {i} $ ,  $ h_ {i} $ $ lpha _ {i} $ 表示体重,年龄和身高 i -th 分别在样本中 $ eta _ {1} $, $ eta _ {2} $$ eta _ {3} $ 是回归系数,并且 $  是 psilon _ {i} $ 是一个错误术语。这个回归方程可以写成 如 [eq4] 通过 定义 $ y_ {i} = w_ {i} $, 的 $ 1imes 3 $ 向量  $ x_ {i} $ [eq5] 和 的 $ 3imes 1 $ 向量  $ eta $ [eq6]

矩阵符号

表示为  $ y $ $尼姆1 $ 的向量 输出 [eq7] 通过 X$尼姆K $ 的矩阵 输入 [eq8] 和 通过 [eq9]$尼姆1 $ 错误项向量。然后,可以表达线性关系 如 [eq10] 的 矩阵 X 通常被称为 设计矩阵.

截距

回归向量  $ x_ {i} $ 通常假定包含等于的常数 1. 在不失一般性的前提下,可以假定它是  $ x_ {i} $ , 这样设计矩阵的第一列 X 是的一列 1 s。

对应于常数变量的回归系数称为 截距.

真人在线斗地主回归数为 $K=2$ 并且回归包括等于的常数 1. 然后,我们有 那 [eq11] 的 系数 $ eta _ {1} $ 是回归的截距。

请注意,当回归中包含截距时,则可以 不失一般性地假定误差项的期望值 等于 0. 例如,在前面的示例中,如果 [eq12], 然后我们可以 写 [eq13] 和 定义一个新的回归 方程 [eq14] 哪里 [eq15][eq16]. 当然, [eq17] 因为 [eq18]

推理

统计推断 关于 回归模型通常以以下形式进行 点估计, 集合估计 真人在线斗地主检验 关于:

此外, 估计  $ eta $ 和的分布  ε 通常用于对不属于观测的结果做出预测 到样品。例如,输入 $ x_ {N + 1} $ 样本外观察值的平均值可用于计算期望值 其对应的输出  $ y_ {N + 1} $ .

估算值

为了导出 估计量 的 回归系数向量  $ eta $ 以及误差的协方差  ε (以及建立估算器的属性,例如无偏见, 一致性和渐近方差),有必要做一些真人在线斗地主 关于回归矩阵的联合分布 X 和误差项的向量  ε . 我们将在以下各节中讨论此类真人在线斗地主。但是,我们会 想预见一个事实,即最常用的  $ eta $ 是普通最小二乘(OLS)估算器。正如我们将解释的,OLS 估计器不仅计算方便,而且具有良好的 联合的不同真人在线斗地主下的统计性质 的分布 X ε .

OLS估算

以下是OLS估算器的正式定义。

定义 估算器 $ widehat {eta} $ 是一个 OLS估算器 $ eta $ 当且仅当 满足 [eq19]

换句话说,OLS估计量是通过找到估计的向量来获得的 回归系数可将所有观测值的总和最小化 残差平方,其中 剩余的 [eq20] 是 观察到的输出之间的差异  $ y_ {i} $ 及其预测值  $ x_ {i} b $ (根据以下真人在线斗地主进行预测:  $ b $ 是回归系数的向量)。

请注意,预测值越接近实际输出值, 残差平方和越小。因此,OLS估计量是向量 回归系数的组合,使预测值与 可能的实际输出值(这里的问题是距离 预测值与观察值之间的平方 差异)。

在设计矩阵具有满秩的真人在线斗地主下,最小化 上面的问题有一个独特而明确的解决方案。

主张 如果设计矩阵 X 有完整的排名,那么OLS估算器 是 [eq21]

证明

首先,观察到 残差平方,此后由表示  $ SSR $ , 可以用矩阵形式写成 如下: [eq22] 的 一阶条件的最小值是  $ SSR $ 关于  $ eta $ 应该等于 零: [eq23] 那 是的 [eq24] 要么 [eq25] 现在, 如果 X 拥有全等级(即,等级等于 K ), 然后矩阵 [eq26] 是可逆的。结果,满足一阶条件 通过 [eq27] 我们 现在需要检查这确实是全局最小值。请注意,粗麻布 矩阵,即  $ SSR $ , 是 [eq28]$ X ^ {op} X $ 是一个正定矩阵,因为对于任何 $a
eq 0$, 我们 有 [eq29] 哪里 最后的不平等源于以下事实: X 具有完整的排名(因此, $a
eq 0$ 暗示  $ x_ {i} a $ 不能等于 0 每一个 i )。 从而,  $ SSR $ 严格凸入  $ b $ , 这意味着  $ b $ 确实是全球最低要求。

楷模

如预期的那样,线性度 真人在线斗地主[eq30] 是 本身不足以确定OLS估计器的属性  $ eta $ 或任何其他估计量  $ eta $ 和的分布特征 $  是 psilon _ {i} $. 为了能够导出任何有意义的属性,我们需要进一步 关于回归变量的联合分布的真人在线斗地主 X 和错误条款  ε . 这些进一步的真人在线斗地主与线性真人在线斗地主一起形成了 线性回归模型。

流行的线性回归模型是所谓的正态线性回归 模型(NLRM),其中真人在线斗地主误差向量  ε 有一个 多元正态分布 有条件的 在设计矩阵上 X, 和的协方差矩阵  ε 是对角线,并且所有对角线项都相等(换句话说, 的条目  ε 相互独立 并保持不变 方差)。在这些真人在线斗地主下,OLS估计量的向量 回归系数具有多元正态分布,并且 几种分布 测试 统计 可以通过分析得出。有关NLRM的更多详细信息,请参见 在标题为“讲座”的演讲中找到 正常 线性回归模型.

尽管NLRM具有几个吸引人的属性,但其真人在线斗地主是 在许多实际的实际案例中是不现实的。因此,通常 认为最好做出较弱的真人在线斗地主,在这种真人在线斗地主下,有可能 证明OLS估计量是一致且渐近正态的。这些 真人在线斗地主将在题为“演讲”的讲座中讨论 的性质 OLS估算器.

如何引用

请引用为:

Taboga, Marco (2017). "线性回归模型", 列克特 ures on probability 的 要么 y 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/linear-regression.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。