搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics > Set estimation

设置平均值的估计

经过 ,博士学位

这次讲座呈现了一些例子 set estimation 问题,重点关注 设置估计 mean,也就是说,在使用样本以产生设定的估计 一个未知分配的含义。

目录

正常的IID样本 - 已知方差

在这个例子中,我们做出了与我们所做的那些类似的假设 标题的均值点估计的例子 平均估计 - 普通的IID样本 . 在阅读这一个之前阅读该示例将是有益的。

样品

在此示例中,样本 $ xi _ {n} $ is made of n 独立于一个独立的抽奖 normal distribution having unknown mean 亩 and known variance 西格玛^ 2.. 具体来说,我们观察 n realizations $ x_ {1} $, ..., $ x_ {n} $ of n 独立随机变量 X_1, ..., X_N., 所有都有正常分布,平均值 亩 and known variance 西格玛^ 2.. The sample is the n - 一维 vector [eq1] 这是一个实现的 random vector [eq2]

间隔估计器

To construct an interval estimator of the mean 亩, we use the sample mean[eq3]

间隔估计器 is[eq4]在哪里 [eq5] 是一个严格的积极常数。

覆盖概率

The 覆盖范围 probability 的 the interval estimator $ t_ {n} $ is[eq6]在哪里 Z is a 标准正常随机变量.

证明

可以写入覆盖概率 as[eq7]在哪里 we have defined[eq8]在 the lecture entitled 点估计 mean,我们已经证明,鉴于样本上的假设 $ xi _ {n} $ 上面制作,样本意味着 xbar_n. 具有平均值的正态分布 亩 and variance $ sigma ^ {2} / n $. 从随机变量中减去正常随机变量的平均值 本身并将其除以其方差的平方根,一个人获得了一个 标准正常随机变量。因此,变量 Z 具有标准的正态分布。

置信系数

请注意,覆盖概率不依赖于未知参数 亩. Therefore, the confidence coefficient 间隔估计器 $ t_ {n} $ 恰逢其覆盖范围 probability:[eq9]在哪里 Z 是标准的正常随机变量。

尺寸

The 间隔估计器的大小 $ t_ {n} $ is[eq10]

预期规模

请注意,大小不依赖于样本 $ xi _ {n} $. Therefore, the expected size is[eq11]

正常的IID样本 - 未知方差

此示例类似于前一个。唯一的区别是我们 现在放宽假设分布的方差是已知的。

样品

在此示例中,样本 $ xi _ {n} $ is made of n 独立于具有未知平均值的正态分布 亩 and unknown variance 西格玛^ 2.. 具体来说,我们观察 n realizations $ x_ {1} $, ..., $ x_ {n} $ of n 独立随机变量 X_1, ..., X_N., 所有都有正常分布,平均值 亩 and unknown variance 西格玛^ 2.. The sample 是 the n - 一维 vector [eq12], 这是随机载体的实现 [eq13].

间隔估计器

构建平均值的间隔估计 亩, we use the sample mean[eq14]

and either the unadjusted sample variance[eq15]

or the adjusted sample variance[eq16]我们 考虑两个间隔估计值 mean:[eq17]在哪里 [eq5] 是一个严格的积极常量和上标 $ U $ and a 指示估算器是基于未调整的还是调整的 sample variance.

覆盖概率

间隔估计器的覆盖概率 $ t_ {n} ^ {u} $ is[eq19]在哪里 $ z_ {n-1} $ is a 标准学生的T随机变量 with $n-1$ degrees of freedom.

证明

可以写入覆盖概率 as[eq20]在哪里 we have defined[eq21]现在, rewrite $ z_ {n-1} $ as[eq22]在哪里 we have defined[eq23]和 我们使用了未经调整的样本方差可以表达为 调整后的样本方差的功能 follows:[eq24]在 the lecture entitled Point estimation of variance,我们已经证明,鉴于样本上的假设 $ xi _ {n} $ 上面制作,调整后的样本方差 $ s_ {n} ^ {2} $ has a Gamma distribution 和 parameters $n-1$ and 西格玛^ 2.. 因此,随机变量 $ w $ 具有参数的伽玛分布 $n-1$ and 1. 而且,随机变量 Y 具有标准的正态分布(请参阅上一节)。因此, $ z_ {n-1} $ 是标准正常随机变量和平方根之间的比率 具有参数的伽马随机变量 $n-1$ and 1. As a consequence, $ z_ {n-1} $ 有一个标准的学生的T分发 $n-1$ 自由度(参见讲座 Student's t distribution 对于这个事实的证据)。

间隔估计器的覆盖概率 $ t_ {n} ^ {a} $ is[eq25]在哪里 $ z_ {n-1} $ 是一个 $n-1$ degrees of freedom.

证明

覆盖概率可以写成 [eq26]在哪里 we have defined[eq27]现在, rewrite $ z_ {n-1} $ as[eq28]在哪里 we have defined:[eq23]在 the lecture entitled Point estimation of variance,我们已经证明,鉴于样本上的假设 $ xi _ {n} $ 上面制作,调整后的样本方差 $ s_ {n} ^ {2} $ 具有参数的伽玛分布 $n-1$ and 西格玛^ 2.. 因此,随机变量 $ w $ 具有参数的伽玛分布 $n-1$ and 1. 而且,随机变量 Y 具有标准的正态分布(请参阅上一节)。因此, $ z_ {n-1} $ 是标准正常随机变量和平方根之间的比率 具有参数的伽马随机变量 $n-1$ and 1. As a consequence, $ z_ {n-1} $ 有一个标准的学生的T分发 $n-1$ 自由度(参见讲座 Student's t distribution 对于这个事实的证据)。

注意基于置信区间的覆盖概率 不调整的样本方差 $ s_ {n} ^ {2} $ 基于以下的置信区间的覆盖概率低于 调整样本方差 $ s_ {n} ^ {2} $ because[eq30]和, as a consequence[eq31]

置信系数

请注意,两者的覆盖概率 $ t_ {n} ^ {u} $ and $ t_ {n} ^ {a} $ 不依赖于未知参数 亩 and 西格玛^ 2.. Therefore, the confidence coefficients 两个置信区间与相应的相互作用 coverage probabilities:[eq32]在哪里 $ z_ {n-1} $ 有一个标准的学生的T分发 $n-1$ degrees of freedom.

尺寸

The 置信区间的大小 $ t_ {n} ^ {u} $ is[eq33]尽管 置信区间的大小 $ t_ {n} ^ {a} $ is[eq34]

注意,基于未调整的样本的置信区间的大小 variance $ s_ {n} ^ {2} $ 基于调整后的置信区间的大小小于置信区间的大小 sample variance $ s_ {n} ^ {2} $ because[eq35]和, as a consequence,[eq36]

因此,基于未调整的样本方差的置信区间具有a 较小的尺寸和较小的覆盖概率。正如我们解释的那样 lecture entitled Set estimation, 选择 设定估计经常受到实现最高原则的启发 可能的覆盖概率对于给定尺寸或最小的尺寸 对于给定的覆盖概率。在这个原则之后,没有明确的 基于未调整的样本方差和估算者在估算器之间排名 基于调整后的样本方差的估算器,因为前者有 较小的尺寸,但后者具有更高的覆盖概率。

预期规模

The expected size of $ t_ {n} ^ {u} $ is[eq37]在哪里 [eq38] is the Gamma function.

证明

我们需要使用这个事实 $ s_ {n} ^ {2} $ 具有参数的伽玛分布 $n-1$ and [eq39]. 简化符号, set[eq40]这 概率密度函数 X is[eq41]在哪里 $ C $ is a constant:[eq42][eq38] 是伽玛功能。 Therefore,[eq44]在哪里 we have defined[eq45]和 我们已经使用了这个事实 that[eq46]因为 与参数伽马随机变量密度的积分 n and 西格玛^ 2. 通过其支持和概率密度整合到 1. Thus,[eq47]

The expected size of $ t_ {n} ^ {a} $ is[eq48]在哪里 [eq38] 是伽玛功能。

证明

使用这个事实 that[eq50]我们 obtain[eq51]

解决练习

下面可以找到一些练习解释的解决方案。

练习1

假设你观察一个样本 $100$ 独立于一个独立的抽奖 normal distribution having unknown mean 亩 and known variance $ sigma ^ {2} = 1 $. Denote the $100$ draws by X_1, ..., $ x_ {100} $. 假设他们的样本意味着 $ overline {x} _ {100} $ is equal to 1, that is,[eq52]

找到一个置信区间 亩, 使用集合估计器 亩 having $90%$ 覆盖概率。

解决方案

对于给定的样本大小 n, the interval estimator[eq4]具有 coverage probability[eq54]在哪里 Z 是标准正常随机变量和 [eq5] 是一个严格的积极常数。因此,我们需要找到 $ z $ such that[eq56][eq57]在哪里 最后一个平等源于标准正态分布的事实 对称零点。所以 $ z $ must be such that[eq58]或者[eq59]使用 正常分布表或计算机程序找到值 $ z $ (参见题为有权的讲座 Normal 分布 - 值), 我们 obtain[eq60]因此, 置信区间 亩 is[eq61]

练习2

假设你观察一个样本 $100$ 独立于具有未知平均值的正态分布 亩 and unknown variance 西格玛^ 2.. Denote the $100$ draws by X_1, ..., $ x_ {100} $. 假设他们的样本意味着 $ overline {x} _ {100} $ is equal to 1, i.e.:[eq62]和 他们调整后的样本方差 $ s_ {100} ^ {2} $ is equal to $4$, that is,[eq63]

找到一个置信区间 亩, 使用集合估计器 亩 having $99%$ 覆盖概率。

解决方案

对于给定的样本大小 n, the interval estimator[eq64]具有 coverage probability[eq65]在哪里 $ z_ {n-1} $ is a 标准学生的T随机变量 with $n-1$ 自由度和 [eq5] 是一个严格的积极常数。因此,我们需要找到 $ z $ such that[eq67][eq57]在哪里 最后一个平等源于标准学生的t 分布在零周围对称。所以 $ z $ must be such that[eq69]或者:[eq70]使用 一个计算机程序,以找到值 $ z $ (for example, with the MATLAB command tinv(0.995,99)), we obtain[eq71]因此, 置信区间 亩 is[eq72]

如何引用

请引用:

Taboga, Marco (2017). "设置平均值的估计", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/set-estimation-mean.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。