在一个 测试 假设,数据样本用于确定是否拒绝 拒绝关于概率分布的给定假设 提取样品。该假设称为无效假设或简称为“ 空值”。
原假设通常用符号表示
(读为“ H-zero”,“ H-nought”或“ H-null”)。信
符号中的代表“假设”。
制定零假设并对其进行统计检验是一种 科学方法的主力军。各领域的科学家 关于他们研究的现象的猜想,将其转化为零 假设并收集数据进行测试。此过程类似于试用版:
被告(无效假设)被指控有罪(错误);
收集证据(数据)以证明被告有罪(拒绝 空值);
如果有任何合理怀疑的证据,则找到被告 有罪(拒绝null);
否则,将判定被告无罪(不拒绝无效)。
建议读者记住这一类比,因为它有助于更好地 了解统计测试,其局限性,使用和滥用以及频繁 曲解。
收集数据之前:
我们决定如何总结样本数据的相关特征 单个数字,所谓的 测试 统计 (请注意,在收集数据之前, 随机,因此测试统计量是随机变量);
我们得出在以下条件下检验统计量的概率分布 零为真的假设;
我们决定错误地拒绝我们愿意放弃的概率 容忍( 测试的大小);
我们选择一个或多个值区间(统称为 排斥区) 统计值落在这些间隔内等于所需大小;
然后收集数据并用于计算测试值 统计。做出如下决定:
如果测试统计量位于拒绝范围内,则为null 假设被拒绝;
否则,它不会被拒绝。
以下是一些实际问题的示例,这些问题导致制定和测试 零假设。
提出了一种生产灯泡的新方法。支持者声称 产生的缺陷灯泡比目前使用的方法少。为了 检查索赔,我们可以建立如下统计检验:
测量:我们连续10天打开灯泡, 然后我们记录他们在测试结束时是否仍在工作 期;
零假设:灯泡产生的概率 与新方法在测试期结束时仍可正常使用 就像用旧方法生产的灯泡一样;
数据:测试了100个灯泡;其中有50个被生产 采用新方法(A组);剩下的50个是用旧的 方法(B组);最终数据包括100项观察结果:1) 指示符 变量 如果灯泡最后仍在工作,则等于1 测试周期为0,否则为0; 2)记录 每个灯泡所属的组(A或B);
测试统计:z统计量的计算方法如下:1)取 A组和B组中工作灯泡的比例之间的差异 (这些比例是对无缺陷概率的估计, 在原假设下,两组的值相等); 2)减去 从这个差异中得出其期望值(在null下为零)和 将其除以其标准偏差(可以通过分析得出);的 这样获得的数量可以近似为 标准正常 分配 (看到 这里 对于 细节);
关键区域:我们决定测试的大小必须为 5%,也就是说我们将容忍错误拒绝的可能性为5% 空值关键区域是正态分布的5%尾部, 也就是说,所有大于1.645的值(请参见 临界值 如果你想知道 如何获得此值);
决定:如果测试统计量大于1.645,则 空值被拒绝;否则,它不会被拒绝;
解释:拒绝被解释为重大 证明新的生产方法生产的次品较少;失败 拒绝被解释为没有足够的证据表明新方法是 更好。
当需要停止生产时,生产工厂会产生高成本 因为某些机械故障。工厂经理决定他不愿意 平均每年忍受不止一次停顿。如果预期数量 每年的停机次数大于1,他将进行新的投资以 提高工厂的可靠性。设置统计检验如下:
测量:工厂的可靠性由 暂停次数;
零假设:一年中的暂停次数为 泊松 分配 期望值等于1(假设泊松 分布在可靠性测试中很典型);
数据:经理不能等一年以上 做出决定;他可以使用一个基准: 在一年中观察到停顿;
测试统计:暂停次数用作测试 统计;通过假设,它在零下具有泊松分布;
关键区域:经理决定 错误地拒绝零值最多为10%;泊松随机变量 与 期望值 等于1的值大于1的概率为26.42%且大于 2的概率为8.03%;因此,决定关键区域 将是所有大于或等于3的值的集合。
决定:如果测试统计量严格大于或 等于3,则拒绝null。否则,它不会被拒绝;
解释:拒绝被解释为重大 证明生产工厂不够可靠(平均数量 每年的暂停次数大大超过允许的范围);拒绝拒绝 解释为该植物不可靠的证据不足。
本节讨论了在解释时出现的主要问题。 统计测试的结果(拒绝/不拒绝)。
当检验统计量不在关键区域内时,我们 不拒绝原假设。这是否意味着我们接受空值?不 真。通常,不拒绝本身并不构成强项 证明原假设为真的证据。记住之间的类比 假设检验和刑事审判。在审判中,当被告是 宣布无罪,这并不意味着被告是无辜的。它 仅表示没有足够的证据(没有超出合理范围的证据) 质疑)。反过来,也可能由于缺乏证据1) 被告无罪的事实,或2) 检方未能提供足够的证据证明 被告人,即使后者有罪。这就是法院这样做的原因 并没有宣布被告无罪,但他们使用“无罪”的辩护。在一个 类似的方式,统计学家不会说原假设是 接受,但是他们说它没有被拒绝。
为了更好地理解为什么拒绝失败通常不会构成 有力的证据证明原假设是真实的,我们需要使用这个概念 的 统计能力。一个的力量 测试是 可能性 (在事前计算,即在观察数据之前)该null将为 当另一个假设(称为 替代假设)是 真正。
让我们考虑以上两个示例中的第一个(临床试验)。在 在该示例中,零假设是 接受新药治疗的患者与接受治疗的患者相同 用旧药。让我们做出另一个假设,即生存 用新药治疗的患者的机率比使用新药的患者高10% 使用旧药物治疗的患者(假设增加10%被认为是 医学界的重大进步)。事前多少钱 如果该替代假设为真,则拒绝否定的概率为多少?如果 这种可能性(测试的功效)很小,那么很有可能 即使它是错误的,我们也不会拒绝它。回到类比 通过刑事审判,这意味着起诉很可能不会 即使被告有罪,也能够提供足够的证据。
因此,在缺乏权力的情况下,拒绝拒绝几乎是没有意义的 (反正很有可能)。这就是为什么对 在实际进行之前计算测试的能力(针对相关的选择) 执行它。如果发现功率太小,通常 补救措施。特别是,统计能力通常可以通过以下方式提高 增加样本量(例如,关于 假设 关于均值的检验)。
正如我们上面所解释的,将失败解释为拒绝null 假设并不总是那么简单。相反,解释拒绝是 有点容易。当我们拒绝null时,我们知道数据提供了一个 大量证据表明无效。换句话说,这不太可能(不太可能 取决于测试的大小)鉴于我们拥有的数据,null为true 观测到的。
但是有一个重要的警告。原假设通常由以下组成 几个假设,包括:
的 主要假设 (我们正在测试的那个);
其他假设 (例如技术假设) 为了建立统计模型,我们需要使用 假设检验。
例如,在上面的示例2(生产工厂的可靠性)中,主要 假设每年的停产预期数量相等 到1.,但是还有一个技术假设:停产的次数 具有泊松分布。
必须记住 拒绝永远是联合拒绝 主要假设和所有其他假设。因此,我们 应该经常问自己,是否已拒绝了null,因为 主要假设是错误的,或者是因为违反了其他假设。在里面 上面的示例2的情况是由于以下事实而拒绝了null: 预期的停止次数大于1,或者是由于 停止次数的分布与泊松截然不同 分配?
当我们怀疑拒绝是由于某些不当行为 技术假设(例如,假设示例中为泊松分布), 我们说拒绝可能是由于 错误的规格 模型。当发生此类怀疑时,正确的做法是 进行所谓的 健壮性检查,即改变 技术假设并再次进行测试。在我们的示例中,我们 可以通过假设不同的概率分布来重新运行测试 停止次数(例如负二项式或复合泊松- 担心,如果您从未听说过这些发行版)。如果我们继续获得 即使更改了一些技术假设,也拒绝了null 时代,我们可以说我们的拒绝是 坚固耐用 不同规格型号.
到目前为止,我们所说的一切的主要实际含义是什么? 以上理论如何帮助我们建立和检验零假设?什么 我们说可以归纳为以下指导原则:
假设检验就像刑事审判一样, 你是 检察官。您要查找被告的证据(空值 假设)是有罪的。您的工作不是要证明被告是 无辜。如果您发现自己希望被告无罪 (即不拒绝null),则您设置的方式有问题 测试。请记住:您是检察官。
计算测试的力量 针对一个或多个相关 替代假设。如果您事前知道它是测试,请不要进行测试 当替代假设为真时,不太可能拒绝零值。
当心要添加到所需主要假设中的技术假设 去测试。 进行健壮性检查 为了验证 测试的结果不受模型错误指定的影响。
有关原假设和如何检验原假设的更多示例,请参见 接下来的讲座。
找到示例的地方 | 零假设 |
---|---|
关于均值的假设检验 | 正态分布的平均值等于某个值 |
关于方差的假设检验 | 正态分布的方差等于某个值 |
最大似然-假设检验 | MLE估计的参数向量满足一组线性或非线性约束 |
演讲题为 假设 测试 提供了对原假设的更详细的数学处理 以及如何测试它们。
上一页条目: 多项式系数
下一页条目: 参数
请引用为:
Taboga, Marco (2017). "零假设", 列克特ures on 可能性 的ory and mathematical 统计s, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/glossary/null-hypothesis.