本讲讲的是概率模型 二元 分类模型 在其中 有条件的 可能性 两种可能之一 实现 的 输出变量等于输入的线性组合,由 的 累积分布 功能 的 标准正常 分配 .
假设数据样本
,
对于
,
被观察到,其中:
是只能接受两个值的输出变量
要么
(它是一个
伯努利随机
变量 );
是一个
输入向量。
输出的条件概率
等于
,
给定输入
,
被假定为
是
哪里
是标准正态分布的累积分布函数
和
是一个
系数向量。
而且,如果
不等于
,
那等于
(不可能有其他值),并且需要两个值的概率
总结到
,
所以
那
概率模型的解释与logit的解释非常相似 模型。建议您阅读有关解释的注释。 后者在演讲中 后勤 分类模型.
与logit一样,概率模型也可以写为潜在 可变模型。
定义一个潜在变量
哪里
是具有标准正态分布的随机误差项。输出
通过以下方式链接到潜在变量
关系:
我们
有
那
所以
由(1)和(2)指定的潜变量模型分配给输入
概率模型分配的相同条件分布。
系数向量
可以通过
最大
可能性 (ML)。
我们假设观察
样本中的样本独立且相同地分布
( IID ),而他
定义的输入矩阵
通过
具有
全职。
在单独的演讲中
( ML
概率模型的估计),我们证明了ML估计器
可以通过以下迭代过程找到(如果存在)。
从解决方案的初步猜测开始
(例如。,
),
我们生成一个序列
猜测
是一个
对角矩阵和
是一个
向量。它们的计算如下:
计算
用...表示
的 概率密度
功能 的标准正态分布,并计算
参赛作品
的
的
向量
计算
对角线
矩阵
当达到数值收敛时,迭代过程停止,即,
当两个连续猜测之间的差异时
和
很小,我们可以忽略它。
如果
是迭代过程的最后一步,则最大似然
估计量
是
和
其渐近
协方差
矩阵
是
哪里
.
结果,
可以用均值等于真实值的正态分布来近似
参数和协方差矩阵
.
当我们最大估计概率分类模型的系数时 可能性(请参阅上一节),我们可以进行 假设 基于最大似然法的检验 (例如。, 沃尔德 , 可能性 比 , 拉格朗日 乘数 )测试 空值 假设 关于系数。
此外,我们可以设置z测试来测试单个
系数: 哪里
是个
-th
系数向量的输入
和
.
的 测试统计
是 哪里
是个
-th
进入
和
是个
-th
矩阵对角线上的项
.
以来
渐近是正常的
是一个 一致估计 的
的渐近协方差矩阵
,
收敛到一个
标准正常
分配 (该证明与我们为
z统计量的渐近正态性
Logit
模型 )。
通过近似的分布
用它的渐近线(标准法线),我们可以
得出临界值 (取决于
所需 尺寸 )并执行
测试。
请引用为:
Taboga, Marco (2017). "概率分类模型(或概率回归)", 列克特 ures on 可能性 的 要么 y 和 mathematical 统计 , Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/probit-classification-model.