逻辑分类真人在线斗地主(或logit真人在线斗地主)是 二元 分类真人在线斗地主 在其中 有条件的 可能性 两种可能之一 实现 的 假定输出变量等于输入的线性组合 变量,由逻辑函数转换。
Logit真人在线斗地主通常称为 逻辑回归真人在线斗地主. 但是,在这些讲义中,我们倾向于遵循惯例 (在机器学习社区中广泛使用)使用术语回归 仅适用于条件真人在线斗地主,其中输出变量是连续的。所以我们 在这里使用术语分类是因为在logit真人在线斗地主中输出是 离散的。
假设我们观察到一个数据样本
对于
.
样本中的每个观察值均由以下组成:
输出变量表示为
;
a
输入向量,用
.
假设输出
只能接受两个值,即1或0(它是一个
伯努利随机
变量)。
输出的概率
等于1,取决于输入
,
被假定为
是
哪里
是
后勤职能和
是一个
系数向量。
立即看到物流功能
永远是积极的。此外,它还在增加,
所以
那个
满足
从而,
是一个明确定义的概率,因为它介于0和1之间。
由于概率需要求和为1,因此输出的概率
等于0(的唯一其他可能的实现
)
是
为什么以这种方式指定逻辑分类真人在线斗地主?为什么是
用于转换输入线性组合的逻辑函数
?
简单的答案是,我们希望做与我们所做的类似的事情
在一个 线性的
回归真人在线斗地主:使用输入的线性组合作为我们的预测
输出。但是,我们的预测必须是一个概率,并且存在
不能保证线性组合
在0到1之间。因此,我们使用逻辑函数,因为它提供了
方便的转换方式
并强制其位于0到1之间的间隔内。
我们本可以使用其他函数,这些函数具有类似于 物流功能。实际上,其他流行的分类真人在线斗地主 可以通过简单地将logistic函数替换为另一个函数来获得 功能,并保持真人在线斗地主中的其他所有内容不变。例如,通过 将logit函数替换为a的累积分布函数 标准正态分布,我们得到所谓的 概率 真人在线斗地主.
考虑logit真人在线斗地主的另一种方法是定义一个潜在变量
(即,未观察到的
变量)哪里
是一个随机误差项,会在输入之间的关系中增加噪声
和变量
.
潜在变量
然后假定确定输出
如
如下:
从
这些假设以及其他假设
左右对称分布
它遵循
那
哪里
是个 累积分布
功能 错误的
.
事实证明,用于定义logit真人在线斗地主的logistic函数是
对称概率分布的累积分布函数
称为标准逻辑分布。因此,logit真人在线斗地主可以是
写为潜变量真人在线斗地主,由上面的等式(1)和(2)指定,
其中的错误
具有逻辑分布。
通过选择错误的不同分布
,
我们获得其他二进制分类真人在线斗地主。例如,如果我们假设
具有标准正态分布,那么我们得到所谓的概率真人在线斗地主。
系数向量
通常由
最大
可能性 方法。
假设观察
在样本中 IID 并表示
所有输出的向量
和
所有输入的矩阵
.
假定后者具有最高等级。
有可能证明(请参阅
最大
Logit真人在线斗地主的似然估计)最大可能性
估计量
(如果存在)可以通过执行简单
牛顿-拉夫森
迭代如下:
从猜测开始
(例如。,
);
递归更新
猜测:哪里:
和
是一个
对角矩阵(即所有非对角元素等于
)
这样对角线上的元素是
在达到数值收敛时停止,即当差
之间
和
很小到可以忽略不计;
设置最大似然估计器
等于最后一次更新
(用表示最后一次迭代
)。
最大似然估计量的渐近协方差矩阵
可 一致估计 通过
所以
估计量的分布
大约等于平均值,等于
和 协方差
矩阵
.
如果采用最大似然法估算logit真人在线斗地主
以上说明的任何一种经典
测试
基于最大似然法 (例如。,
沃尔德,
可能性
比, 拉格朗日
乘数)可用于
测试一个
假设 关于系数向量
.
可以通过利用的渐近正态性来构造其他检验。
最大似然估计。例如,我们可以执行z测试来测试
零假设
哪里
是个
-th
系数向量的输入
和
.
测试统计
是哪里
是个
-th
进入
和
是个
-th
矩阵对角线上的项
.
作为样本量
增加,
收敛到一个
标准正常
分配。后一种分布可用于
得出临界值 并执行
测试。
请引用为:
Taboga, Marco (2017). "逻辑分类真人在线斗地主(逻辑或逻辑回归)", 列克特ures on 可能性 theory 和 mathematical 统计, Third edition. Kindle Direct Publishing. Online appendix. //www.junruiqiche.com/fundamentals-of-statistics/logistic-classification-model.