当前课程知识点:基于R语言的社会统计分析 > 第十二章: Logistic回归和其他高级统计方法简介 > 12.3 Logistic回归系数估计 > Video
这一个小节呢
我们来特别简要的介绍一下
逻辑斯蒂回归系数的估计问题
估计问题还有预测问题呢
数学上相对于多元回归呢是
复杂了一些的
但是好在呢
现在的这些统计软件呢包括R
都能够很快的很方便的计算出逻辑斯蒂回归系数的估计
还有预测
所以我们不花很多的时间去
关注它数学上的推导过程
只是给大家讲解一下它的基本思路
那回到和
多元回归一样的这个出发点
回归系数β0和β1显然是未知的
我们想关注的这个总体特征是不知道的
于是乎呢我们需要根据样本的数据
对它们进行估计
那
在进行线性回归的时候
我们用到的方法叫做最小二乘回归法对吧
叫做least square regression
那虽然在
用逻辑斯蒂回归的时候我们可以用
非线性的最小二乘估计
逻辑斯蒂回归的系数
但实际上更恰当而且
被更加广泛使用的方法呢叫做
极大似然估计法
前面我也有稍微提到过一些
maximum likelihood method
它相对于最小二乘法呢
具有了更好的统计属性
那通常我们所说的这些统计属性呢
不外乎无偏性一致性和有效性
如果
以前有比较扎实的这个
统计学数理统计基础的同学
可以回顾一下什么是
无偏性有效性还有一致性
另外它还有一个非常好的特性就是说
最小二乘估计实际上
是极大似然估计的一个特例
统计学上好多
我们更喜欢的方法都有这样一个特征它
是很多很多方法的一个
更广泛的表达形式这是我们特别喜欢的
一种特性
那这个所谓的极大似然估计法的基本思路是什么呢
实际上我们希望
找到的β0和β1的估计值
会使出现我们现在
观测到的这个样本的观测概率P(X)的可能性
是最大的
你想象一下
我们每次把它理解成
我们每次
拿到一个样本数据都是一个抽样的过程
β0和β1
我们对β0和β1的取值会有不同的猜测
当β0和β1等于
某一对取值的时候
我们可能会得到一个
拿到现在的样本数据的概率
然后β0和β1换一个取值
总体变成另外一个样子
那我会
以不同的概率得到现在的这个样本数据
我们的初衷
就是要找到某一对
β0和β1的取值
使我们能够获得手头的这套数据的概率
手头这套数据的可能性
是最大的
所谓极大似然估计
极大化的是我们样本观测值
获得手头的这个样本观测值的概率
那
这个最大化通过什么样的函数来实现呢
有一个函数叫做似然函数
这个似然函数呢
用L来表示代表是likelihood似然比
可能性
likelihood β0β1呢就等于把p
X1的yi次方
乘以1减去PX1减yi次方
把它们的乘积
再相乘
那其中所谓yi呢
就是是或者否
它Default了话
yi就等于1
没有Default yi就等于0
然后我们实际上是希望
选择β0和β1的(hat)这个估计值
使得L
β0β1达到最大值
不需要真的掌握这个
似然函数我只是为了
完整性把这个式子放在这里
供那些一定想知道
发生什么事情的同学来参考
那我不说这个具体的计算过程了
放到统计软件里
它会很顺畅的给你出一个结果
那假设说我仍然关注的是
balance和Default
概率之间的关系
我做一个简单的逻辑斯蒂回归模型
模型里面只有一个自变量balance
那
我看到balance前面的系数
等于0.0055
然后呢
和多元回归一样
你也会有一个标准误standard error的估计
也会有一个类似于多元回归里面
T statistic 里面一样的Z statistic
它关注的仍然是
我们手头
得到的这个coefficient和
原假设猜测的那个
理论值那当然这个理论值就是0了
也就是0.0055和0之间
相差了多少个标准误的距离
你可以用0.0055除以0.0002试一下
然后P值呢也就是
显著性咯如果你的P值
小于0.05我就认为
我得到的这个回归系数
显著的不同于0
那我们使用逻辑斯蒂回归模型呢
构建balance
同拖欠卡账Default
概率之间的关系
下面我们需要解读一下
首先你看这个系数它是一个正数
我们之前说了虽然我说
X和P(X)之间的关系
无法通过一个线性函数来体现
但起码大趋势是可以看得出来的
如果说系数为正
你可以认为
X和P(X)之间的关系是正向的
那如果是负呢就说明是负向的
那我们得到正向关系说明balance
增加Default的概率会增加
换成我们比较熟悉的语言
信用卡欠的账越高
你拖欠的概率就会越高
那下面我想说的具体一点
这0.0055代表什么意思
更准确的说
balance增加一个单位
Default的对数发生比
log-odds平均增加0.0055个单位
然后Default的发生比
增加为原来的e的0.0055次方
等于1.0055倍
这里面e的0055呢代表的是
发生比增加的倍数
一定要好好的就是
你们可能一时理解不了
这句话的话
回去自己复习的时候要好好多看几遍
一般我考逻辑斯蒂回归的时候都会很重点的考这个
逻辑斯蒂回归系数的解读
有很多人用了很多逻辑斯蒂回归
来这个
做东西建模
然后都解释不清楚这个coefficient这个系数
做东西建模
然后都解释不清楚这个coefficient这个系数
到底说的是什么故事
所以一定要注意这个解读
代表的是
0.0055代表的是对数发生比
增加了0.0055个单位
然后如果你把它
变成e的0.0055次方它代表的是
发生比变成原来的1.0055倍
然后
与balance对应的这个P值是很小的
说明我们可以拒绝原假设
原假设是谁啊
原假设必然又是β1等于0
β1等于0的时候代表的就是
X和P(X)之间没有关系怎么来理解呢
我们看当β1等于0的时候
P(X)等于什么呢
之前那个
e的β0加上β1次方
因为β1等于0就没有了
整个这个关系就简化成了
e的β0次方除以1
加上e的β0次方
那就说明不管你的
就x已经在这个模型中消失了
也就是说明不管你的X取值是多少
Default的概率都不会变
它不会根据你X取值不同
这个拖欠的概率有所变化
这个时候就说明Default的概率
同balance无关了
这是关于简单的逻辑斯蒂回归
也就是只有一个自变量的逻辑斯蒂回归
回归结果的解读
那下面我们简单的看一下预测问题
一旦我们得到了系数估计
那么很直观的我们就可以计算出
响应变量某一分类的发生概率
那把刚才的式子直接代进去
那基于Default数据的这个系数估计
假设说
有一个人他的balance是1000美金
这个1000美金的意思是欠了1000美金
一个人的balance是1000美金
那他Default的概率就是什么呢
P(hat)就是估计值我
预测那个概率
X等于1000的时候
就应该等于这一坨东西
不变前面的式子里都有
然后你只要把β0的估计值
和β1的估计值都代进去
β0和β1的估计值从刚才
那个例子的表中
可以找到
分别等于-10.6513
和0.0055
把它们代进去包括x等于1000的取值代进去
就等于0.00576说明什么呀
说明当一个人的欠账只有
1000美金的时候他实际上
Default的概率是非常低的
低到这个概率基本上小于1的
小于1%
然后
我换一个说
假设说我的balance等于2000
等于2000的时候
我仍然把
β0的估计和β1的估计
代进去
把x等于2000代进去你会发现这个时候
Default欠账的概率大幅度提高
变成了0.586
也就说明
X增加
1000个单位的时候
这个balance的概率
从0.576%
增加到了58.6%
这个增幅是非常高的
好下面一个很小的问题
我们做多元回归的时候实际上也
提到了虚拟变量的问题
那做逻辑斯蒂回归的时候
虚拟变量仍然也存在也就是说
前面我们说整个逻辑斯蒂回归研究的都是响应变量
是分类变量
当然我们的自变量中X里面
也可能有分类变量
那这里面的一个例子假设说
我有一个分类变量
这个分类变量叫做student
学生
然后如果student等于yes
我们就说这个x就等于1
这个人是学生
然后如果是0呢代表这个人不是学生
我把学生放到这个模型里面
做一个逻辑斯蒂回归分析
发现学生前面的这个回归系数
等于0.4049这个
自变量放虚拟变量方法
和多元回归模型是一模一样的
实际上如果在R里面你只要
只需要告诉R说这是一个factor
就可以了as factor就可以了
然后
怎么解读它
你又不能说
学生增加一个单位
Default
Default的对数发生比增加多少了
这又变成了
是学生和不是学生
他们log-odds的差距
是0.4049
然后我们看P值
P值等于0.0004
是小于0.05的
于是乎这又是一个显著的自变量
也就是说
是否是学生的这个状态同
欠账的概率之间是有显著的关系的
那我们具体的看看
假设说这个人是学生
如果是student等于yes的话
欠账的概率等于多少呢
我把这个值代进去如果他是学生
欠账的概率就等于
e的-3.5041
这是β0的估计
加上0.4049 β1的估计乘以1
是学生
yes就是1
然后
底下是1加上1的那一些东西
等于0.0431
也就是说如果这个人是学生
那他欠账的概率
平均概率是
4.31%
然后如果这个人不是学生
以此类推把数字代进去
他的欠账的概率是2.92%
等于0.292
这就体现出来
就是说是学生和不是学生
他们欠账的概率有显著的差距
差了0.0431减去0.0292这么多
然后再强调一遍
0.4049什么意思
代表的是是学生和不是学生之间
他们log-odds的差距
log-odds的差距
对数发生比的差距
这是关于在
逻辑斯蒂回归里面加上
分类变量然后怎么样加虚拟变量呢
一点点很简短的解释
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video