当前课程知识点:基于R语言的社会统计分析 > 第十二章: Logistic回归和其他高级统计方法简介 > 12.2 Logistic回归概述 > Video
好明确了
不能使用线性模型或者不能使用普通的
回归模型以后呢
我们就来看看到底怎么样来
基于这个概率建立模型
我们仍然考虑我们之前举例子说
那个虚拟的生成那个Default数据
叫信用卡拖欠数据
这里面呢响应变量就是Default
它有两个可能的分类
yes或者no是或者否
然后
逻辑斯蒂回归呢
实际上它关注的是响应变量
落入某一个分类的概率
它要基于这个概率来建立模型
而并不是直接对Default的可能取值建模的
我们说它并不是对1或者0建立模型
我们并不是说y等于1或者0然后右边找一个
某种函数关系和这个1和0建立关系
而我们实际上是针对的
落入某一个分类等于1的概率或者等于0的概率
而我们实际上是针对的
落入某一个分类等于1的概率或者等于0的概率
来建立模型
那注意我们这说了好多建模
说了好多建模建模建立模型的问题
并不是说
一定是一个线性模型
后面你们会看
我们实际上现在所说的建模
并不一定是线性模型
那下面呢我们
用数学的方法把它规范的
定义一下
我们假设说拖欠卡账的概率
同信用卡余额之间的关系
用数学的方法表达的话应该是什么呢
想象一下我认为
欠账的概率就是Default
的概率
和余额这个balance
如果形成关系了的话
那再借概率这股劲儿的话
那应该是一个条件概率
也就是说通常我只要想当
那应该是一个条件概率
也就是说通常我只要想当
balance等于某一取值的时候
可能Default的概率会不同
于是乎数学的写法
Pr代表的是Probability对吧
然后Default等于yes就是说
确实拖欠了的概率
它是在什么的基础上算出来呢
斜杠balance这是一个
很典型的条件概率的写法
然后
一般我做逻辑斯蒂回归的时候
关注的都是yes的概率就是
你可以把它理解成成功的概率
或者是某一个你更关注的
分类的概率
所以我就不写那么复杂了
我没有Default等于yes了
直接就写成p(balance)
也就是
当balance等于某一特定取值的时候
Default等于yes的概率
那既然它是概率
这个P(balance)的取值
就必然在0和1之间了
那
有同学说
那下面的问题就是那
这个概率和0和1就是
yes和no又怎么建立关系呢
其实很自然的我们上小学的时候
可能就知道
那如果说这个事发生的概率大于50%
我们就认为它是更可能发生的
小于50%就不太可能发生
所以很自然的如果说这个P(balance)
是大于0.5的话
我们就认为这个人是可能拖欠卡账的
那当然这是比较自然的情况
如果说你站在银行的角度
我是一个非常保守的银行
我最怕的就是
你拖欠卡账
那这个时候我可能会把临界点设的更低
比如说我可以把这个界限这个
设到0.2
如果说P(balance)是大于0.2的
我们就认为某一个人会拖欠卡账了
这是借概率来建模
那下面继续
这个我们说它是基于
x某一特定取值的一个条件概率
那它们之间的关系
到底应该用怎么样的一个函数关系来
来拟合它呢
那于是乎下面的问题就是
如何
建立概率P(X)
等于probability等于1
given x
同x之间的关联
那首先
你的第一个反应又是建了一个线性模型对吧
用
y等于a+bx
这个我们小时候就耳熟能详的模型来做的话呢
类似的我们就P(X)
仍然是在x等于
某一特定取值的时候发生的概率
它就应该等于β0加上β1X
然后
如果说我们
真的用这个模型拟合
balance和Default
也就是拖欠与信用卡余额之间的关系的话
我们会得到下面的图形
确切的说我们得到的是下面的左图
左图我们
现在假设的是这个概率和
balance
成一个线性的关系
然后我们看
橘黄色代表的是实际的观测点
你们看
实际的观测点就是当balance的取值不同的时候
假设说
取值在0和500之间的时候
好像大多数的人都
没有Default
就是Default那个取值是0
意思就是不拖欠
然后随着balance的取值增加
你看在这一附近的时候
大部分人都是不拖欠的
然后随着balance的取值增加
好像就有一些平分秋色的感觉
当然仍然大部分的人也是不拖欠的
但开始
出现了一小撮问题小群体
看上面这一部分就是有人开始拖欠了
那如果说我真的由一根线性关系
来拟合它们之间的关系
就得到了这一条蓝色的线
来拟合它们之间的关系
就得到了这一条蓝色的线
这条蓝色就是
我们所说的balance
和拖欠概率之间的线性关系
那
趋势其实是
有道理的
趋势告诉我们什么呢
也就是随着balance取值的增加
拖欠的概率
也在缓缓增加这和我们的
直观感觉是一样的
但有一个问题
就是我看这里面
当你的balance的取值在500以下的时候
左下角
左下角这一部分的蓝线
probability Default是小于0的
然后假设说这条线无限延展
随着你balance增多增多增多增多到这边
总会
当balance大到一个值的时候
你就probability又大于1了
这就和我们
对概率的一个基本假设是不符合的
概率必然是一个在0和1之间的数
然后做一个线性模型以后
你这个P(X)总会
在X等于某一特定取值的时候
小于0
或者大于1超出了这个界限
于是乎我们就要想一个办法
把它调整调整
这和我们对概率的基本假设不符
所以呢我下面就讲逻辑斯蒂回归模型了
我们实际上
本来很直观的方法是
我们说要用概率作为媒介
然后那我们就直接研究
自变量x取值和概率之间的关系吧
但是如果直接建立一个线性模型呢
P(X)总会出圈总会在
到0和1的范围以外去溜达
那我们不喜欢这种情况
于是乎我需要找到另外一种函数关系
这个函数关系一定要满足一个很重要的条件也就是
对于任何的一个x取值
P(X)取值都会在0和1之间
这是我特别希望找到的
那实际上呢
好消息是
很多函数都可以满足你这个谦虚的要求
那在众多的可以满足
这个要求的函数之中
我们选择了一个函数叫做logistic函数
逻辑斯蒂函数
logistic函数长成什么样子呢
logistic是变成
你看到现在这个公式1这个样子了
它说P(X)
就等于e的β0加上β1乘以x
次方
除以1加上e的
这一坨东西
这是我们所说的函数
那下面呢也就是说当x
你给一个x的取值
然后通过回归求出β0和β1的取值
你给一个x的取值
然后通过回归求出β0和β1的取值
以后我就应该有一个对应的
在x等于某一特定取值的条件下
成功的概率或者是
比如我们这个例子里面拖欠的概率
这个logistic函数
是一个怎么样的函数呢
它是一个s形的曲线
我们
永远可以用一个s形的曲线呢
来描述x和P(X)之间的关系
永远可以用一个s形的曲线呢
来描述x和P(X)之间的关系
我们回到之前这个图形
我们看右下角这张图
实际上就是通过logistic函数
来描述的balance和概率之间的关系
我们看这里面好像就
就这个合理多了
你看仍然
在balance的取值比较低
就是欠的钱比较少的情况下
大家都会很自觉的还款
然后这个Default的概率都是很低的
Default的概率都基本等于0
然后随着balance的增加
Default的概率缓缓上升
然后当到了一个
一个界限就是比如说到
一千七八
突然间这个上升的速度就快了
也就是说
这个分辨概率就是
等于概率在
一千五到两千
这个附近开始有一个分水岭的作用就是
这个Default的概率急剧上升
然后当然当balance的取值
高到一定程度的时候
Default的概率增长呢又变的缓慢了一些
但无论怎么增长
随着balance值再继续增加
它会无限的趋近于1
它会无限的趋近于但它绝对不会超过1
这是我们说的s形曲线
然后下面呢
logistic模型里面
因为
改变了原来那个特别直观的线性关系
我们就需要重新的
关注一下β0和β1
到底应该怎么样来解读的问题了
那
当然多元回归的时候我们说
x增加一个单位
y增加β1个单位
那下面做逻辑斯蒂回归的时候
我总需要找一个更好的解释
那我需要
对刚才的那个公式呢
那个logistic函数的公式
做一个小小的转换
你自己
这个稍微转换一下呢就会看到有一个这样的
关系
公式左边
剩下了P(X)除以1减P(X)
就等于e的β0次方加上β1X
那左边这个P(X)除以1减P(X)是什么东西啊
如果还记得我们非常早期的时候
可能
三四周的时候讲概率的时候我们说
除了概率以外还有一个很重要的概念叫做
赔率
或者叫做发生比叫odds
它实际上就等于P(X)
除以1减P(X)
也就是说某一个事件发生的概率
除以它不发生的概率
发生的概率除以不发生的概率
这个
发生比我们管它叫发生比odds
odds
odds的取值范围
自然是在0
自然是大于0
当然它是0到正无穷之间
我们关注的都是我们
看odds的时候一般都是和1比
如果odds大于1
说明发生的概率大于不发生的概率
如果odds小于1
说明发生的概率小于不发生的概率
那一个特别小的练习
假设说
五个人中有一个人拖欠卡账
五个人中有一个人Default了
那么P(X)
就应该等于0.2
P(X)等于0.2
那odds就应该等于0.2除以
1减去0.2就等于四分之一了
这是一个小小练习我们算一下odds
那
这个转换还不够我们还要继续转一转
因为我还是不能说出
β0和β1和P(X)之间的关系
我要对两边公式两边
同时取对数加个log
加个log以后我就把那个e给扔掉了对吧
于是乎就变成了log
P(X)除以1减P(X)
就等于β0加上β1X
左边这么一大坨东西这整整
一大个
一大坨这个公式左边的东西他们
统一叫做
对数发生比
这个叫做发生比
加一个对数那不就对数发生比了呢
或者是我们用英文可能
更简单啊管它叫log-odds
或者是我们用英文可能
更简单啊管它叫log-odds
log-odds对数发生比那
这样一看呢这个
式子就代表了一个线性关系的解释了
这个时候还原出了x增加一个单位
什么东西增加β1个单位呢
log-odds增加β1个单位
或者说x增加一个单位
对数发生比
增加β1个单位
这是我们怎么去解释β0和β1
然后可见呢
这个logistic模型中呢
什么和自变量
成了一个线性关系呢是对数发生比
注意不是概率
和x之间成线性关系
也不是
也不是
y的某一个特定取值也不是是或者否
落入或者不落入某一个组同x成线性关系
线性关系发生在自变量
和对数发生比log-odds之间
这个解读的时候不要怕麻烦一定要记住
log-odds log-odds
这是β1真正解读
那
具体的β1的解释呢
就是说在线性回归中
β1代表x增加
一个单位
y的平均改变这是线性回归
然后logistic回归中呢
β1代表
x增加一个单位时
对对数发生比log-odds的平均改变
这是我们比较严格的解读
logistic回归中β1代表
x增加一个单位时
对数发生比log-odds的平均改变
也就是说
代表x增加一个单位的时候
发生比
增加为
原来的
发生比变为原来的
e的β1次方倍
发生比变为原来的e的β1次方倍
然后我这里面特意标注了一下注意
P(X)与自变量
x之间
并无直接的线性关系
那如果你非要建立一个X和P(X)
P(X)之间的关系
你会发现X增加一个单位的时候
P(X)变动的幅度
是根据X的取值不同而不同的
因为我们之前显示的是一个s曲线
然而
无论X取值大小
有一个大的趋势还是可以看出来
就是说如果β1为正
就说明X增加
P(X)是增加的
就是发生的概率是增加的
如果β1为负
说明X增加一个单位P(X)
的概率是减少的
也就是说
这个
正负的这个正相关和
负相关的关系
依然是存在的
只不过说具体增加了多少
减少了多少
要按X特定的取值而决定
那我们回来继续看刚才实际上我们已经看到的那张图
你会发现比如说
当X取值比较小的时候
假设balance在0到1000这个幅度之内
X增加一个单位
P(X)增加实际上是非常非常小的
基本上我们肉眼不可见对吧
然后
随着取值的增加
就是balance的取值增加
假如在1000到1500之间
你就会发现P(X)的变化
基本上就可以看到了
那在1500到2000之间呢
X增加一个单位
Y的增加就会大好多
我们
后面可以通过回归系数的估计
还有这个预测来继续深化这个问题
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video