当前课程知识点:基于R语言的社会统计分析 >  第十二章: Logistic回归和其他高级统计方法简介 >  12.2 Logistic回归概述 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好明确了

不能使用线性模型或者不能使用普通的

回归模型以后呢

我们就来看看到底怎么样来

基于这个概率建立模型

我们仍然考虑我们之前举例子说

那个虚拟的生成那个Default数据

叫信用卡拖欠数据

这里面呢响应变量就是Default

它有两个可能的分类

yes或者no是或者否

然后

逻辑斯蒂回归呢

实际上它关注的是响应变量

落入某一个分类的概率

它要基于这个概率来建立模型

而并不是直接对Default的可能取值建模的

我们说它并不是对1或者0建立模型

我们并不是说y等于1或者0然后右边找一个

某种函数关系和这个1和0建立关系

而我们实际上是针对的

落入某一个分类等于1的概率或者等于0的概率
而我们实际上是针对的

落入某一个分类等于1的概率或者等于0的概率

来建立模型

那注意我们这说了好多建模

说了好多建模建模建立模型的问题

并不是说

一定是一个线性模型

后面你们会看

我们实际上现在所说的建模

并不一定是线性模型

那下面呢我们

用数学的方法把它规范的

定义一下

我们假设说拖欠卡账的概率

同信用卡余额之间的关系

用数学的方法表达的话应该是什么呢

想象一下我认为

欠账的概率就是Default

的概率

和余额这个balance

如果形成关系了的话

那再借概率这股劲儿的话

那应该是一个条件概率

也就是说通常我只要想当
那应该是一个条件概率

也就是说通常我只要想当

balance等于某一取值的时候

可能Default的概率会不同

于是乎数学的写法

Pr代表的是Probability对吧

然后Default等于yes就是说

确实拖欠了的概率

它是在什么的基础上算出来呢

斜杠balance这是一个

很典型的条件概率的写法

然后

一般我做逻辑斯蒂回归的时候

关注的都是yes的概率就是

你可以把它理解成成功的概率

或者是某一个你更关注的

分类的概率

所以我就不写那么复杂了

我没有Default等于yes了

直接就写成p(balance)

也就是

当balance等于某一特定取值的时候

Default等于yes的概率

那既然它是概率

这个P(balance)的取值

就必然在0和1之间了

有同学说

那下面的问题就是那

这个概率和0和1就是

yes和no又怎么建立关系呢

其实很自然的我们上小学的时候

可能就知道

那如果说这个事发生的概率大于50%

我们就认为它是更可能发生的

小于50%就不太可能发生

所以很自然的如果说这个P(balance)

是大于0.5的话

我们就认为这个人是可能拖欠卡账的

那当然这是比较自然的情况

如果说你站在银行的角度

我是一个非常保守的银行

我最怕的就是

你拖欠卡账

那这个时候我可能会把临界点设的更低

比如说我可以把这个界限这个

设到0.2

如果说P(balance)是大于0.2的

我们就认为某一个人会拖欠卡账了

这是借概率来建模

那下面继续

这个我们说它是基于

x某一特定取值的一个条件概率

那它们之间的关系

到底应该用怎么样的一个函数关系来

来拟合它呢

那于是乎下面的问题就是

如何

建立概率P(X)

等于probability等于1

given x

同x之间的关联

那首先

你的第一个反应又是建了一个线性模型对吧

y等于a+bx

这个我们小时候就耳熟能详的模型来做的话呢

类似的我们就P(X)

仍然是在x等于

某一特定取值的时候发生的概率

它就应该等于β0加上β1X

然后

如果说我们

真的用这个模型拟合

balance和Default

也就是拖欠与信用卡余额之间的关系的话

我们会得到下面的图形

确切的说我们得到的是下面的左图

左图我们

现在假设的是这个概率和

balance

成一个线性的关系

然后我们看

橘黄色代表的是实际的观测点

你们看

实际的观测点就是当balance的取值不同的时候

假设说

取值在0和500之间的时候

好像大多数的人都

没有Default

就是Default那个取值是0

意思就是不拖欠

然后随着balance的取值增加

你看在这一附近的时候

大部分人都是不拖欠的

然后随着balance的取值增加

好像就有一些平分秋色的感觉

当然仍然大部分的人也是不拖欠的

但开始

出现了一小撮问题小群体

看上面这一部分就是有人开始拖欠了

那如果说我真的由一根线性关系

来拟合它们之间的关系

就得到了这一条蓝色的线
来拟合它们之间的关系

就得到了这一条蓝色的线

这条蓝色就是

我们所说的balance

和拖欠概率之间的线性关系

趋势其实是

有道理的

趋势告诉我们什么呢

也就是随着balance取值的增加

拖欠的概率

也在缓缓增加这和我们的

直观感觉是一样的

但有一个问题

就是我看这里面

当你的balance的取值在500以下的时候

左下角

左下角这一部分的蓝线

probability Default是小于0的

然后假设说这条线无限延展

随着你balance增多增多增多增多到这边

总会

当balance大到一个值的时候

你就probability又大于1了

这就和我们

对概率的一个基本假设是不符合的

概率必然是一个在0和1之间的数

然后做一个线性模型以后

你这个P(X)总会

在X等于某一特定取值的时候

小于0

或者大于1超出了这个界限

于是乎我们就要想一个办法

把它调整调整

这和我们对概率的基本假设不符

所以呢我下面就讲逻辑斯蒂回归模型了

我们实际上

本来很直观的方法是

我们说要用概率作为媒介

然后那我们就直接研究

自变量x取值和概率之间的关系吧

但是如果直接建立一个线性模型呢

P(X)总会出圈总会在

到0和1的范围以外去溜达

那我们不喜欢这种情况

于是乎我需要找到另外一种函数关系

这个函数关系一定要满足一个很重要的条件也就是

对于任何的一个x取值

P(X)取值都会在0和1之间

这是我特别希望找到的

那实际上呢

好消息是

很多函数都可以满足你这个谦虚的要求

那在众多的可以满足

这个要求的函数之中

我们选择了一个函数叫做logistic函数

逻辑斯蒂函数

logistic函数长成什么样子呢

logistic是变成

你看到现在这个公式1这个样子了

它说P(X)

就等于e的β0加上β1乘以x

次方

除以1加上e的

这一坨东西

这是我们所说的函数

那下面呢也就是说当x

你给一个x的取值

然后通过回归求出β0和β1的取值
你给一个x的取值

然后通过回归求出β0和β1的取值

以后我就应该有一个对应的

在x等于某一特定取值的条件下

成功的概率或者是

比如我们这个例子里面拖欠的概率

这个logistic函数

是一个怎么样的函数呢

它是一个s形的曲线

我们

永远可以用一个s形的曲线呢

来描述x和P(X)之间的关系
永远可以用一个s形的曲线呢

来描述x和P(X)之间的关系

我们回到之前这个图形

我们看右下角这张图

实际上就是通过logistic函数

来描述的balance和概率之间的关系

我们看这里面好像就

就这个合理多了

你看仍然

在balance的取值比较低

就是欠的钱比较少的情况下

大家都会很自觉的还款

然后这个Default的概率都是很低的

Default的概率都基本等于0

然后随着balance的增加

Default的概率缓缓上升

然后当到了一个

一个界限就是比如说到

一千七八

突然间这个上升的速度就快了

也就是说

这个分辨概率就是

等于概率在

一千五到两千

这个附近开始有一个分水岭的作用就是

这个Default的概率急剧上升

然后当然当balance的取值

高到一定程度的时候

Default的概率增长呢又变的缓慢了一些

但无论怎么增长

随着balance值再继续增加

它会无限的趋近于1

它会无限的趋近于但它绝对不会超过1

这是我们说的s形曲线

然后下面呢

logistic模型里面

因为

改变了原来那个特别直观的线性关系

我们就需要重新的

关注一下β0和β1

到底应该怎么样来解读的问题了

当然多元回归的时候我们说

x增加一个单位

y增加β1个单位

那下面做逻辑斯蒂回归的时候

我总需要找一个更好的解释

那我需要

对刚才的那个公式呢

那个logistic函数的公式

做一个小小的转换

你自己

这个稍微转换一下呢就会看到有一个这样的

关系

公式左边

剩下了P(X)除以1减P(X)

就等于e的β0次方加上β1X

那左边这个P(X)除以1减P(X)是什么东西啊

如果还记得我们非常早期的时候

可能

三四周的时候讲概率的时候我们说

除了概率以外还有一个很重要的概念叫做

赔率

或者叫做发生比叫odds

它实际上就等于P(X)

除以1减P(X)

也就是说某一个事件发生的概率

除以它不发生的概率

发生的概率除以不发生的概率

这个

发生比我们管它叫发生比odds

odds

odds的取值范围

自然是在0

自然是大于0

当然它是0到正无穷之间

我们关注的都是我们

看odds的时候一般都是和1比

如果odds大于1

说明发生的概率大于不发生的概率

如果odds小于1

说明发生的概率小于不发生的概率

那一个特别小的练习

假设说

五个人中有一个人拖欠卡账

五个人中有一个人Default了

那么P(X)

就应该等于0.2

P(X)等于0.2

那odds就应该等于0.2除以

1减去0.2就等于四分之一了

这是一个小小练习我们算一下odds

这个转换还不够我们还要继续转一转

因为我还是不能说出

β0和β1和P(X)之间的关系

我要对两边公式两边

同时取对数加个log

加个log以后我就把那个e给扔掉了对吧

于是乎就变成了log

P(X)除以1减P(X)

就等于β0加上β1X

左边这么一大坨东西这整整

一大个

一大坨这个公式左边的东西他们

统一叫做

对数发生比

这个叫做发生比

加一个对数那不就对数发生比了呢

或者是我们用英文可能

更简单啊管它叫log-odds
或者是我们用英文可能

更简单啊管它叫log-odds

log-odds对数发生比那

这样一看呢这个

式子就代表了一个线性关系的解释了

这个时候还原出了x增加一个单位

什么东西增加β1个单位呢

log-odds增加β1个单位

或者说x增加一个单位

对数发生比

增加β1个单位

这是我们怎么去解释β0和β1

然后可见呢

这个logistic模型中呢

什么和自变量

成了一个线性关系呢是对数发生比

注意不是概率

和x之间成线性关系

也不是

也不是

y的某一个特定取值也不是是或者否

落入或者不落入某一个组同x成线性关系

线性关系发生在自变量

和对数发生比log-odds之间

这个解读的时候不要怕麻烦一定要记住

log-odds log-odds

这是β1真正解读

具体的β1的解释呢

就是说在线性回归中

β1代表x增加

一个单位

y的平均改变这是线性回归

然后logistic回归中呢

β1代表

x增加一个单位时

对对数发生比log-odds的平均改变

这是我们比较严格的解读

logistic回归中β1代表

x增加一个单位时

对数发生比log-odds的平均改变

也就是说

代表x增加一个单位的时候

发生比

增加为

原来的

发生比变为原来的

e的β1次方倍

发生比变为原来的e的β1次方倍

然后我这里面特意标注了一下注意

P(X)与自变量

x之间

并无直接的线性关系

那如果你非要建立一个X和P(X)

P(X)之间的关系

你会发现X增加一个单位的时候

P(X)变动的幅度

是根据X的取值不同而不同的

因为我们之前显示的是一个s曲线

然而

无论X取值大小

有一个大的趋势还是可以看出来

就是说如果β1为正

就说明X增加

P(X)是增加的

就是发生的概率是增加的

如果β1为负

说明X增加一个单位P(X)

的概率是减少的

也就是说

这个

正负的这个正相关和

负相关的关系

依然是存在的

只不过说具体增加了多少

减少了多少

要按X特定的取值而决定

那我们回来继续看刚才实际上我们已经看到的那张图

你会发现比如说

当X取值比较小的时候

假设balance在0到1000这个幅度之内

X增加一个单位

P(X)增加实际上是非常非常小的

基本上我们肉眼不可见对吧

然后

随着取值的增加

就是balance的取值增加

假如在1000到1500之间

你就会发现P(X)的变化

基本上就可以看到了

那在1500到2000之间呢

X增加一个单位

Y的增加就会大好多

我们

后面可以通过回归系数的估计

还有这个预测来继续深化这个问题

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。