当前课程知识点:基于R语言的社会统计分析 >  第十二章: Logistic回归和其他高级统计方法简介 >  12.3 Logistic回归系数估计 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

这一个小节呢

我们来特别简要的介绍一下

逻辑斯蒂回归系数的估计问题

估计问题还有预测问题呢

数学上相对于多元回归呢是

复杂了一些的

但是好在呢

现在的这些统计软件呢包括R

都能够很快的很方便的计算出逻辑斯蒂回归系数的估计

还有预测

所以我们不花很多的时间去

关注它数学上的推导过程

只是给大家讲解一下它的基本思路

那回到和

多元回归一样的这个出发点

回归系数β0和β1显然是未知的

我们想关注的这个总体特征是不知道的

于是乎呢我们需要根据样本的数据

对它们进行估计

在进行线性回归的时候

我们用到的方法叫做最小二乘回归法对吧

叫做least square regression

那虽然在

用逻辑斯蒂回归的时候我们可以用

非线性的最小二乘估计

逻辑斯蒂回归的系数

但实际上更恰当而且

被更加广泛使用的方法呢叫做

极大似然估计法

前面我也有稍微提到过一些

maximum likelihood method

它相对于最小二乘法呢

具有了更好的统计属性

那通常我们所说的这些统计属性呢

不外乎无偏性一致性和有效性

如果

以前有比较扎实的这个

统计学数理统计基础的同学

可以回顾一下什么是

无偏性有效性还有一致性

另外它还有一个非常好的特性就是说

最小二乘估计实际上

是极大似然估计的一个特例

统计学上好多

我们更喜欢的方法都有这样一个特征它

是很多很多方法的一个

更广泛的表达形式这是我们特别喜欢的

一种特性

那这个所谓的极大似然估计法的基本思路是什么呢

实际上我们希望

找到的β0和β1的估计值

会使出现我们现在

观测到的这个样本的观测概率P(X)的可能性

是最大的

你想象一下

我们每次把它理解成

我们每次

拿到一个样本数据都是一个抽样的过程

β0和β1

我们对β0和β1的取值会有不同的猜测

当β0和β1等于

某一对取值的时候

我们可能会得到一个

拿到现在的样本数据的概率

然后β0和β1换一个取值

总体变成另外一个样子

那我会

以不同的概率得到现在的这个样本数据

我们的初衷

就是要找到某一对

β0和β1的取值

使我们能够获得手头的这套数据的概率

手头这套数据的可能性

是最大的

所谓极大似然估计

极大化的是我们样本观测值

获得手头的这个样本观测值的概率

这个最大化通过什么样的函数来实现呢

有一个函数叫做似然函数

这个似然函数呢

用L来表示代表是likelihood似然比

可能性

likelihood β0β1呢就等于把p

X1的yi次方

乘以1减去PX1减yi次方

把它们的乘积

再相乘

那其中所谓yi呢

就是是或者否

它Default了话

yi就等于1

没有Default yi就等于0

然后我们实际上是希望

选择β0和β1的(hat)这个估计值

使得L

β0β1达到最大值

不需要真的掌握这个

似然函数我只是为了

完整性把这个式子放在这里

供那些一定想知道

发生什么事情的同学来参考

那我不说这个具体的计算过程了

放到统计软件里

它会很顺畅的给你出一个结果

那假设说我仍然关注的是

balance和Default

概率之间的关系

我做一个简单的逻辑斯蒂回归模型

模型里面只有一个自变量balance

我看到balance前面的系数

等于0.0055

然后呢

和多元回归一样

你也会有一个标准误standard error的估计

也会有一个类似于多元回归里面

T statistic 里面一样的Z statistic

它关注的仍然是

我们手头

得到的这个coefficient和

原假设猜测的那个

理论值那当然这个理论值就是0了

也就是0.0055和0之间

相差了多少个标准误的距离

你可以用0.0055除以0.0002试一下

然后P值呢也就是

显著性咯如果你的P值

小于0.05我就认为

我得到的这个回归系数

显著的不同于0

那我们使用逻辑斯蒂回归模型呢

构建balance

同拖欠卡账Default

概率之间的关系

下面我们需要解读一下

首先你看这个系数它是一个正数

我们之前说了虽然我说

X和P(X)之间的关系

无法通过一个线性函数来体现

但起码大趋势是可以看得出来的

如果说系数为正

你可以认为

X和P(X)之间的关系是正向的

那如果是负呢就说明是负向的

那我们得到正向关系说明balance

增加Default的概率会增加

换成我们比较熟悉的语言

信用卡欠的账越高

你拖欠的概率就会越高

那下面我想说的具体一点

这0.0055代表什么意思

更准确的说

balance增加一个单位

Default的对数发生比

log-odds平均增加0.0055个单位

然后Default的发生比

增加为原来的e的0.0055次方

等于1.0055倍

这里面e的0055呢代表的是

发生比增加的倍数

一定要好好的就是

你们可能一时理解不了

这句话的话

回去自己复习的时候要好好多看几遍

一般我考逻辑斯蒂回归的时候都会很重点的考这个

逻辑斯蒂回归系数的解读

有很多人用了很多逻辑斯蒂回归

来这个

做东西建模

然后都解释不清楚这个coefficient这个系数
做东西建模

然后都解释不清楚这个coefficient这个系数

到底说的是什么故事

所以一定要注意这个解读

代表的是

0.0055代表的是对数发生比

增加了0.0055个单位

然后如果你把它

变成e的0.0055次方它代表的是

发生比变成原来的1.0055倍

然后

与balance对应的这个P值是很小的

说明我们可以拒绝原假设

原假设是谁啊

原假设必然又是β1等于0

β1等于0的时候代表的就是

X和P(X)之间没有关系怎么来理解呢

我们看当β1等于0的时候

P(X)等于什么呢

之前那个

e的β0加上β1次方

因为β1等于0就没有了

整个这个关系就简化成了

e的β0次方除以1

加上e的β0次方

那就说明不管你的

就x已经在这个模型中消失了

也就是说明不管你的X取值是多少

Default的概率都不会变

它不会根据你X取值不同

这个拖欠的概率有所变化

这个时候就说明Default的概率

同balance无关了

这是关于简单的逻辑斯蒂回归

也就是只有一个自变量的逻辑斯蒂回归

回归结果的解读

那下面我们简单的看一下预测问题

一旦我们得到了系数估计

那么很直观的我们就可以计算出

响应变量某一分类的发生概率

那把刚才的式子直接代进去

那基于Default数据的这个系数估计

假设说

有一个人他的balance是1000美金

这个1000美金的意思是欠了1000美金

一个人的balance是1000美金

那他Default的概率就是什么呢

P(hat)就是估计值我

预测那个概率

X等于1000的时候

就应该等于这一坨东西

不变前面的式子里都有

然后你只要把β0的估计值

和β1的估计值都代进去

β0和β1的估计值从刚才

那个例子的表中

可以找到

分别等于-10.6513

和0.0055

把它们代进去包括x等于1000的取值代进去

就等于0.00576说明什么呀

说明当一个人的欠账只有

1000美金的时候他实际上

Default的概率是非常低的

低到这个概率基本上小于1的

小于1%

然后

我换一个说

假设说我的balance等于2000

等于2000的时候

我仍然把

β0的估计和β1的估计

代进去

把x等于2000代进去你会发现这个时候

Default欠账的概率大幅度提高

变成了0.586

也就说明

X增加

1000个单位的时候

这个balance的概率

从0.576%

增加到了58.6%

这个增幅是非常高的

好下面一个很小的问题

我们做多元回归的时候实际上也

提到了虚拟变量的问题

那做逻辑斯蒂回归的时候

虚拟变量仍然也存在也就是说

前面我们说整个逻辑斯蒂回归研究的都是响应变量

是分类变量

当然我们的自变量中X里面

也可能有分类变量

那这里面的一个例子假设说

我有一个分类变量

这个分类变量叫做student

学生

然后如果student等于yes

我们就说这个x就等于1

这个人是学生

然后如果是0呢代表这个人不是学生

我把学生放到这个模型里面

做一个逻辑斯蒂回归分析

发现学生前面的这个回归系数

等于0.4049这个

自变量放虚拟变量方法

和多元回归模型是一模一样的

实际上如果在R里面你只要

只需要告诉R说这是一个factor

就可以了as factor就可以了

然后

怎么解读它

你又不能说

学生增加一个单位

Default

Default的对数发生比增加多少了

这又变成了

是学生和不是学生

他们log-odds的差距

是0.4049

然后我们看P值

P值等于0.0004

是小于0.05的

于是乎这又是一个显著的自变量

也就是说

是否是学生的这个状态同

欠账的概率之间是有显著的关系的

那我们具体的看看

假设说这个人是学生

如果是student等于yes的话

欠账的概率等于多少呢

我把这个值代进去如果他是学生

欠账的概率就等于

e的-3.5041

这是β0的估计

加上0.4049 β1的估计乘以1

是学生

yes就是1

然后

底下是1加上1的那一些东西

等于0.0431

也就是说如果这个人是学生

那他欠账的概率

平均概率是

4.31%

然后如果这个人不是学生

以此类推把数字代进去

他的欠账的概率是2.92%

等于0.292

这就体现出来

就是说是学生和不是学生

他们欠账的概率有显著的差距

差了0.0431减去0.0292这么多

然后再强调一遍

0.4049什么意思

代表的是是学生和不是学生之间

他们log-odds的差距

log-odds的差距

对数发生比的差距

这是关于在

逻辑斯蒂回归里面加上

分类变量然后怎么样加虚拟变量呢

一点点很简短的解释

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。