当前课程知识点:基于R语言的社会统计分析 >  第十二章: Logistic回归和其他高级统计方法简介 >  12.4 Logistic回归模型评价 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

下面我们来看多元逻辑斯蒂回归模型

考虑一下如果我们使用多个自变量

来预测一个二分变量的取值问题

那实际上呢

回归模型的形式

和多元回归一样啊只是在原来的基础上

增加几个x增加几个β就好了

所以我现在的模型呢就变成

log p(X)/1-p(X)

等于β0+β1X1加上

点点点一直加到

βpXp啊

然后这个公式5呢可以被改写成p(X)

就等于

e的β0+β1X1+···

加上βp除以

1加上e的这一坨东西

那类似的呢

我们可以使用

仍然可以使用极大似然估计法

来估计β0β1

直到βp的取值

仍然我们不再说这个数学的问题啊

我们关注的是解读问题

那假设说我们看这样一条回归结果啊

用到的仍然是default数据我们先看上面的那个表啊

看上面那个表

和原来不同啊我在模型里面

不仅有balance

我还加入了收入income

我还加入了student啊学生的状态

然后我得到了一组系数估计

balance等于0.0057

这个和之前的估计差不多啊

之前是0.0055

然后它是显著的

然后

std.error等于0.0002

income等于0.0030

但是它并不显著啊P值并不显著

然后我们看student

它的coefficient

这个系数是负的0.6468

然后P值呢它是显著的

但是注意一下如果你还记得我刚才

讲这个逻辑斯蒂回归里面加虚拟变量这个例子的时候

如果我在模型中

但如放入student啊student这个自变量

你会发现系数等于0.4049

说明如果这个人是学生

它会整体的来讲啊比

不是学生的那个群体

更容易欠账

但是怎么放到一个多元的

回归模型里面这个系数就变成负的了呢

会不会数据有什么问题呢

就是有没有可能会真的出现这个相反的结果啊

那我们下面具体的仔细看看student和balance之间的关系

我们来试图了解一下这个关系啊

我们首先看这张图

这张图呢

代表的是横轴是credit card balance balance的大小

然后

纵轴又是这个是不是欠账人的概率

然后很重要一定要清楚啊

红色的这条线或者是橘红的这条线

代表的是学生

蓝色的这条线代表的是非学生

你会发现

随着credit card balance的增加当然

不管是不是学生他们欠账的概率都在增加

但是有一个很清楚的趋势就是无论说这个balance的取值等于多少啊

比如说在balance取值在一千五的时候

我们看

学生的欠账

拖欠的概率是低于

非学生的

然后当

balance是2000的时候学生欠账的概率

拖欠的概率更加低于

非学生这个差距显得更明显了

那为什么在做单独的回归的时候我们又认为学生

是highrisk是高风险组呢

我们看横轴啊这个

横轴上面

蓝色的虚线代表的是非学生

整体的这个欠账的

拖欠的概率

红色代表的是整体的这个

学生里面

整体的拖欠概率

也就是说

再不控制其他任何因素的条件下

看似学生

拖欠卡账的概率会稍稍

高于非学生但这是为什么呢

其实右边这张图给了我们一个解读啊

这是我看右边这个箱线图

横轴代表的是是否是学生啊学生状态

然后纵轴代表的是卡账

这个balance就是欠了多少钱

你会发现如果这个人

不是学生

他欠的钱

相对与学生是少一些的

不管是中位数啊还是其他的这些特征统计量啊

都是偏小的整个这个

balance就比

学生的balance较少

那说明一个什么问题

学生

更容易欠账啊

就是因为学生比较贫困啊特别喜欢

比如说利用分期付款的方法啊比如说

就是就是

预先消费的概念比较清楚因为自己手头的钱比较少

所以学生更容易欠账他们欠的钱比较多

但是在同样欠钱的条件下

我们这而里面写这个student和这个

balance它是高度相关的

那如果

student通常有较高额的欠账

而实际上真正与default产生关联的是

balance就是这个人欠账多

它的default的概率就会高

但是如果说你把这个变量都控制在一起了

对于

balance就是欠账水平一样的人来说

学生的风险是较低的

这个例子呢实际上

给了我们一个很清楚的信号啊就是说

很多同学以前在做分析的时候特别爱看两变量之间的关系

如果单独看两变量之间的关系显著它就特别大胆的

下了一个结论

那这个例子就告诉我们说

实际上变量之间的关系啊

很多变量之间它们都是互相

纠缠互相妥协互相

牵制的

那如果说

比如说两个变量啊都是对于

default的概率

学生对default的概率有影响那

信用卡欠账余额大小

仍然也对拖欠的概率产生影响

然后这里面显示呢实际上影响力

更大的是balance是欠钱的多少

而如果你固定了欠钱的

多少以后

实际上学生

欠钱的可能性或者说拖欠卡账的可能性反而是更低的

这变相的向大家证明

多元回归的重要性啊我一定要控制

其它变量

不变的情况下关注它某一个变量

它本身对y的净影响

这是关于多元斯蒂模型

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。