当前课程知识点:基于R语言的社会统计分析 > 第十二章: Logistic回归和其他高级统计方法简介 > 12.4 Logistic回归模型评价 > Video
下面我们来看多元逻辑斯蒂回归模型
考虑一下如果我们使用多个自变量
来预测一个二分变量的取值问题
那实际上呢
回归模型的形式
和多元回归一样啊只是在原来的基础上
增加几个x增加几个β就好了
所以我现在的模型呢就变成
log p(X)/1-p(X)
等于β0+β1X1加上
点点点一直加到
βpXp啊
然后这个公式5呢可以被改写成p(X)
就等于
e的β0+β1X1+···
加上βp除以
1加上e的这一坨东西
那类似的呢
我们可以使用
仍然可以使用极大似然估计法
来估计β0β1
直到βp的取值
仍然我们不再说这个数学的问题啊
我们关注的是解读问题
那假设说我们看这样一条回归结果啊
用到的仍然是default数据我们先看上面的那个表啊
看上面那个表
和原来不同啊我在模型里面
不仅有balance
我还加入了收入income
我还加入了student啊学生的状态
然后我得到了一组系数估计
balance等于0.0057
这个和之前的估计差不多啊
之前是0.0055
然后它是显著的
然后
std.error等于0.0002
income等于0.0030
但是它并不显著啊P值并不显著
然后我们看student
它的coefficient
这个系数是负的0.6468
然后P值呢它是显著的
但是注意一下如果你还记得我刚才
讲这个逻辑斯蒂回归里面加虚拟变量这个例子的时候
如果我在模型中
但如放入student啊student这个自变量
你会发现系数等于0.4049
说明如果这个人是学生
它会整体的来讲啊比
不是学生的那个群体
更容易欠账
但是怎么放到一个多元的
回归模型里面这个系数就变成负的了呢
会不会数据有什么问题呢
就是有没有可能会真的出现这个相反的结果啊
那我们下面具体的仔细看看student和balance之间的关系
我们来试图了解一下这个关系啊
我们首先看这张图
这张图呢
代表的是横轴是credit card balance balance的大小
然后
纵轴又是这个是不是欠账人的概率
然后很重要一定要清楚啊
红色的这条线或者是橘红的这条线
代表的是学生
蓝色的这条线代表的是非学生
你会发现
随着credit card balance的增加当然
不管是不是学生他们欠账的概率都在增加
但是有一个很清楚的趋势就是无论说这个balance的取值等于多少啊
比如说在balance取值在一千五的时候
我们看
学生的欠账
拖欠的概率是低于
非学生的
然后当
balance是2000的时候学生欠账的概率
拖欠的概率更加低于
非学生这个差距显得更明显了
那为什么在做单独的回归的时候我们又认为学生
是highrisk是高风险组呢
我们看横轴啊这个
横轴上面
蓝色的虚线代表的是非学生
整体的这个欠账的
拖欠的概率
红色代表的是整体的这个
学生里面
整体的拖欠概率
也就是说
再不控制其他任何因素的条件下
看似学生
拖欠卡账的概率会稍稍
高于非学生但这是为什么呢
其实右边这张图给了我们一个解读啊
这是我看右边这个箱线图
横轴代表的是是否是学生啊学生状态
然后纵轴代表的是卡账
这个balance就是欠了多少钱
你会发现如果这个人
不是学生
他欠的钱
相对与学生是少一些的
不管是中位数啊还是其他的这些特征统计量啊
都是偏小的整个这个
balance就比
学生的balance较少
那说明一个什么问题
学生
更容易欠账啊
就是因为学生比较贫困啊特别喜欢
比如说利用分期付款的方法啊比如说
就是就是
预先消费的概念比较清楚因为自己手头的钱比较少
所以学生更容易欠账他们欠的钱比较多
但是在同样欠钱的条件下
我们这而里面写这个student和这个
balance它是高度相关的
那如果
student通常有较高额的欠账
而实际上真正与default产生关联的是
balance就是这个人欠账多
它的default的概率就会高
那
但是如果说你把这个变量都控制在一起了
对于
balance就是欠账水平一样的人来说
学生的风险是较低的
这个例子呢实际上
给了我们一个很清楚的信号啊就是说
很多同学以前在做分析的时候特别爱看两变量之间的关系
如果单独看两变量之间的关系显著它就特别大胆的
下了一个结论
那这个例子就告诉我们说
实际上变量之间的关系啊
很多变量之间它们都是互相
纠缠互相妥协互相
牵制的
那如果说
比如说两个变量啊都是对于
default的概率
学生对default的概率有影响那
信用卡欠账余额大小
仍然也对拖欠的概率产生影响
然后这里面显示呢实际上影响力
更大的是balance是欠钱的多少
而如果你固定了欠钱的
多少以后
实际上学生
欠钱的可能性或者说拖欠卡账的可能性反而是更低的
这变相的向大家证明
多元回归的重要性啊我一定要控制
其它变量
不变的情况下关注它某一个变量
它本身对y的净影响
这是关于多元斯蒂模型
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video