当前课程知识点:基于R语言的社会统计分析 > 第十一章:多元回归 > 11.2 多元线性回归 > Video
好现在我们来看在
构建多元线性回归模型的时候
我们需要面对的几个非常重要的问题
首先我们要回答就是
我们在模型中放入了很多个自变量
是不是几个自变量X1X2一直到Xp中
至少有一个与响应变量有关
就是说
我们不求所有的自变量都和响应变量有关
起码我们
要求很低非常谦虚的一个要求
至少我们搭建这个模型中有一个x是有用的
那
第二个问题是是否所有的自变量
都可以用来解释y
还是仅仅有他们中的一个子集有作用
就是有一些x是没用的
有可能考虑从模型中剔除
那第三个问题就是
模型对于我们实际数据的拟合程度到底有多高
那第四个问题呢就是说
给定自变量的取值
响应变量的预测值应该是多少
那么和之前
讲简单线性回归的时候一样
我们想知道这个预测值的准确性到底怎么样
那下面我们一个一个问题来看
首先第一个问题就是
自变量与响应变量间是否有关
或者说更谦虚的说是不是至少我们的模型中
有一个自变量是对y可以产生一些影响的
那原假设呢就是β1β2一直到
βp
都等于0
注意这里面不包括β0
β0是截距就是说y无论如何还是有个均值的
我们关注的是自变量和
响应变量的关系
那备择假设呢
是至少有一个βj是非0的
然后我的检验统计量
上节课我们留了一个扣
我们说这个F检验呢
我们这节讲多元回归的时候会有所提及
这个F检验就是用来验证这么多的自变量中
是不是至少有一个
与y是有关的
F应该等于TSS减RSS除以p
除以RSS除以n减p减1
这里面要清楚这些字母分别都代表什么
tss代表的是
这里面要清楚这些字母分别都代表什么
tss代表的是total sum square
如果你们还记得代表的是总平方和
就是y的整个的变异情况
RSS呢residual sum square
残差平方和也就是说
线性模型所不能解释的那一部分
TSS减RSS呢
就是剩下我们可以解释的那一部分
可以由线性模型解释的部分
然后除以p
p代表的是有多少个自变量
对吧所以TSS减RSS除以p呢
相当于
每一个
自变量对y的一个贡献
那
我们看分母
RSS除以n减p减1
代表的是
平均的不能解释的那一部分
残差平方和的一个均值
那如果说我们之前的线性假设是正确的
这一定有一个前提
如果说你的模型根本就不符合线性假设
那这个F检验就没有什么意义了
这如果说线性假设是正确的话
实际上我们可以从理论上证明
这如果说线性假设是正确的话
实际上我们可以从理论上证明
分母对它求期望的话
应该等于σ方
然后分子对它求期望的话
当然分子还要要求原假设为真的情况下
分子TSS减RSS除以p
对它求期望也应该等于σ的平方
那你想想如果说
原假设为真
如果原假设为真分子分母的
期望值是一样的
那所以
就会面对一个在1附近的这么一个数了对吧
那如果说
原假设为假就是说
自变量对y是有影响的
那我们就会面临大部分的
这个变异可以由模型解释
那你的分子就会变得很大很大
所以说F值越大
那就说明我们有更多的证据
证明至少有一个自变量是和
响应变量产生关联的
然后下面我们看一个例子
仍然还是广告数据的例子
那个例子里面呢我们放上了
电视报纸和广播的广告预算
和销量的关系
然后我们之前说RSE等于1.69
然后R方呢等于0.897
也就是说y的变异中
有将近89.7%将近90%可以由
模型所解释
那F检验统计量等于570了
这个数是和1做比的
570和1差那么远
说明我们有足够的证据证明
至少我这个模型中有一个变量
使对y产生影响
或者是和y有关联的
那我们下面思考一个问题
就是说
既然我们已经有了
针对每个变量与响应变量外的
一一的检验
就是对每一个变量我都会
上节课我们
刚才我已经讲过了
每一个变量都有一个对应的p值
为什么我们还需要检查F检验呢
就是似乎只要有一个p值是显著的
我们不就已经有足够的证据证明
至少有一个自变量与因变量相关了吗
你干嘛还在生成一个
号称这个overall statistic
一个F检验统计量
然后来这个
一番周折还要证明是不是至少有一个变量有作用呢
实际上这个
逻辑推理是有一点瑕疵的尤其是
当我们的p值
这里面的p值指的是
模型里面自变量的数量
当模型里面的自变量的数量很多的时候
这个逻辑推理就有点问题了
为什么呢我们来看一看
假设说
你有一百个自变量
当然是比较又是比较极端的情况了
假设说
它跟均与响应变量没有关系
都是等于0的
就是βj都等于0
那在这种情况下
大概有5%的
P值
可能仅仅是因为样本随机性的缘故
小于0.05就是说
弃真的概率记不记得
就是当原假设为真我们却把它拒绝的概率
有5%
这是第一类错误的概率
这假设说你有一百个自变量
仅仅是因为样本的随机性
我们可能不小心拒绝了
5%的原假设
然后得出来说
就是在整个的这一百个p值里面
有5%的p值可能告诉你们说
这五个自变量是有作用的
但其实它们是假的就是说
我们在用样本推测总体的过程中
犯错了
所以为了
这个剔除
这种随机性的影响我们要
更稳妥的再做一个检验用
F检验来总体的看一看是不是至少有一个
自变量对y是有影响的
好这是关于第一个问题
很谦虚的一个假设
有的同学在做完回归以后发现
F值是显著的特别高兴
说我这个模型特别好
你一定要注意F检验其实
并不是特别有力的
它特别谦虚
它就是想看看我这个模型
千错万错是不是至少有一个x
值还是有用的
所以这是F值它的意思
然后下面
选择重要变量的问题
我们关注的是所有的x值都管
都对y有影响都和y有关的还是只有一部分有关
那理想情况下
怎么来决定
到底哪些x值
与y的关联程度最强呢
我们可能要进行一些
模型的选择
我们希望通过尝试建立不同的模型
来对变量进行选择
那最好的模型呢可以由不同的统计量来评价
这是模型比较的问题
那比较模型的时候统计量很多了
我们之前有R方可以进行模型比较
我还有一些统计量
有叫Mallow's Cp
有AIC BIC还有一个调整后的R方
这都是可以用到的
我们这节课就不展开来讲了
但是
在比较不同模型的时候又产生了一个新问题
假设说
一个模型有p个潜在的自变量
p个潜在的自变量
会产生多少个候选模型呢
如果说你真的要特别严谨的
每一种排列组合我都要尝试一下
一定要找出个最漂亮的模型
那我可以产生出R的p次方个候选模型
那假设说
你有三十个候选的变量
P等于30
那2的30次方等于多少呢
等于这么长的数
你们自己可以看看这
这是百万千万的
量级
这么多个模型
你怎么样来选择到底哪个是最好的呢
于是乎计算机技术有所发达
我们发展
我们需要一些高效的自动选择模式
那就有了以下的三种经典的方法
第一种
叫做前向选择
就是说一个一个自变量加进去
然后backward selection就是
我尝试把所有的
变量先都加进去
然后一个一个的往下减
然后第三种混合式选择
一方面相加一方面相减
看他们两个什么时候相遇
我讲的非常的快速
一带而过
为什么呢
我们这门课是社会科学统计分析
在社会科学统计分析上
尤其是社会学的问题
社会科学的问题的时候
其实
选择重要的模型一个完美的模型
其实
选择重要的模型一个完美的模型
可能并不是我们最重要的要求
为什么呢
我们社会科学经常想研究关系
在研究关系之前我们都一般会有一些
理论假设
所以
有同学老来问
说我发现有一些变量不显著了
我在最后的模型中要不要报
我经常说这一定关系到你的研究问题
如果你的研究问题就是想看看
某两个变量是不是有相关关系的话
你不妨就把它留在模型里
即使是不显著也是你的研究发现
我们不是做经济时间序列
做经济学的问题一定要做特别精准的预测
那在社会科学的问题上
社会学研究里面
我通常只是想做一个验证
社会学研究里面
我通常只是想做一个验证
就是说我的实际数据和我的理论是不是相符
在这种情况下
你都会有一些鲜艳的
在这种情况下
你都会有一些鲜艳的
就是根据理论生成自变量的选择
那通过理论
我建了一个模型
发现有些自变量是显著的
有些是不显著的
那这就是我的研究发现
可能没有你想象的那么复杂
当然你也需要知道
当如果说你的
重点就放在我要一个特别完美的模型的时候
当如果说你的
重点就放在我要一个特别完美的模型的时候
那你可以用前向选择后向选择或者是
混合
混合选择来
完成这个最好的模型的生成
好第三个重要问题
我关注的就是
模型的拟合问题了
就是我想知道
我的模型对实际数据的拟合程度
到底有多高
那你会看到这两个所谓的
重要的数值测量
那你会看到这两个所谓的
重要的数值测量
实际上和我们
一元线性回归的那两个测量值是一模一样的
就是RSE和R方
RSE呢刚才在一元的时候我们用的是
n减二分之一乘以RSS
那这里面呢我们就变成n减p减1
你们看当如果说你只有一个自变量的时候
p就是1
那就回到原来n减二分之一的状态
那
如果是有多个自变量呢
直接代这个公式就好了
然后当然RSE仍然还有一个问题
就是和 单位是一致的
然后当然RSE仍然还有一个问题
就是和y的单位是一致的
所以比较难以给出一个
很清楚的区分
RSE多大是大
多小是小
于是乎我们还是需要R方
那R方的原则还是一样
就是越接近于1说明模型的拟合程度越好
当然有的时候
我们也可以再画一些图形来对
模型的拟合程度进行一些
评价我们看
你们现在看到这张图
如果我问你
通过这张图
你告诉我这个模型
拟合的程度怎么样呢
我不知道你们可不可以看出来实际上
在这个立体空间中
我们单看电视和收音机对于销售的作用
其实感觉它并不是一个纯线性的
尤其是你看到中间那个
这一部分
看到底下
大部分的观测值
都远远的小于预测值
而在
电视和广播的销量在两极的时候
当广告预算非常小
和广告预算很多的情况下
它的观测值呢都大于预测值
而在中间这部分呢
观测值都小于预测值
这就说明了好像有一个
非线性的特征被我们错过了
这是图形的帮助
通过这个可视化的方法
你可能会对你模型的拟合有一些更好的理解
好第四个问题就是预测问题了
预测呢
一定要首先要确定就是说我们
做的这个预测
一定是有
有不确定性的我们经常说
统计学和数学最大的区别就是我们不是要
找一个函数关系
我们要研究随机性
那随机性呢就是要研究不确定性
有的人直接说
说概论与数理统计就是研究不确定性的学科
那预测值一定有不确定性
它的不确定性来自于三个途径
有三个来源
第一种来源首先
说了很多遍了我们是用样本来估计总体
我们是用小小的样本
去估计大大的总体的特征
于是乎系数用β0(hat)
β1(hat)到βp(hat)
估计β0β1βp就是
一种不确定性
那另外第二种不确定性
在实际中
我们说我们
各变量之间的关系
用一个线性函数来表达
实际上这一定是对现实的一种
近似
有时候会有更加复杂的模型的形式
这个时候就会造成了一个对现实简化的一种
可以被削减的误差的产生
这个时候叫做模型误差
建模是一门艺术
有的时候
我们后面
如果你去学更高级的统计学有一些
非线性的模型的拟合
当我们计算技术高了以后我可以
对于
现实的数据做特别特别好的近似
但如果说你对现实数据做了特别好的近似
划出了非常波折的曲线了以后
你可能丧失了一些推广性
就是说你一定要在特别具体的对
现实数据百分之百的拟合
和一种理论上的推广性之间做出抉择
我们
用一个线性函数
是因为它特别直观能够特别清楚的表达出
两个变量之间的关系
是一种选择性的牺牲
所以这个时候就造成了一种可以被削减的误差
叫做模型误差
那下面另外有一种误差
即使说
我们得到了总体的真实值
就现在我不是用一个样本来估计总体了
我就是用总体所有的数据
建立了一个多元线性回归模型
求出了真实值β0β1βp
但不要忘了我还是有一个随机误差项或者叫残差项
epsilon的存在
所以响应变量
也没有办法被准确的预测
我们将其称之为
不可削减的误差叫irreducible error
我们将其称之为
不可削减的误差叫irreducible error
这是预测的问题
好四个重要问题讲完了我们还
稍微讲一个在建模的过程中的小问题
就是自变量如果是定性型变量
你要注意的事情
这个
自变量并不可能像你这个想象中那么美好
永远是定量型的
连续型的
那定性型的变量在社会科学中
太常见了我们经常要面临
性别
面临族裔啊婚姻状况等等
下面我们看一个例子
这是一个关于信用卡
欠账情况的影响因素的例子
我们有一套数据
就是说信用卡的数据记录了余额
这个balance
或者叫做个人信用卡平均欠账情况
和一些定性型变量之间的关系的情况
我们的一些定量型自变量
这些自变量呢有age年龄
有cards就是这个人到底
有多少张信用卡
然后education这个人的受教育年限
他的收入单位是用千美元来表示
还有limit是卡的限额
我们经常信用卡是有限额的
刷过了就刷爆了
然后rating信用评级
另外我还有四个定性型变量
分别是gender
然后student学生状态
status这里面代表的是婚姻状态
还有ethnicity代表的是族裔
这个人是白人是非洲裔还是亚裔
这是我有这么多变量的情况
那
有的时候我在建模之前
会很自然地画一个
散点图矩阵
看这散点图矩阵长成什么样子
我们看
首先第一个格对的是balance
我们其实直接可以看第一行的图
第一行的图就显示的是响应变量
和各个自变量之间的关系
首先我们看第一个图
代表的是欠账和年龄的关系
这张图如果我问你你看出什么趋势了吗
这是一个我感觉是典型的
点散落各处的一张图
也就是说你不能很清楚的看出
年龄和欠账情况有什么关系
那cards
这个卡数和欠账情况有关系吗
也看不出特别明显的关系
然后下面呢是教育水平和欠账情况的关系
那这张图这是income
这个收入和欠账情况的关系
你会发现
收入越高
欠账balance越高
说明什么呢说明消费越多
就是你的收入越高消费越高
成一个大致的线性关系
这个向上的趋势
那下面limit这个趋势就更明显了
我们看好像
如果在这画一条线的话
会感觉这个点更紧密的团结在这个线轴
也就是点和线之间的距离可能更近
代表的是
限额和欠账情况的关系
和balance的关系
就是你的卡自然是卡的限额越高
你刷的越狠于是乎欠账越多
那这个呢
类似的rating信用评级
因为信用评级高
所以卡的限额会比较高
所以你的欠账也会更多
这是大致看到的关系
然后下面
这是定量型变量比较好看
那
我还有定性型变量呢
定性型变量怎么处理呢
很多同学都听说过虚拟变量对吧
我们就以一个
由两个分类或者两个水平的虚拟变量为例
我们
只需建立一个有两种可能取值的虚拟变量
来代表这个定性变量
这个虚拟变量叫dummy variable
假设说基于性别这个变量
我们可以建立一个新的变量
叫做Xi
这个Xi等于
1的时候代表的是
第i个观测值是女性
然后
Xi等于0的时候代表
第i个观测值是男性
于是乎假设说我的模型中
只有性别这么一个自变量的时候
就会有两种情况
当这个人是女性的时候
yi就应该等于β0加上β1加上epsilon i
当这个人是女性的时候
yi就应该等于β0加上β1加上epsilon i
然后当
这个人是男性的时候Xi等于0
这一部分就没有了
于是乎就变成了β0加上epsilon i
那现在我问你β1要怎么解释呢
我如果是定量型变量
我把它解释成x增加一个单位
y增加β1个单位
那如果是定性型变量就比较难解释了
也不是比较难解释就不能用
X增加一个单位了
β1代表的是
男性和女性之间的差别
就是男性和女性
在y值上的差别
这里面也就是说
在y值上的差别
这里面也就是说
假设我的yi是余额
在这里面我们可以说
女性的余额
女性的欠账情况
比男性多β1
当然如果是
β1是负的话就是反的了
就是少了
这是虚拟变量
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video