当前课程知识点:管理定量方法 > 第六章 相关与回归模型 > 第二十八节 多重共线性的诊断和修正(二) > 第二十八节 多重共线性的诊断和修正(二)
同学们 大家好
欢迎来到管理定量方法课程
我是今天的主讲老师 杨老师
第二十八讲
我们介绍多重共线性诊断
与修正的第二个部分
在前一讲
我们介绍了
多重共线性
及其诊断的方法
今天这一节
我们接着介绍
多重共线性的
修正方法
如何对回归模型的
多重共线性进行修正
消除多重共线性
我们给大家介绍三种方法
第一种方法
增加样本容量
在建模实践中
当我们所选择的变量个数
接近样本容量n时
自变量间
就非常容易产生
多重共线性
所以我们要在
运用回归模型
分析实际经济问题的时候
要尽可能的使样本容量
远远大于自变量的个数
当增加了样本容量之后
可以消除部分的共线性
第二种方法
剔除一些
不重要的
解释变量
通常在经济问题的建模中
由于我们认识水平局限
容易考虑过多的自变量
当涉及的自变量较多的时侯
大多数回归方程
都受到了多重共线性的影响
这时就要剔除一些
不重要的自变量
方法是
可以去检验
各个自变量的
方差膨胀因子
最大者
所对应的自变量
首先给予剔除
再重新建立回归方程
如果仍然存在着多重共线性
可以再继续剔除
方差膨胀因子最大的
对应的自变量
直到方程不存在
多重共线性为止
第三 我们介绍一种
非常重要的
消除多重共线性的方法
叫做自变量的选择
逐步回归
首先在建立
多元回归模型的时候
我们根据定性分析
确定了
解释变量
但定性分析
带有很大的主观性
况且在回归模型中
并不是解释变量越多越好
所以必须在定性分析的基础之上
应用定量的方法
来确定
哪些变量
引入定量模型后
可以减少
多重共线性带来的影响
在IBM SPSS软件中
提供了多种模型
引入自变量的方法
我们前面使用的
更多的是
强迫进入法
实际在软件中
还存在着
前进法
后退法
以及今天
我们要介绍的
逐步回归法
什么是强迫进入法
Enter Model
把原始的数据库中
所有的自变量
全部放置
回归模型中
IBM
SPSS软件
系统默认这种方法
可以看到
每个回归自变量的
系数检验过程
以及模型的拟合优度
那么IBM SPSS软件
还提供了
逐步回归法
Stepwise Method
是逐步引入回归作用
显著的自变量
并从回归模型中
逐步剔除回归作用
变得不再显著的自变量
以最终得到一个
最优化的回归模型
IBM SPSS软件
可以自动实现逐步回归的功能
我们来和大家介绍一下
逐步回归法的
基本步骤
第一步
拟合K个
简单线性回归方程
比较F值
或拟合优度
只有当
统计量F值
超过F*
自变量
才有可能被引进
如果有两个以上的自变量
模型的F值超过了F*
则选择F值
最大的自变量引入
在给定的显著性水平α
等于0.05的前提之下
F*值
在系统中
设置为
3.84
这个前提条件是
IBM SPSS软件
默认的一个显著性水平
当F值超过F*3.84的时候
自变量是值得被引入模型的
第二步
当第一个自变量
被引入后
接着在剩下的
K-1个自变量中
选取第二个自变量
这里IBM SPSS软件
将计算K-1个偏F值
只有偏F值
大于F*
新的自变量
才会被引入
若有多个自变量的
偏F值
超过F*
则选择
偏F值
最大的自变量引入
这里要简单说明一下
偏F值的计算方法
偏Fj*
等于把X1
引入模型的估计标准误
SSE
减去把X1和X2
共同引入模型的
估计标准误
SSE
X1 X2
除以其自由度1
比上 当把X1 X2
全部引入模型的
估计标准误
SSE
X1 X2
除以其自由度
n-1-2
偏F值的含义
就是说
当把X1和X2
两个自变量
同时引入模型的误差
应该比
只引入X1自变量的
模型的估计标准误
SSE X1
要更小
那么引入两个自变量的模型
才是值得的
第三步
在第二个自变量被引入后
需要检验
由于此自变量的引入
而影响到
原变量
与因变量的显著关系
如果由于
新的变量引入之后
使原变量
与因变量的关系不再显著
则需要把原变量
剔除掉
反复以上的过程
直到没有新的变量能够满足
被引进的要求
没有原变量
能够满足被驱逐的要求为止
这个过程
由IBM SPSS软件
来自动实现
下面 我们就以
销售业绩预测的案例
为数据
应用IBM SPSS软件
帮助大家做一个修正
多重共线性的
逐步回归法
建模过程
我们还是利用地区销售额预测的数据
案例来进行回归分析的
多重共线性的修正
逐步回归法的演示
首先我们看一看数据的变量
因变量Y
是地区销售额
自变量
分别是
销售的业务时间X1
总的销售数量X2
广告费用X3
市场份额X4
过去四年市场份额的变化X5
下面我们采用逐步回归法
来进行共线性的消除
来看一看
最终通过逐步回归模型
软件建议我们保留的
最优模型是什么
点分析
回归 线性回归
因变量
是地区的销售额Y
分别点入以下的一些自变量
第一个
业务开展的时间X1
总销售数量X2
广告费用X3
市场份额X4
过去四年市场份额的变化X5
在研究方法里
可以看到
系统默认的就是
输入法
输入法
就是我们在课堂上讲的
强迫进入法
Enter Model
我们现在利用
逐步回归
来消除共线性
可以点
方法这个箭头
我们应用的是
步进法
步进法
就是我们强调的
逐步回归
我们直接点确定
系统就会帮我们
进行逐步回归了
可以看一下研究结果
第一张表
就是逐步回归的
基本过程
告诉我们
哪一步
有哪些自变量
丢入到模型中
丢入模型的
基本条件
是什么
我们可以看看
模型的显示结果
在模型摘要里
有五个部分
其实逐步回归得到了五个回归模型
第一个回归模型的
经调整可决系数是36.1%
第二个模型的
经调整可决系数上涨到52.5%
第三个模型的
经调整可决系数上升到78.5%
第四个模型的
经调整可决系数上升为88%
最后一个模型的
经调整可决系数
最高可以达到90.3%
也就是
最后一个模型是值得保留的
其拟合的效果最优
这个模型的估计标准误差
是409.73951
我们再看看
五个模型的
总检验的情况
在这张表里
我们可以看到
第一个模型的
总检验
F值是14.581
p值0.001
通过了总检验
第二个模型的
F值是14.241
略有下降
p值也略有下降
p值是0.000
也通过了总检验
第三个模型
F值上升的非常迅速
达到了30.263
p值是0.000
也是显著的
通过了
总检验
第四个模型
F值达到45.136
p值是0.000
通过了总检验
最后第五个模型的F值是最大的
达到45.495
p值是0.000
也是通过了总检验
在回归系数表里
我们可以看到
其共线性诊断
五个模型
所有自变量的方差膨胀因子
都是一点多
均小于5
共线性的标准
实际上模型
五个模型的共线性
都不是非常的明显
所以模型的拟合效果不错
我们可以看一看
在这张表里
每一步模型帮我们引入了
哪些自变量
第一个模型
引入了自变量X1
销售业务时间
其t值是3.818
p值是0.001
通过了回归系数的t检验
第二个模型
保留了
销售业务时间X1
再次引入市场份额X4
其t值分别是
4.084
和2.983
p值分别为
0.000
和0.007
通过了回归系数的t检验
共线性诊断
也是不存在任何问题
第三个模型
引入了
销售业务时间X1
市场份额X4
和总销售数量X2
我们可以看到
其t值分别为
2.718
5.783
和5.265
p值分别为
0.013
0.010
和0.000
通过了回归系数的t检验
第四个模型
引入了
业务开展的时间X1
市场份额X4
总销售数量X2
和广告费用X3
其t值分别为
2.852
7.28
6.553
和4.204
p值都是小于给定的显著水平的
也通过了回归系数的假设检验
最后一个
最理想的模型
我们可以看到
销售业务时间X1
市场份额X4
总销售数量X2
广告费用X3
和过去四年市场份额的变化X5
全都保留了下来了
所有的t值都是非常大的
分别是
3.008
7.748
6.780
3.778
2.362
所有的p值
都小于给定的显著性水平
过去四年市场份额的变化
x5的p值稍大
为0.029
仍然是小于0.05
显著性水平
仍然可以通过回归系数的t检验
最后一张表
告诉我们
每一步的模型
剔除了哪些变量
在第一个模型中
剔除了
X2 X3
X4和X5
第二个模型
剔除了X2
X3和X5
第三个模型
剔除了X3 X5
第4个模型
剔除了X5
最后一个模型
没有任何剔除的自变量
所有的自变量
都引入到回归模型中
所以这张表
是不存在第五步的
通过共线性的诊断
我们可以看到
当保留了
所有的自变量
说明这个数据
其共线性是比较小的
最优的模型是把
所有的自量
都保留下来
是一个最优的模型
以上就是逐步回归的
基本过程
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题