当前课程知识点:管理定量方法 > 第六章 相关与回归模型 > 第二十四节 违背基本假设的回归(一) > 第二十四节 违背基本假设的回归(一)
同学们大家好
欢迎来到管理定量方法课程
我是今天的主讲老师 杨老师
第二十四节
我们介绍违背基本假设的回归第一部分
关于违背基本假设的回归分析
我们重点先关注一下残差项的问题
在介绍回归模型的时候
我们很少提到残差项
但是实际上残差项在建模的过程中
是非常重要的
什么是残差项
也叫随机误差项
我们给出简单线性回归模型
总体模型可以看到
y等于α加βi加εi
εi就是随机误差项
随机误差项去掉之后
其实前面的模型y等于α加βx
求的是EY
是Y的期望值
我们给大家画了一张图
实际的数据点在建模回归模型的时候
上面有一段距离
这个距离有正有负
如果实际的散点在模型的上边
那么这个距离就为正
如果点在模型的下边
这个距离就为负
也就是说残差项具有正负号
在模拟回归模型的时候
利用历史的数据得到回归系数的估计值
在计算回归系数的估计值的时候
我们使用了一种方法
使得产生的直线模型与观测数据
有最好的拟合效果
得到最佳的模型
这个方法叫做普通最小二乘法
普通最小二乘法的基本原理
是使点到模型的距离的平方和最小
也就是残差平方和最小
对残差平方和最小的公式进行求极值
在求极值的过程中
得到最优的参数估计值
我们回顾了普通最小二乘法之后
实际上可以看到
如果在建模的过程中
不考虑随机误差项的分布规律
我们得到的回归模型就是无效的
并非最优解
对回归模型的普通最小二乘法估计
随机误差具有一系列的基本应用条件
我们先给大家四个假设
第一个假设 随机误差项
应该是一个随机变量
它服从正态分布
假设二 随机误差的期望值
应该等于0
假设三 随机误差项的方差
应该是相等的
假设四 取不同的自变量的时候
得到的随机误差项也应该相互独立
这些条件使得线性回归模型的估计值
可以保持无偏 有效和一致性
若这些假设违背了
如何来处理
首先看假设一
假设一 随机误差项应该是一个随机变量
它应该服从正态分布
若随机误差项的分布是非正态分布
则我们无法利用T检验和F检验
进行回归系数假设检验和总检验
请大家自行回顾回归系数的假设检验
和总检验的基本知识
如何来规避假设一对模型造成的影响
在实际的模型应用中
应该尽量地扩大样本量
当扩大样本量之后
我们就可以规避假设一的影响
随机变量的误差就是一个服从正态分布的
随机变量了
模型的T检验和F检验都是有效的
假设一是比较容易解决的一个实际问题
假设二 随机误差项的期望值
应该等于0
假设二一般的情况之下
都是能够得到满足的
即使不能够得到满足
即使假设二违背了
只是对回归系数的常数项β₀的估计
会有所影响
会得到一个β₀的一个有偏的估计
在建模的过程中
通常不考虑常数项的经济含义
所以假设二是否违背
对于回归模型来说影响并不大
在实际的应用中
我们对假设二随机误差项是否期望值为0
无需进行任何的诊断和修正
我们最关心实际上是假设三
假设三的违背对于回归模型的影响
会比较大
假设三是随机误差项的方差
都应该是相等的
如果假设三被违背了
仍然用普通最小二乘法对模型进行估计
将引起严重的后果
这样的后果我们称之为异方差
异方差估计将会导致T检验的值被低估
可能会造成对本来应该显著的
自变量的回归系数造成了不显著的影响
我们给大家画了一张图
来简单地理解异方差的来源
异方差一般来自于我们的抽样方法
当随机抽样采取了分层抽样的方法的时候
我们很难保证每一层中
层内样本之间的差异是一致的
也就是不同层的方差和标准差是不同的
当我们从三层里面抽取
不同的样本量的时候
X1层 X2层 X3层
样本的分布规律都不相同
而且它们的方差都不一致
从三层里边抽取子样本
组成一个总的样本
那么得到的样本的方差就是不相同的
不相同的情况之下
就会造成模型的异方差
异方差会为模型的估计
产生比较严重的后果
总结来看 异方差的产生原因
一方面是因为随机误差项
包括了测量误差和模型中
被省略的一些因素对于因变量的影响
另外一方面来自于不同抽样单元的
因变量观察值之间可能差别很大
因此异方差多出现在横截面的样本之中
至于时间序列的样本
则由于因变量观察值
来自于不同时期的同样一个样本单元
通常因变量的不同观察值之间
差别不是很大
所以异方差性一般不明显
异方差的存在会对回归模型
造成什么样的经济后果
一旦随机误差项违背了同方差的假设
既具有异方差性
如果仍然用普通最小二乘法
对参数进行估计
将会产生严重的后果
普通最小二乘法的估计量一致性和无偏性
都不会受到影响
但不再具备最优性
在所有线性无偏性估计值中
我们得到的估计值的方差并非是最小的
也就是估计值其实并非最优
所以当回归模型中
随机误差项存在着异方差
普通最小二乘法已经不再适用
如何对回归模型进行异方差的检验和处理
是我们后面要谈的重点问题
首先 我们来看一看关于异方差性的检验
由于异方差的存在
会导致普通最小二乘法的估计量的
最佳性丧失
降低了估计的精度
所以对取得的样本数据
尤其是横截面数据需要判断
是否存在异方差
是我们在进行正确的回归之前
一定要考虑的事情
异方差的检验有两类
一类是图示法
二是解析法
下面我们先介绍几种常用的检验方法
首先介绍的是
异方差检验的第一类方法 图示法
图示法是检验异方差的一种
非常直观的方法
通常有以下的两个思路
第一 画因变量Y和解释变量X的散点图
如果在散点图中随X增加
图中的散点的分布区域逐渐地变得宽
或变窄
或出现了偏离带状区域的复杂的变化
则随机误差项可能会存在着异方差
第二个思路可能更为理想 画残差图
残差图把回归模型中的残差项做平方处理
去掉正负号并放大
把残差的平方项与自变量X画散点图
或者在多个自变量的时候
可以做残差的平方项与因变量Y的散点图
或者把残差的平方和与可能存在异方差的
有关的一些自变量X做散点图
具体的 先在同方差的假设下
对原模型应用普通最小二乘法生成残差
我们把残差做平方
再绘制残差图
如果残差图在一定的区域内不发生
任何点的分布变化
那么是不存在异方差的
但是如果像刚才所说
散点分布的区域逐渐地变宽或变窄
或在带状区域之内发生了
一系列复杂的变化
那么我们就能够非常肯定地说
模型中是存在着一定的异方差的
下面用IBM SPSS软件
给大家绘制一个残差图
先通过普通最小二乘法模拟一个回归方程
生成残差项
我们把残差项做平方处理
之后与自变量X生成残差图
来观测模型中是否存在着异方差
打开一组回归分析的数据
首先 直观地看数据来自于
国内不同的地区
从业人数和财政收入的两组数据
第一列是这个地区的从业人数
第二列是财政收入
由于数据来自于国内不同的地区
这些地区在经济 社会因素等等方面
其实是具有异方差性的
可以给这些地区进行一个简单的分层
比如说一线城市 二线城市
西部城市等等
层内之间可能会有一定的差异
这种差异性可能是不一致的
所以说截面数据是非常有可能存在着
异方差性的
我们对其做异方差性的诊断
首先 我们先做一个
普通最小二乘法的回归模型
在回归模型中生成一个残差项
点分析 回归 线性回归
我们把从业人数点入自变量
财政收入点入应变量
点好之后
为了保留残差项
我们需要点保存
保存里边有一个未被标准化的残差 打勾
continue继续
然后点确定就可以了
点确定之后
我们看一看回归模型
模型摘要里边拟合优度R2是66.5%
拟合效果还是不错的
但是这个模型的拟合效果
还是可以继续提高的
可以回到原始数据中
生成了新的一列残差项
叫residuals RES-1
这就是残差
下面我们需要对残差项做一个平方
这里给大家介绍
IBM SPSS软件中
一个非常重要的功能
计算功能
我们可以点转换
计算变量
点开之后生成一个残差的平方项
可以叫做E的平方
我们给目标变量赋予一个名字
那么残差的平方等于什么
残差在这个地方
残差可以点入
这里有一个乘号就是星号
点乘号
然后再把残差点入
残差乘残差
就是残差的平方
我们生成一个新的目标变量叫E2
好点确定
这样可以看到生成一个新的序列
就是残差的平方了
残差平方生成之后
我们把残差的平方作为因变量y
把自变量x从业人数
作为x轴画一张散点图
散点图我们再复习一下
可以点图形
旧对话框
点散点图
点简单散点图
点定义
我们把残差的平方放入Y轴
把自变量从业人数放入X轴
点确定
就生成了一张残差图
我们看一下残差图
残差图在一定的区域内分布是比较集中的
但是随着从业人数X逐渐地变大
呈现一个放射状
那么前面的样本方差比较小
后面的样本随着x增大
后面样本的方差就会变得大一些
那么也就是说模型中存在着一定的异方差
以上就是异方差的图示法的检验过程
好 这节课我们就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题