当前课程知识点:管理定量方法 >  第六章 相关与回归模型 >  第二十四节 违背基本假设的回归(一) >  第二十四节 违背基本假设的回归(一)

返回《管理定量方法》慕课在线视频课程列表

第二十四节 违背基本假设的回归(一)在线视频

下一节:第二十五节 违背基本假设的回归(二)

返回《管理定量方法》慕课在线视频列表

第二十四节 违背基本假设的回归(一)课程教案、知识点、字幕

同学们大家好

欢迎来到管理定量方法课程

我是今天的主讲老师 杨老师

第二十四节

我们介绍违背基本假设的回归第一部分

关于违背基本假设的回归分析

我们重点先关注一下残差项的问题

在介绍回归模型的时候

我们很少提到残差项

但是实际上残差项在建模的过程中

是非常重要的

什么是残差项

也叫随机误差项

我们给出简单线性回归模型

总体模型可以看到

y等于α加βi加εi

εi就是随机误差项

随机误差项去掉之后

其实前面的模型y等于α加βx

求的是EY

是Y的期望值

我们给大家画了一张图

实际的数据点在建模回归模型的时候

上面有一段距离

这个距离有正有负

如果实际的散点在模型的上边

那么这个距离就为正

如果点在模型的下边

这个距离就为负

也就是说残差项具有正负号

在模拟回归模型的时候

利用历史的数据得到回归系数的估计值

在计算回归系数的估计值的时候

我们使用了一种方法

使得产生的直线模型与观测数据

有最好的拟合效果

得到最佳的模型

这个方法叫做普通最小二乘法

普通最小二乘法的基本原理

是使点到模型的距离的平方和最小

也就是残差平方和最小

对残差平方和最小的公式进行求极值

在求极值的过程中

得到最优的参数估计值

我们回顾了普通最小二乘法之后

实际上可以看到

如果在建模的过程中

不考虑随机误差项的分布规律

我们得到的回归模型就是无效的

并非最优解

对回归模型的普通最小二乘法估计

随机误差具有一系列的基本应用条件

我们先给大家四个假设

第一个假设 随机误差项

应该是一个随机变量

它服从正态分布

假设二 随机误差的期望值

应该等于0

假设三 随机误差项的方差

应该是相等的

假设四 取不同的自变量的时候

得到的随机误差项也应该相互独立

这些条件使得线性回归模型的估计值

可以保持无偏 有效和一致性

若这些假设违背了

如何来处理

首先看假设一

假设一 随机误差项应该是一个随机变量

它应该服从正态分布

若随机误差项的分布是非正态分布

则我们无法利用T检验和F检验

进行回归系数假设检验和总检验

请大家自行回顾回归系数的假设检验

和总检验的基本知识

如何来规避假设一对模型造成的影响

在实际的模型应用中

应该尽量地扩大样本量

当扩大样本量之后

我们就可以规避假设一的影响

随机变量的误差就是一个服从正态分布的

随机变量了

模型的T检验和F检验都是有效的

假设一是比较容易解决的一个实际问题

假设二 随机误差项的期望值

应该等于0

假设二一般的情况之下

都是能够得到满足的

即使不能够得到满足

即使假设二违背了

只是对回归系数的常数项β₀的估计

会有所影响

会得到一个β₀的一个有偏的估计

在建模的过程中

通常不考虑常数项的经济含义

所以假设二是否违背

对于回归模型来说影响并不大

在实际的应用中

我们对假设二随机误差项是否期望值为0

无需进行任何的诊断和修正

我们最关心实际上是假设三

假设三的违背对于回归模型的影响

会比较大

假设三是随机误差项的方差

都应该是相等的

如果假设三被违背了

仍然用普通最小二乘法对模型进行估计

将引起严重的后果

这样的后果我们称之为异方差

异方差估计将会导致T检验的值被低估

可能会造成对本来应该显著的

自变量的回归系数造成了不显著的影响

我们给大家画了一张图

来简单地理解异方差的来源

异方差一般来自于我们的抽样方法

当随机抽样采取了分层抽样的方法的时候

我们很难保证每一层中

层内样本之间的差异是一致的

也就是不同层的方差和标准差是不同的

当我们从三层里面抽取

不同的样本量的时候

X1层 X2层 X3层

样本的分布规律都不相同

而且它们的方差都不一致

从三层里边抽取子样本

组成一个总的样本

那么得到的样本的方差就是不相同的

不相同的情况之下

就会造成模型的异方差

异方差会为模型的估计

产生比较严重的后果

总结来看 异方差的产生原因

一方面是因为随机误差项

包括了测量误差和模型中

被省略的一些因素对于因变量的影响

另外一方面来自于不同抽样单元的

因变量观察值之间可能差别很大

因此异方差多出现在横截面的样本之中

至于时间序列的样本

则由于因变量观察值

来自于不同时期的同样一个样本单元

通常因变量的不同观察值之间

差别不是很大

所以异方差性一般不明显

异方差的存在会对回归模型

造成什么样的经济后果

一旦随机误差项违背了同方差的假设

既具有异方差性

如果仍然用普通最小二乘法

对参数进行估计

将会产生严重的后果

普通最小二乘法的估计量一致性和无偏性

都不会受到影响

但不再具备最优性

在所有线性无偏性估计值中

我们得到的估计值的方差并非是最小的

也就是估计值其实并非最优

所以当回归模型中

随机误差项存在着异方差

普通最小二乘法已经不再适用

如何对回归模型进行异方差的检验和处理

是我们后面要谈的重点问题

首先 我们来看一看关于异方差性的检验

由于异方差的存在

会导致普通最小二乘法的估计量的

最佳性丧失

降低了估计的精度

所以对取得的样本数据

尤其是横截面数据需要判断

是否存在异方差

是我们在进行正确的回归之前

一定要考虑的事情

异方差的检验有两类

一类是图示法

二是解析法

下面我们先介绍几种常用的检验方法

首先介绍的是

异方差检验的第一类方法 图示法

图示法是检验异方差的一种

非常直观的方法

通常有以下的两个思路

第一 画因变量Y和解释变量X的散点图

如果在散点图中随X增加

图中的散点的分布区域逐渐地变得宽

或变窄

或出现了偏离带状区域的复杂的变化

则随机误差项可能会存在着异方差

第二个思路可能更为理想 画残差图

残差图把回归模型中的残差项做平方处理

去掉正负号并放大

把残差的平方项与自变量X画散点图

或者在多个自变量的时候

可以做残差的平方项与因变量Y的散点图

或者把残差的平方和与可能存在异方差的

有关的一些自变量X做散点图

具体的 先在同方差的假设下

对原模型应用普通最小二乘法生成残差

我们把残差做平方

再绘制残差图

如果残差图在一定的区域内不发生

任何点的分布变化

那么是不存在异方差的

但是如果像刚才所说

散点分布的区域逐渐地变宽或变窄

或在带状区域之内发生了

一系列复杂的变化

那么我们就能够非常肯定地说

模型中是存在着一定的异方差的

下面用IBM SPSS软件

给大家绘制一个残差图

先通过普通最小二乘法模拟一个回归方程

生成残差项

我们把残差项做平方处理

之后与自变量X生成残差图

来观测模型中是否存在着异方差

打开一组回归分析的数据

首先 直观地看数据来自于

国内不同的地区

从业人数和财政收入的两组数据

第一列是这个地区的从业人数

第二列是财政收入

由于数据来自于国内不同的地区

这些地区在经济 社会因素等等方面

其实是具有异方差性的

可以给这些地区进行一个简单的分层

比如说一线城市 二线城市

西部城市等等

层内之间可能会有一定的差异

这种差异性可能是不一致的

所以说截面数据是非常有可能存在着

异方差性的

我们对其做异方差性的诊断

首先 我们先做一个

普通最小二乘法的回归模型

在回归模型中生成一个残差项

点分析 回归 线性回归

我们把从业人数点入自变量

财政收入点入应变量

点好之后

为了保留残差项

我们需要点保存

保存里边有一个未被标准化的残差 打勾

continue继续

然后点确定就可以了

点确定之后

我们看一看回归模型

模型摘要里边拟合优度R2是66.5%

拟合效果还是不错的

但是这个模型的拟合效果

还是可以继续提高的

可以回到原始数据中

生成了新的一列残差项

叫residuals RES-1

这就是残差

下面我们需要对残差项做一个平方

这里给大家介绍

IBM SPSS软件中

一个非常重要的功能

计算功能

我们可以点转换

计算变量

点开之后生成一个残差的平方项

可以叫做E的平方

我们给目标变量赋予一个名字

那么残差的平方等于什么

残差在这个地方

残差可以点入

这里有一个乘号就是星号

点乘号

然后再把残差点入

残差乘残差

就是残差的平方

我们生成一个新的目标变量叫E2

好点确定

这样可以看到生成一个新的序列

就是残差的平方了

残差平方生成之后

我们把残差的平方作为因变量y

把自变量x从业人数

作为x轴画一张散点图

散点图我们再复习一下

可以点图形

旧对话框

点散点图

点简单散点图

点定义

我们把残差的平方放入Y轴

把自变量从业人数放入X轴

点确定

就生成了一张残差图

我们看一下残差图

残差图在一定的区域内分布是比较集中的

但是随着从业人数X逐渐地变大

呈现一个放射状

那么前面的样本方差比较小

后面的样本随着x增大

后面样本的方差就会变得大一些

那么也就是说模型中存在着一定的异方差

以上就是异方差的图示法的检验过程

好 这节课我们就讲到这里

同学们再见

管理定量方法课程列表:

第一章 管理定量研究概述

-第一节 管理学研究概述

--第一节 管理学研究概述

-第二节 研究的有效性

--第二节 研究的有效性

-第一章 习题

--第一章 习题

第二章 定量数据的采集

-第三节 数据的采集(一)

--第三节 数据的采集(一)

-第四节 数据的采集(二)

--第四节 数据的采集(二)

-第五节 问卷与访谈

--第五节 问卷与访谈

-第二章 习题

--第二章 习题

第三章 测量与尺度设计

-第六节 变量的测量(一)

--第六节 变量的测量(一)

-第七节 变量的测量(二)

--第七节 变量的测量(二)

-第三章 习题

--第三章 习题

第四章 数据的描述与统计推断

-第八节 数据的描述

--第八节 数据的描述

-第九节 概率与随机变量(一)

--第九节 概率与随机变量(一)

-第十节 概率与随机变量(二)

--第十节 概率与随机变量(二)

-第十一节 抽样分布

--第十一节 抽样分布

-第十二节 参数估计

--第十二节 参数估计

-第十三节 假设检验(一)

--第十三节 假设检验(一)

-第十四节 假设检验(二)

--第十四节 假设检验(二)

-第四章 习题

--第四章 习题

第五章 多变量定量研究

-第十五节 问卷的结构效度——探索性因子分析(一)

--第十五节 问卷的结构效度——探索性因子分析(一)

-第十六节 问卷的结构效度——探索性因子分析(二)

--第十六节 问卷的结构效度——探索性因子分析(二)

-第十七节 聚类分析(一)

--第十七节 聚类分析(一)

-第十八节 聚类分析(二)

--第十八节 聚类分析(二)

-第五章 习题

--第五章 习题

第六章 相关与回归模型

-第十九节 相关和回归分析(一)

--第十九节 相关和回归分析(一)

-第二十节 相关和回归分析(二)

--第二十节 相关和回归分析(二)

-第二十一节 相关和回归分析(三)

--第二十一节 相关和回归分析(三)

-第二十二节 相关和回归分析(四)

--第二十二节 相关和回归分析(四)

-第二十三节 相关和回归分析(五)

--第二十三节 相关和回归分析(五)

-第二十四节 违背基本假设的回归(一)

--第二十四节 违背基本假设的回归(一)

-第二十五节 违背基本假设的回归(二)

--第二十五节 违背基本假设的回归(二)

-第二十六节 违背基本假设的回归(三)

--第二十六节 违背基本假设的回归(三)

-第二十七节 多重共线性的诊断和修正(一)

--第二十七节 多重共线性的诊断和修正(一)

-第二十八节 多重共线性的诊断和修正(二)

--第二十八节 多重共线性的诊断和修正(二)

-第六章 习题

--第六章 习题

第七章 定量方法总结与管理类硕士毕业论文指导

-第二十九节 硕士学位毕业论文指导(一)

--第二十九节 硕士学位毕业论文指导(一)

-第三十节 硕士学位毕业论文指导(二)

--第三十节 硕士学位毕业论文指导(二)

-第七章 习题

--第七章 习题

第二十四节 违背基本假设的回归(一)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。