当前课程知识点:管理定量方法 > 第六章 相关与回归模型 > 第二十三节 相关和回归分析(五) > 第二十三节 相关和回归分析(五)
同学们 大家好
欢迎来到管理定量方法课程
我是今天的主讲老师 杨老师
第二十三节我们讨论相关与回归分析的
最后一个部分
第五部分
在上一讲我们讨论了多元线性回归模型的
总检验 F检验
分成四步进行
我们给大家展示了一张
由IBM SPSS软件
输出的多元线性回归模型的总检验表
表中展示了由模型所解释的变差SSR
未被模型所解释的变差SSE
和总离差的平方和SST
在数值上可以看到
SST就等于SSR加SSE
SSR的自由度为 k
也就是自变量的个数
SSE的自由度是n-1-k
SST的自由度是n-1
我们把每一个方差除以其自由度
就得到了均方误MSR和MSE
用MSR除以MSE
就得到F值4.879
通过查表
查得统计量落在拒绝域的面积就是P值
P值显示在表里
P值是0.021
与相应的显著性水平进行比较来进行判断
如果P值小于给定的显著性水平
就拒绝H₀接受H₁
模型通过总检验
多元线性回归模型
除了需要做总检验F检验之外
还需要和简单线性回归模型一样
做所有回归系数的T检验
T检验的基本流程与简单线性回归模型
是一致的
也是可以分成以下的四步
第一步 设置出研究假设
研究的原假设H₀为βj等于0
j代表所研究的自变量的编号
假设H₁是βj不等于0
第二步 计算一个T统计量
用样本线性回归系数统计量
bj除以bj的标准差sbj
得到T值之后进行第三步
第三步 根据显著性水平
查出T分布表得到临界值T值
第四步 当统计量T的绝对值
大于查表得到的T临界值
拒绝H₀ 接受H₁
认为自变量与因变量之间
线性关系是显著的
当然 在软件跑模型的过程中
我们会更多地去应用p值来进行判断
下表展示的是一个多元线性回归模型
统计的结果
我们可以看到
回归模型的假设检验统计表里
在广告费用中投入费用X₁进行 t检验
得到的t值是2.782
其对应的p值是0.013
小于给定的显著性水平α0.05
模型是显著的
但是在电视里做广告的费用X₂
其回归系数12.758进行t检验
我们发现t值是1.400
其对应的 p值是0.180
双尾检验中的p值0.180
超过了最大的显著性水平0.10
推断出没有通过假设检验
电视广告费用对销售额的影响
是不显著的
剔除了电视广告费用X₂之后
可以得到一个更有效的回归方程
Ŷ就等于579.88加15.772X₁
广播中的广告费用投入对于
因变量销售额Y的影响更为显着
对样本线性回归方程进行了总检验
和回归系数的T检验之后
我们需要对回归模型进行评价
对简单线性回归模型评价的时候
利用样本的可决系数R²来进行评价
但是多元回归不可以
在建立多元回归模型时
当丢入更多的自变量的时候
虽然自变量x和因变量y没什么太大的关系
但是也会把模型的可决系数R²拉高
可决系数虚高的情况如何来解决
多元回归模型
建议大家利用经调整可决系数
来进行回归模型的有效性评价
经调整的可决系数adjustR²
就等于1减去SSE
除以其自由度n-k-1
再除以SST除以其自由度n-1
经调整可决系数调整了什么
其实是调整了SSE和SST的自由度
在SSE自由度中
n-k-1把k减去了
k是自变量的个数
也就是把自变量的个数增加
对于R²虚高的影响降到了最低
通过经调整可决系数来评估
多元线性回归模型的拟合效果更为合适
另外 统计软件也会帮我们生成一个
所有变量的复相关系数
复相关系数是对整体变量相关性的
总体评价
实际上对我们研究模型更有意义的是
所有自变量和因变量两两之间的一个
皮尔逊相关系数矩阵
在前期的课程里
我们已经和大家简单地
进行了软件操作上的讨论
我们再看一张表
是IBM SPSS软件输出的
模型摘要表
表中也有模型的估计标准误差
模型的估计标准误差的公式
和简单线性回归模型差异不大
SYX就等于√下SSE
除以其自由度n-1-k
在前期的课程里面我们也给大家做了介绍
这里就不再做赘述了
学习了多元回归模型之后
我们需要跟大家讨论一下
在利用相关和回归分析中
需要注意的几个问题
第一 应该正确地理解
和对待变量之间的关系
我们后续的课程里会更多地讨论
多重共线性的问题
第二 预测的过程中
自变量的取值范围应该考虑其
真正的经济含义
第三 一定要注意模型应用的时间
和空间的条件
第四 在建立多元回归模型
和相关分析的时候
要做到定性和定量相结合
正确地判断变量间的因果关系
下面我们利用IBM SPSS软件
给大家展示多元线性回归的模拟过程
利用IBM SPSS软件
打开一个多元回归的分析数据
先看一下变量的设置
因变量y是商品的地区销售额
自变量有5个
第一个自变量X1是业务开展的时间
X2是所有商品的市场销售的总数量
X3是这类商品广告费用
X4是商品的市场份额
市场份额就用本公司的销售数量
比上商品的总的销售数量
X5是商品过去四年市场份额的变化
这是一个百分比数据
利用今年的市场份额
减去过去四年市场份额
再除以四年之前的市场份额
正代表的是市场份额在增加
负代表市场份额在减少
我们先做一个相关性分析
生成多元数据的一个皮尔逊相关系数矩阵
来进行变量之间的相关性检验
首先我们点分析
然后点相关双变量
把所有的变量可以全选
CTRL A全选点入变量池
做皮尔逊相关系数矩阵
而且软件会帮我们做一个双尾的
显著性检验
点确定之后
就会生成所有相关变量的一个
皮尔逊相关系数矩阵了
矩阵的特点我们前面讲了对角线都为1
一般在研究的结果中展示的是
皮尔逊相关系数矩阵的下半个三角形
或者是上半个三角形
因为这些相关性的数据都是对称分布的
下面我们再做多元回归分析
如何做多元回归分析
我们点分析
然后回归
回归我们利用的是线性回归
线性回归我们打开一个对话框之后
需要把因变量y地区销售额点入因变量框
然后把销售业务时间X1点入自变量
总销售数量X2点入
广告费用X3点入
市场份额X4点入
过去4年市场份额变化X5点入
点入之后
如果我们做预测的话可以点保存
预测的过程和简单线性回归模型是一样的
这里就不再做赘述了
直接点确定之后看看模型的回归结果
点确定之后
输出的结果中
第一张表就是模型的摘要
摘要中多元回归
我们应该观测的是所有变量的一个
复相关系数是0.961
模型拟合效果我们需要去看
经调整后的 R²是90.3%
还是比较高的
超过了50%
模型的估计标准误差是
409.73951
这个数值汇报出来就可以了
我们再要强调一下多元回归模型
经调整可决系数的统计经验
超过30%
很多研究的期刊都是可以允许发表的
第二张表是模型的总检验
进行一个F检验
在总检验表里边计算了模型的
已解释的方差SSR
模型的未被解释方差SSE
和模型的总方差SST
这里我们可以看到SSR加SSE
就等于SST
SSR的自由度为5
SSE的自由度是19
SST的自由度是24
用SSR除以自由度5得到MSR
用SSE除以自由度19得到MSE
我们用均方误MSR除以MSE
就得到了F值45.495
f值所对应的显著性p值是0.000
小于给定的显著性水平0.01
模型通过了总检验
我们往下看
我们可以看到回归系数表
得到回归方程
ŷ就等于常数项负的1266.119
加上一个3.403X1
加上0.043 Xr
加0.124X3
加280.08X4
再加上346.348X5
我们可以看到回归模型的所有的
t检验的t值绝对值都是比较大的
p值都比较小
小于给定的显著性水平
另外一个问题是
如果说所有的自变量X
对于因变量Y的影响都显著
那么哪一个自变量X对于因变量Y
地区销售额的影响是最大的
我们需要去看标准化之后的回归系数
在回归系数表里边
我们可以看到影响最大的是市场份额X4
标准化之后的回归系数是0.525
以上就是我们通过IBM SPSS软件
运行的多元回归模型的基本过程
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题