当前课程知识点:管理定量方法 > 第六章 相关与回归模型 > 第十九节 相关和回归分析(一) > 第十九节 相关和回归分析(一)
同学们大家好
欢迎来到管理定量方法课程
我是今天的主讲老师杨老师
第十九节
我们讨论相关与回归分析的第一个部分
主要给大家介绍相关分析的基本概念
首先我们通过三个案例来引出
这节的话题
第一个案例 研究学生的考试成绩
和复习时间之间的关系
请问你希望自己的管理定量方法课程
考多少分
需要花多少时间来复习
那么复习的时间跟考试的成绩之间
是否有一定的相关关系
第二个案例 某大型报业公司
想要发行周末版
为了确定周末版报纸的日发行量
必须确定报纸的日发行量
报纸当前所在的三个城市的日报发行量
分别是20万份 40万份和60万份
为了预测该报纸周末版的日发行量
该公司的市场部收集了
本地区35个报纸的日报发行量
与周末版发行量的数据
我们来研究日报的日发行量的数量
和周末版的日发行量数量之间
是否有一定的相关关系
第三个案例 分析影响信用卡
支付倾向的因素
Consumer Research是一家
专门从事社会调查和咨询服务的研究机构
能够为各个用户提供消费者态度
和行为方面的资料
在该机构最近组织的有关消费者
使用信用卡支付倾向的调查资料中
希望分析消费者的年收入
和家庭成员的数量
是否与年信用卡的支付金额相关
从三个案例可以看出
我们经常会研究变量和变量
之间的相关性
并且是否具备一定的数量关系
这一讲我们跟大家分享以下的
两个非常重要的内容
一个是相关关系与回归分析的基本概念
另外 我们讨论一下两个变量之间的
线性关系如何进行简单的测度
首先 我们看看相关分析和回归分析的
基本概念
我们讨论如下的四个内容
函数关系和相关关系
线性关系与非线性关系
相关分析的基本目的是什么
回归分析的基本目的是什么
首先我们看看什么是相关关系
我们曾经在初高中学过函数关系
函数关系和相关关系到底有什么区别
我们在初高中学的函数关系
指的是两个变量的数量
表现在一定条件下是完全确定的
实际上函数关系强调x和y
之间是一一对应的关系
而我们现在学的相关关系
是一种统计关系
研究两个变量或者多个变量在数量上
表现出来的密切关系
但却不是完全确定的
它是一种统计意义上的关系
相关关系中可能有如下的分类
如果按照设计变量多少来进行区分
可以分成简单的相关关系
和多元的相关关系
简单相关关系指的是一个自变量
和一个因变量
自变量我们用x来表示
导致因变量发生变化
因变量我们用y来表示
如果存在着一个变量和多个变量之间的
相关关系的话
我们把这种关系称之为多元相关关系
元代表自变量的个数
也就是x的个数
第二 按照两个变量关系在图形上的形态
可以分成线性相关关系
和非线性的相关关系
直线为线性关系
曲线为非线性关系
如果按照两个变量变动方向的不同
可以分成正相关和负相关
如果X增加Y也在增加
就是正相关的关系
如果X增加Y在减少
就是一种负相关的关系
不管相关分析还是回归分析
还是其他的一些方法
都是用于分析统计关系的有效方法
在管理学研究中
我们经常会研究变量和变量之间
是否存在着一定的数学关系
分析相关关系是进行回归分析的
数学基础
那么 我们讨论一下
相关关系和回归分析的目的
相关关系的目的是为了描述变量间的
相关关系
相关分析的密切程度
而回归分析的目的则在于
在因变量和自变量之间
建立一个数学模型
根据这个数学模型描述的
因变量是如何随着自变量的变化
而发生变化的
但是我们要提醒大家
相关分析和回归分析是否是
真正的因果关系
还需要进行科学的研究设计
才能够保证其内部的有效性
这部分内容我们在前面的课程
已经和大家简单地做了一系列的讨论
如何在相关关系进行测度
我们给了大家三种方法
第一种方法 利用x和y的散点图
来进行相关分析的测度
第二 通过建立x和y的协方差
来研究 x和y之间的相关紧密程度
第三种方法就是计算皮尔逊相关系数
来讨论x和y的相关性
首先我们给大家看一张散点图
下图是35家报纸的日报发行量
与周末版发行量之间的散点图
我们在后续的课程里也会给大家展示
如何利用IBM SPSS软件
来绘制散点图
散点图的横轴是自变量X
纵轴是因变量Y
可以很直观地讨论x和y之间
是否存在着一定的相关性
这种相关性表现为线性相关
还是一种曲线的非线性相关
是非常直观的一种方法
但是它不能够告诉我们x和y之间
到底存在多大的紧密程度
为了测度x和y之间的
相关性的紧密程度
我们可以采用一系列的统计指标
来研究x y的相关关系
第二种方法就是来测度x y的协方差
用协方差来测量自变量和因变量的
相关性大小
什么是协方差
协方差的定义是描述两个变量间
协变关系密切程度的一个量数
它的公式是cov (X, Y)
等于 Xi减去X̄ 乘以Yi减去ȳ
加总在一起再除以n减1
这个公式的作用是什么
我们可以看到把每一个数据
减去X的均值X̄
如果Y和X的变化方向是一样的
大部分的X都比X̄偏大
结果为正
那么大部分的Y减去ȳ也是会为正
正正得正
协方差就是正的
如果XY之间的关系是一种
负向的线性相关
大部分的X如果比它的均值要大的话
X减去X̄就是正的
但是Y跟X的变化方向相反
大部份的Y就比ȳ要小
这样两者之间相乘的话就为负值
所以我们可以看到
协方差的作用在于它有正负号
正号表示X Y之间变化的方向是一致的
是正相关的
负号表示X和Y变化方向相反
呈现负相关
但是协方差有自己的缺点
它没有被标准化
没有被标准化的数据
是不能够说明X Y之间相关的
紧密程度大小的
如何去讨论相关性的密切程度
我们可以采用另外一个统计指标
就是皮尔逊发现的一个计算方法
叫做皮尔逊相关系数
皮尔逊相关系数的定义
是通过把 x和y的协方差
进行标准化之后来讨论
x和y之间相关性的大小
其公式我们写在了下边
大家可以看到公式的分子和协方差类似
分母实际上就是自变量X的标准差
再乘以因变量Y的标准差
所构造的相关系数
皮尔逊相关系数的好处在于保留了
x y协方差的正负号
正号表示正相关
负号表示负相关
但是除了x和y的标准差之后
就可以把数字进行了标准化
标准化之后
其相关系数的取值范围
就是从负1到正1
越趋近于正1
相关系数越趋近于完全的正相关
越趋近于负1
表示x y的相关性
越趋近于完全的负相关
如果相关系数确定为0
则表示x y之间没有任何的相关性
这里我们和大家讨论一下
皮尔逊相关系数取绝对值之后的
统计经验
如果相关系数加了绝对值
=1
表示x y之间是一种完全的线性相关
如果相关系数绝对值≥0.8
表示x y之间是高度的相关
如果相关系数的绝对值
是0.5到0.8之间
表示x y之间是显着的相关性
如果相关系数绝对值
在0.3到0.5之间
那么表示x y之间是低度的相关性
如果x和y皮尔逊相关系数的绝对值
<0.3
表示x y之间无任何的相关性
如果相关系数=0
表示x y之间完全无任何的线性相关
另外 进行IBM SPSS软件
操作的过程中
软件除了帮助我们计算变量和变量之间的
皮尔逊相关系数的大小
也会帮助我们做一个假设检验
假设H₀ 总体相关系数等于0
H₁总体相关系数不等于0
我们需要拒绝H₀ 接受H₁
其统计量用了一个t分布来进行假设检验
t统计量
就等于r除以√1-r²
除以n-2
r代表样本的相关系数大小
n代表样本量
计算出来的结果进行t分布的
一个双尾检验
来帮助我们判定研究是否可以推广到总体
下面我们用IBM SPSS软件
来帮助大家讨论
如何利用一组的数据绘制散点图
另外通过IBM SPSS软件
来帮大家计算出来
变量和变量间的皮尔逊相关系数
以及如何生成多变量的
皮尔逊相关系数矩阵
我们打开了一个数据
这组数据是某一家公司不同的商品
投入的广告费用和第一年的销售额数据
如果把广告费用设为自变量x
第一年的销售额是因变量y
我们先对这两个变量进行一个相关分析
相关分析的第一种方法
可以画一张散点图来进行
我们看到这里有一个图形
我们点开旧对话框
旧对话框里倒数第二个就是散点图
点开之后我们做简单散点图
因为是两个变量
我们点定义
定义就可以告诉我们
软件X轴是广告费用
Y轴是第一年的销售额
点好之后我们就可以点确定了
马上就可以生成一张x和y的散点图
x轴是广告费用
纵轴是因变量y
可以看到广告费用和销售额之间
有一个很明显的线性趋势
是一个正相关的线性关系
如果我们想要这张图
就可以选定这张图
点右键就有一个复制
就可以把这张图
粘贴在word文档和PPT上
这是散点图的画法
如何进行广告费用和销售额的
皮尔逊相关系数的计算
我们点分析 点相关 点双变量
双变量的含义不仅仅是做
两个变量之间的相关系数
如果是多变量的话
软件会进行两两的计算
生成一个皮尔逊相关系数矩阵
点开双变量 点对话框
我们需要分析广告费用和销售额之间的
一个皮尔逊相关系数
我们就把广告费用点进去
把销售额点进去
然后计算的是皮尔逊相关系数
后面还有一个斯皮尔曼等级相关系数
这个相关系数是做异方差性检验的
后续的课程会涉及到
我们现在做的是皮尔逊相关系数
另外软件会帮我们做一个双尾的
显著性检验
做一个假设检验来看相关系数
是否可以推广到总体
直接点确定就可以了
系统生成了一张表
这个表的含义是 广告费用和广告费用的
皮尔逊相关系数为1
自己和自己是最相关的
广告费用和第一年的销售额的
皮尔逊相关性为0.964
而且双尾检验的P值是0.00
小于给定的显著性水平
所以在上面打了**
**的意义在于
当显著性水平0.01的时候
双尾检验 P值要小于
给定的显著性水平
假设检验是通过的
假设检验用了14个样本得到
下面 我们删掉原始的数据
打开另一个多变量的数据
刚才是一个销售的数据
那么这个数据也是一个关于销售的数据
我们可以看到因变量Y
是这些商品的地区销售额
自变量一共有5个
X1是商品的销售的业务时间
我们有一个基本的假设
就是业务时间越长
销售额可能就越高
总的销售数量是X2
总的销售数量蛋糕就越大
可能地区销售额就越高
第三个是自变量X3
是商品的广告费用
X4是市场份额
市场份额是本公司的销售额
比上整个市场的总的销售数量
另外 X5是过去4年
市场份额的一个变化
用今年的市场份额
减去4年之前的市场份额
再除以4年之前的市场份额
我们来看一看市场份额的一个基本变化
如果正就表示目前的市场份额
比以前是增加了
如果为负就表示目前的市场份额
比过去减少了
我们做这6个变量的皮尔逊相关系数
将会得到一个皮尔逊相关系数的矩阵
也是一样
我们点分析 相关 双变量
是两两进行皮尔逊相关系数的计算
我们把地区销售额
业务开展时间
销售数量
广告费用
和市场份额
以及过去4年市场份额的变化
点入变量池
计算的是皮尔逊相关系数
而且我们做一个双尾的显著性检验
直接点确定就可以了
这就是皮尔逊相关系数矩阵
皮尔逊相关系数矩阵的特点是对角线上的
皮尔逊相关系数都为1
变量自己和自己是最相关的
任何两个变量之间的皮尔逊相关系数
都可以读出来
比如说地区销售额和业务开展时间
X1和Y的相关系数是0.623
打了**
p值是0.011
一共25个样本
**代表当p值是小于
α等于0.01级别的时候
通过了假设检验
另外我们在做研究的过程中
尤其是在毕业论文里边
如果有回归的话
我们先要展示所有变量的
皮尔逊相关系数矩阵
这是进行回归的一个分析基础
另外我们需要注意的是
相关系数矩阵的上半个三角形
和下半个三角形是对称的
数据都是对称的
一般我们就展示下半个三角形
或者是上半个三角形就可以了
因为如果数据都展示出来
一个是没有必要
另外一个就是表中看起来数字比较多
那么可读性就比较差了
以上就是相关分析的基本方法
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题