当前课程知识点:心理统计 > 17 相关分析与检验 > 17.1 相关概述 > 17.1 相关概述
同学们
你们好
今天我们来学习新的一章相关分析与检验
首先我们来学习第一节相关概述
我们以前学过描述统计
大家还记得吗
如果我们有一个变量
我们希望去描述它的集中量数
以及它的差异量数
集中量数
包括算术平均数
几何平均数加前平均数中位数等
差异量数也就描述这个变量的离散程度
包括全距标准差差异系数四分差等等
我们现在来学习当有多个变量的时候
我们如何来描述多个变量的相关关系
它包括积差相关 等级相关 肯德尔和谐系数
二列相关 点二列相关以及分析φ相关
二列相关 点二列相关以及分析φ相关
下面我们来看这一章
第一节相关概述的内容
它包括相关的概念
分类
散点图
相关系数以及最后是小结
在生活当中我们经常发现
两个事物之间有共变关系
比如说夏天冰激凌的销量越高
T恤的销量就会越高
冰激凌销量低一些
T恤的销量也会低一些
我们称这两个事物之间具有共变关系
在统计上我们称为它们有相关关系
我们来研究两个变量之间是否存在相关关系
如果存在
那么它的方向和密切程度是怎么样
我们叫这种分析为相关分析
相关分析的任务就是对这种共变关系
也叫相关关系进行定量的描述
比如说计算相关系数等等
两个变量之间有相关关系
其实存在各种可能性
比如说X是Y的因
像我们以前中学里学过边长和面积的关系
如果说边长长它的面积一定会大
第二种情况是X是Y的部分因
或者Y是X的部分因
比如说身高与体重
大家可以想
如果一个人的个子高
他体重会偏重
但是一个人的个子高
未必他的体重会轻于一个个子比他矮的人
我们想为什么
因为体重除了受身高的影响
它还受其他方面很多因素的影响
比如说你的身材的情况
对吧
体型等等
第三种
X和Y都是第三个变量的因或者果
比如说一个城市它的高血压患病率越高
他们的脂肪肝的患病率也会高
但是我们并不能说是城市的高血压患病率高了
它影响了脂肪肝的患病率
其实他们是因为有一个共同的因叫饮食改善
我们吃的好了
我们高血压的患病率就会高
我们吃的好了
我们脂肪肝的患病率就会高
就像我们刚才举的那个例子
T恤的销量和冰激凌的销量
它们有一个共同内因
叫天气越热
那么二者销量都会高
第四种情况
X和Y谁也不是谁的因
谁也不是谁的果
比如说1980年到2002年
我们人出生的体重和国家的GDP的相关
我们不是说GDP相影响了出生人的出生体重
也不是说人的出生体重影响了GDP
所以我们在这一节大家一定要记住
相关关系并不等于因果关系
好
我们下面来看相关的分类
可以从多个方面来对相关进行分类
比如说第一种
我们是根据两个变量的变化方向来分类
分为正相关和负相关以及零相关
我们举一个例子
比如说学习越努力
成绩就会越好
这是非常典型的正相关
再举一个例子
比如说睡懒觉的时间越长
我们学习成绩会越差
也就是说一个变量越大
另外一个变量越小
那么这种变量的相关我们称为负相关
还有一种就是零相关
像学习成绩和饭量的关系
吃的越多
对我们的成绩没有明显的影响
我们说二者具有零相关
再来看一种分类
按关系的密切程度分分为高相关
我们也较强相关
比如说我们刚才举的例子
我们的学习越努力成绩会越好
还有一种叫低相关也叫弱相关
比如说性别和学习成绩的关系
第三种分类方法我们是按变量的数目分
分为简相关
它主要指的是两个变量的相关
像我刚才举的例子都是两个变量之间的相关
比如说学习能力
学习努力和成绩的关系
智商和成绩的关系等等
还有一种叫负相关是两个以上变量的关系
比如说智商 学习努力 和学习成绩
三个变量之间的相关
但是在我们这个阶段
本科阶段我们所学的内容都是简相关
大家要注意我们只涉及两个变量之间的相关
我们看最后一种分类是按照散点分布的形态分
直线相关和曲线相关
我们前面讲的都是直线相关
也就是说一个变量增加
另外一个变量随之增大或者是减小
我们看什么叫曲线相关
首先看一个例子
比如说我们横轴
横轴是动机
它从左到右代表动机
由低到高
纵轴
我们叫效率水平
从下面到上面依次增加
我们看一下他们的关系
不是一条直线
比如说我们看一下
这就是一条直线
它代表什么意思
我们的动机越高
我们的效率就会越高
但是这里大家可以看到我们有一个拐点
我们以这条线为分界线
大家可以瞧一下
我们在左边从动机从低到中等动机的时候
随着动机的增加
我们的效率是增加的
但是从中等动机到高动机
我们的效率又下降了
也就是说我们有特别强的意愿
去做某一件事情的时候
我们的效率反而会下降
因为它可能会让你很焦虑
这样的一个关系
也就是说我们的效率水平随着动机的增加
并不是直线的升或者直线的降
它是有一个拐点
我们叫这种相关叫曲线相关
那么在我们现在的学习阶段
我们也只是学习直线相关
也就是说我下面所讲的这一章的内容
相关分析与检验都是涉及直线相关
我们下面来看散点图
散点图
它就是以图形的形式来刻画两个变量的相关
关系
那么散点图它就是在直角坐标系当中
以X值为横轴
以Y值为纵轴
通过描点的方式来表示两个变量
X和Y之间的相关关系
我们因为前面已经讲过
相关关系不等于因果关系
其实X跟Y你把哪个当成横轴
哪个当成纵轴都是可以的
我们看一下
首先认识一下散点图
它的形式是个什么样子的
大家看一下散点图
横轴代表不相似的程度
我举个例子
比如说我们有两条线
你觉得这两条线是一样的长吗
我们再来看两条线
那么我来问你
对于这两条线来说
你觉得它们是一样长吗
还有对这两条线来说
它们是一样长吗
我们叫这种叫不相似程度
像这两条线它的不相似程度比较强
所以我们很容易时间很短的就能够作出反应
说他们是不相似的
那么像这个,两条线它非常的接近
所以我们要花费一点时间去比较
这两条线它们是否是一样长
所以我们看一下横轴就代表
两条线的不相似程度
纵轴就代表我们判断的时间
很显然随着不相似程度越大
就像这个,不相似程度大
这个就是不相似程度小
从小到大
从小到大
我们判断的时间是不是依次下降
依次下降
所以你看整个的散点的趋势是下降的
好
那么大家来想一下这个点代表什么
任何一个点代表的是一对数据
比如说它在横轴上的投影
那么它代表的就是不相似的程度
它在纵轴上的投影就是判断不相似所花费的
时间
那么任何一个点就是一对数据
我们有多少个点就代表我们有多少对
X和Y的数据
那么我们看一下这些散点呈现出一个向下的
一个趋势
一个线性的一个趋势
你看没有一个向下的一个趋势
我们叫这样的一个图叫一个梭形图
一个头向下的一个梭形图
那么这种梭形图代表的关系是什么呢
是负相关
因为它是向下的
就是随着X的增加
Y是下降的
所以我们叫负相关
而且大家可以看到梭形图
它是一个扁扁的
是一个扁扁的图
我们说它是强相关
它是强相关
好
我们再来举一个例子
比如说数学能力和阅读速度的相关
我们来看一下散点图是一个什么样子
它的横轴是阅读速度
它的纵轴是数学成绩
大家可以看一下
那么这是横轴
这是纵轴
这个散点图
主要是来描述数学能力和阅读速度的关系的
也就是数学跟语文之间的关系
那么我们的数据就是有两列数据
这是我们把这个数据
因为这个数据竖着放不下
所以我们把它拆开若干对放在一起
那么这里大家可以看到
59 52 58 49
这一叫做一对数据
也就是它的数学能力和它的阅读速度是一对数据
然后这一对数据在这上面
你就可以找到相对应的那个点
我们除了这个点我们再讲一个点
比如说这是一个点53到60
这是一对数据
53是一个学生的数学能力
那么60是他的阅读速度
我们可以在散点图当中找到这个点
比如说横轴是53
纵轴是60
那应该是这个点
也就是说我们上面任何一对数据都可以对应的
是这张点
好
大家可以想一下
这张散点图和我们刚才讲的不相似程度
和它的反应时间之间的那个图有什么样的区别
那张图呢
它的散点是一种向下的一个趋势
而且那些点比较集中在一起
我们说它是一个瘦长的梭形
对于这样的一个散点图
它的形状是一个什么样子
它是一个向上的趋势
也就是说我们的阅读能力越强
我们的数学成绩也会高一些
但是这个梭形是一个胖胖的梭形
我们说它叫做弱相关
是吧
也就是二者之间没有非常强的这种线性关系
而且这个是一个向上的方向
我们叫正相关
但是它的相关比较低
我们下面来看阅读速度和身高的关系
我们看我们的阅读理解是纵轴
我们的身高是横轴
这上面任何一个点都代表是一组数据
这个和刚才的阅读理解和数学成绩的相关更不
一样了
点之间没什么关系
我们刚才那种相关叫零相关
好
我们来看一下
散点图对我们来描述两个变量之间的相关关系
是非常有帮助的
在我们去描述相关关系的时候
我们往往通过看散点图的形状方向和强度来看
相关的程度
我们首先,看散点图的时候
第一块是看它的形式
也就是XY之间是线性的还是非线性的关系
比如说左边的这张图
这还是一个一个的点
代表一对一对的数据X和Y
那么它们之间的关系大家可以看到
是一个非线性的
而右边的这个就是线性的
第二个我们看散点图是看他们之间的方向
看左边的这个,随着X的增加
Y是依次下降的
你发现没有
我们叫这种相关是负相关
右边这张图随着X的增加
这些散点的Y是依次上升的
我们叫这种相关是正相关
还有一种叫关联强度
大家刚才我已经讲过了
你能不能想一下左边这个代表强相关
还是右边这个代表强相关
很明显右边是一个瘦的梭形
也就是说我们的Y更多的受到X的影响
那么形成一条直线的一个趋势
我们叫这种是强相关
看一下左边的左边相关
我画一条线
比如说这几个像糖葫芦一样
我们把这些点串起来
他们的有相同的X
但是它们的Y大家注意看
它们的Y是什么样子
Y却非常不同
也就是说它们的Y受X的影响是比较少的
相同的X,Y非常不一样
那么也就是说Y受X的影响是比较少的
所以像这种胖胖的一个梭形我们叫弱相关
好
那么我们回忆一下
对于一个散点图来说
我们从几个方面来分析它
第一个是形状
我们来看它的形状是线性的还是非线性的
第二个是方向
我们看是正向还是反向
第三个我们是看它的这个强度
是强相关还是弱相关
但是我们也要注意
对于一个散点图来说
我们往往我们去刻画
两个变量之间的相关关系的时候
会受到极端值的影响
比如说像这样的一个图形
它是没有极端值的
如果说我们把这个点给它挪了
挪到这个地方
这就是说代表我们有出现了一对特殊的数据
那么由于这个点儿的影响
我们去描述它的线性关系的时候
这条线也就这个杠杆被压下来了
所以我们看,这个强影响点整个的会影响
两个变量之间我们对它相关关系的描述
所以在看散点图的时候
我们也要非常注意极端值的影响
要发现有没有存在极端值
那么我们做相关分析的时候
这个极端值我们要考虑是不是要把它去掉
好
我们看第四个部分叫相关系数
相关系数也称为相关量
它是来描述变量之间变化方向和密切程度的
数字特征量
我们刚才讲了散点图
它是用图形的方式来描述两个变量的相关关系
那么这里我们是用相关系数直接来刻画它的
方向和密切程度
我们用数字来表达
我们也有一些符号来代表
比如说总体相关是一个总体参数
我们是用希腊字母ρ来表示希腊字母ρ
它非常像P但是不是P它是这样一个写法
叫ρ
我们的样本相关是用英文字母来表示
小写的字母r
英文字母r
相关系数的范围是在正负1之间
正负号反映的是变量之间的变化方向
如果你是正的
那么就是正相关
如果是负的就表示负相关
比如说我们有一个相关是0.6
我们表明它是正相关
它的相关的程度是0.6
比如说我还有一个相关是-0.8
它代表什么
它是负相关
那么它的相关系数的强度
我们用0.8来表示
我们说绝对值的大小
反映变量之间关系的密切程度
那么我问如果一个相关是0.6
那么我问如果一个相关是0.6
一个相关是-0.8
那哪个相关大
如果你纯粹从数字的绝对意义上去看
0.6是大于0.8的
但是我们说我们去描述变量之间密切程度的
时候
我们用绝对值来表示
那么-0.8应该是大于0.6的
那么下面要注意的一个就是相关系数
没有等距单位是不能做加减乘除运算的
好
我们来看一下相关系数的我们如何来刻画相关
系数的强弱
像这里相关系数r
我们说这是样本相关
如果r的绝对值等于0
我们统一称为零相关
那么如果相关系数小于0.3
我们称为低相关
介于0.3到0.5之间
我们称为中等相关
如果它大于等于了0.5
但是小于等于1
当然相关系数的范围也就是正负1之间
-1到+1之间
那么我们称为这样的是高相关
就是0.5到1
我们称为高相关
那么下面我们要重点说一下等于0这件事情
我们说如果两个变量是相互独立的
也就是说X跟Y之间不存在共变关系
那么它的相关系数一定是等于0的
我这里是写的ρ等于0
ρ是总体相关
或者是你写成样本相关ρ等于0也是可以的
那么如果说ρ等于0或者是我们写成r等于0
但是我们说XY不一定是独立的
因为我们在现在这个阶段学的相关系数
都是来描述线性相关的
如果是我们的r等于0或者ρ等于0
我们只能说明二者不具有线性关系
像我们刚才讲的曲线相关
它的动机和效率的关系是一个曲线相关
那么它们之间的相关系数是零
但是它们并不独立
因为效率确实跟相关有关系
但是我们说它的相关系数为什么是0呢
我们说它们不具有线性关系
不具有线性关系
好
这是对相关系数等于0的一种描述
那么我说给你一个数
比如说我们再来看-0.8
它代表什么
它代表二者具有高度相关
具有高相关
而且它是负相关
比如说我们还有一个相关是0.4
它代表什么
是正相关
那么它们的强度是中等相关
好
下面我们把散点图和相关系数放在一起看一下
首先看第一张图
这是一个梭形
而且是一个向上的梭形
我们说这叫正相关
相关系数是在0到1之间
这张图我们叫负相关
因为它是一个向下的梭形
那么它的相关系数是在-1到0之间
我们再来看这张图
这是一条直线
我们的每一对数据都在这一条直线上
我们叫完全正相关
相关系数等于1
这张图所有的散点是在一条向下的直线上
我们叫完全负相关
相关系数是r等于-1
下面我们来看一下零相关
零相关有各种各样的形式
首先看第一个
我们呈现了两条直线
同样的一个XY都是这两个值
也就是说Y不受X的影响
这是一种零相关相关系数r等于0
这样也是零相关
Y也跟X没有关系
那么这个等于0也是零相关
这个是我们最为常见的一种情况
我们看我们的任何一个Y你看跟X都没有关系
同样的一个XY可以有很多个取值
同样一个XY也是有各种各样的取值
Y不受X的影响
我们叫r等于0
那么如果说你画椭圆形的话
你会发现它的中心是一条横直线
看一下
是一条横的线
它既不向上
它也不向下
是一条横线
这是一种零相关
那么再来看这里的X跟Y并非是独立的
它们有关系
这种关系叫曲线相关
但是我们说我们的相关系数刻画的是线性关系
所以r还是等于0
它不具有线性关系相关系数为零
好
我们看最后一部分就是小结了
我们在这一节里边讲了相关的概念
什么叫相关
也就是一个变量增大
另外一个变量增大或者是减少
相关的分类我们包括哪几个分类
大家要记住
这里我们还特别强调了散点图
以及通过散点图
我们如何来判断相关
最后一部分
我们讲了相关系数
它的方向还有它的大小
好
感谢同学们听这一节课
谢谢
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业