当前课程知识点:心理统计 > 17 相关分析与检验 > 17.2.1 皮尔逊相关1 > 17.2.1 皮尔逊相关1
同学们
你们好
今天我们来学习
相关分析与检验这一章中的
皮尔逊积差相关
有两个统计量可以来衡量
两个随机变量X和Y之间的线性关系
它们是斜方差和相关系数
先来看斜方差
σXY这个是总体的斜方差
SXY这个是样本的斜方差
我们来看一下以前学过的一个统计量
SXX等于
∑X减去X平均数
乘以X减去X*
也就是说是它的平方和除以N减1
这个是方差
方差是斜方差的一种特殊的形式
我们看一个例题
求X和Y的斜方差
我们有六对数据
X1 XY1 X2 Y2
3 6 5 12
那么这一列是离差X减去它的平均数
这一列是Y的离差
那么这一列是离差的积
-2乘以4等于8
那么它们的和叫离差集合等于55
我们带到斜方差的公式里边去
等于55除以自由度是N减1
所以等于11
那么斜方差为什么能够衡量
两个变量的线性关系
让我们来看一下这样一张图
这个是散点图
横轴是X纵轴是Y我们123456
6个数据
那么如果说你看它的形状的话
它是一个向上的梭形
那么这说明X跟Y具有比较强的正相关
我们可以画一条直线
尽量的去拟合这些散点
像有一条向上的正向的线性
我们把这个散点图按照终点
也就是平均数
把它划分成四个象限
大家来看第一个象限
它是X是比较大的
超过了均值
Y也是超过了均值
那么这一块就是第一象限
这是第二象限
第三象限和第四象限
我们看第一象限中的一个点
这个点它的纵轴上的投影是14
也就Y的取值是14
14到10减去10等于4
那么它的X的取值是8
8到平均数五的距离
是8减5等于3
那么这个积是一个正直
那么乘积实际上就是这一块面积
我们再看它的其他的散点落到了第三象限上
这个点它的Y值也好
X值也好
都小于它们自己的均值
所以它们的乘积就是-4乘以-2还是一个正数
所以你看对于这样的一个散点图来说
任何一个点它落在第一象限上也是正值
落在第三象限上
它们的离差的积也是正数
那么我们求和所有的这些离差积求和的话
它会比较大
它会比较大
我们再来看另外一个例子
这个还是横轴是X纵轴是Y
这些散点是有一个向下的趋势
是一个向下的梭形
我们说它具有很强的负相关
我们还是以X和Y的平均数为轴
把这个散点图划分为四个象限
我们来看其中的一个点
它落在了第二象限
它的Y是超过了平均数
X是小于平均数
所以这个离差的积是一个负数
我们再来看另外一个点
落在了第四象限
那么它的离差积也是一个负数
也就是说对于散点图上的散点
它的离差积大多数都是负数
所以这些点加起来
它的值是负数
但是绝对值比较大
我们再来看这样的一个图
这些图你看它是一个胖胖的一个梭形
几乎不存在线性相关
那么我们把还是划分成四个象限
那么在不同的象限里边
第一个象限是正直
这是正直
做第二个和第四个象限
它的离差积全都是负数
当这些所有点的离差积加在一起的时候
几乎为零
也就是斜方差几乎为零
通过这三个例子
我们可以知道
当我们的散点比较集中地
放在成为一个向上的趋势
或者是成为一个向下的趋势的时候
它的斜方差都是比较大的
而我们像这样散点分散在四个象限当中
它的散点能够说明它是比较低的相关
它的斜方差也就比较小了
斜方差能够较好地
去衡量两个变量之间的线性关系
但是它也有一些问题
比如说我们举个例子
像刚才的斜方差是11
我们把X跟Y同时扩大十倍
也就是变成30 60 50 120
那么这个时候它的斜方差变成了1110
也就是增大了一百倍
而X跟Y的线性关系实际上没有变化
但是斜方差增大了一百倍
所以我们说斜方差是会受到
变量的测量单位的影响
那么我们如何来避免这个问题
我们看一下皮尔逊积差相关
积差相关是由皮尔逊提出来的
所以命名为皮尔逊积差相关
有时候我们会简说积差相关
总体的相关系数ρ
等于分子部分是斜方差 σXY
分母部分
分母部分
σX就是总体的X变量的标准差
σY是总体的Y变量的标准差
也就是说我们把斜方差分别除以了标准差
是一个去单位化的过程
再看一下样本的相关系数
它等于分子部分是样本的斜方差
分母部分是X和Y的标准差
相关系数可以有很多种
表示方法
像这个我们可以直接写成这种形式
也可以整理成这样的一个形式
我们还可以写成这样的一个形式
我们看一下它的分子部分是离差集合
它的分母部分有一个开根号
根号下面是这个叫离差平方和
这是Y的离差平方和
所以它的符号大家也要记住
相关系数还可以整理成另外一种形式
比如说我们把X的标准差和Y的标准差放到
分子部分
这一块大家是否还记得
它是X跟Y的标准分数
那么我们可以继续写一下
ZX等于
Xi减去X的平均数除以X的标准差
它代表一个个体的分数在X这个变量当中的
相对位置
同理Y也是这样的
它代表Yi在Y变量当中的相对位置
如果X跟Y的相对位置是比较一致的
也就是说随着X的增加Y也在增加
那么ZX乘以ZY的和会比较大
如果随着X的增加Y减小
也就是说ZX跟ZY的绝对值接近
但是符号不一致
那么这个和它会绝对值比较大
但是是负向的
如果随着X的增加Y没有明显的变化
也就是说Y并不随着X的变化而变化
那么ZX和ZY差异会比较大
这个和会比较小
我们计算了相关系数
在这里
你看一下都是样本的相关系数
那么我们还需要对总体的相关系数进行假设检验
我们看一个例子
先求一下二者的皮尔逊积差相关
这里还是XY我们有六对数据
这个地方是离差积
这个地方是离差平方
这个是离差平方下面这是和离差积和
离差平方和Y的离差平方和
那么我们带入相关系数的公式
它等于.953
我们下面来看
我们知道了样本相关系数
我们想知道总体的相关系数ρ是一个什么样子
我们可以做零假设
ρ等于0
这是虚无假设
总体中不存在相关
H1也就研究
假设是ρ不等于0
我们对H0进行假设检验有两种方法
一个是直接查极差相关系数显著性临界表
一般的统计书上都有
这个附表
你可以去查
在某一个样本量的情况下
临界值是多少
然后去比较样本的相关系数和临界值是否大于
这个临界值
如果大于我们就说H0被推翻了
总体中存在显著的相关
我们来看如何进行T检验
XY是二元正态的随机变量
我们在H0ρ等于0的存在的前提下
样本相关系数减去0
除以它的标准误
服从自由度是N减二的T分布
所以我们可以用T检验来做
那么它的分母部分的标准误是
根号下1减r的平方平方除以N减2
所以T检验你可以用代入这个式子去求T值
那么它的自由度是N减2
你用一般的T检验的方法就可以了
我们举个例子
某校MBA毕业生的在学成绩和工作起薪
我们的原始数据
这是X这是Y某一个人的
比如说他的成绩是90分
那么它的月薪是8000
一个人得了75分
他的月薪是7500
等等
这是他的原始数据
我们这里给出是已经算好的一些统计量
比如说样本量N等于30
X也就是说在学成绩的和是87
Y它的和是534.3等等
那么这些统计量你带入相关系数计算公式
其实可以直接求出样本的相关系数来
比如说相关系数把它带进来等于0.8561
我们可以进行T检验
把相关系数0.8651代入
下面这个式子等于9.126
那么在自由度N减2也就28的时候
.05
双侧检验的T的临界值是2.048
所以9.126大于2.048
我们说T显著了
也就是说对于总体而言
在学成绩和他们的工作起薪之间具有显著的
线性关系
我们看另外一种情况
如果说我们想了解样本r是否来自ρ不等于0的总体
我们刚才做零假设的时候
H0是ρ等于0
而这里是一个常数
比如说等于0.8或者是0.5等等
我们进行检验的时候
需要把相关系数首先进行fisher Z转换
我们看一下转换的公式
我们横轴是相关系数
纵轴是fisher Z分数
二者并不具有线性关系
我们看一下
当相关系数从-1到-0.8的时候
也就是只有0.2的变化
而fisher Z分数的变化几乎是从-3到-1
而我们相关系数从-0.8到0的一个变化
也就变化了0.8
而fisher Z分数只是从Z等于-1.1到零之间的一个变化
也就是说我们把相关系数可以带入这个公式
进行fisher Z转换
因为相关系数并不是等距的
当H0成立的情况下
Z分数也就是fisher Z分数
它服从一个正态分布
这个正态分布的平均数
也就是它的均值是这样的一个式子
其中ρ0是我们假设的H0等于ρ0
等一个特定的值
这个ρ0比如说是0.8或者是0.5等等
这是它的均值
1/(n-3)
这个是它的方差
那么在H0成立的情况下
我们可以去计算一个Z分数
这个Z分数就是Zr减去Z0它的分数
那么其中Zp就是这个式子
就是它就是你所假设的ρ等于ρ0的情况下
ρ0进行fisher Z转换后的值
Zr是我们自己你观测到的样本系数
相关系数比如0.3
你把它进行fisher Z转换后的分数
分母是1/(n-3)
N是样本量
我们可以来看一下
H0比如说我们想做这样一个假设检验
ρ等于0.10
H1是ρ大于0.10
这是一个单侧检验
我们首先进行fisher Z转换
相关系数等于0.38
这是我们基于样本计算出来的
它的fisher Z分数等于0.40
我们假设的ρ0等于0.10
它的fisher Z分数是0.10
我们可以进行Z检验等于0.40
分子部分减去0.10
然后下面应该是除以标准误
转换过来就是乘以根号下100减3
N就是100
那么它算出来等于2.955
那么对于Z检验来说
单维的α等于0.05的时候
它的临界值是1.65
所以2.955超过了1.65
也就是说单尾检验表明H0被推翻了
也就是说总体的二者的相关系数是大于0.1的
如果我们想检验总体相关系数是否等于1个
特定的值
比如说这里H0 ρ等于ρ0
ρ0为非0常数
比如说0.8
或者是0.6等等
那么这个时候相关系数的分布不是正态的
我们需要进行fisher Z转换
看一下这个示意图
横轴是相关系数
纵轴是fisher Z分数
二者并不是线性关系
当相关系数从-1变化到-0.8
也就是说只是减少了0.2而已
但是他们的fisher Z分数确从-3变换到了-1
当相关系数从-0.8变换到这里
r等于0.05的时候
这个变化是非常大的
可是它的fisher Z分数仅是从-0.11变换到了0.05
我们把相关系数可以通过这样的一个公式转
换成fisher Z分数
在H0成立的情况下
这个fisher Z分数服从正态分布
这个正态分布的均值是这样的一个式子
我们说在H0成立的情况下
也就ρ等于ρ0
我们把ρ0进行fisher Z
这个就是它的fisher Z转换后的式子
这个部分是它的方差
我们可以基于Z分布进行检验
在H0和H1计算相关系数
比如说我们计算样本的相关系数是0.3
那么我们需要把它进行fisher Z转换
把0.3转换成Zr
那么这个Zp就是ρ0所进行
转换后的式子叫Zp
我们把这两个数值代入Z检验的公式
也就是说ZR减去ZP这是分子部分
分母是标准误1/(n-3)
我们看一个例子
比如说H0 ρ小于等于ρ0
我们把它定义为0.10
H1是ρ大于0.10
我们要进行fisher Z转换
我们的相关系数r等于0.38
fisher Z转换经过公式换算等于0.40
ρ0等于0.10
我们转换成Zp等于0.10
然后进行Z检验
0.4减去0.10除以标准误转换过来
就是乘以根号下100减去3
这个100是样本容量
N等于100
算出来等于2.955
那么1.65是单尾检验的时候
它的临界值在α等于0.05的时候
临界值是1.65
我们说2.955超过了1.65
也就是单尾检验表明H0被推翻了
也就是说对总体相关系数来说
它是大于0.10的
好
我们这一节讲完了
谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业