当前课程知识点:心理统计 > 11 效应量和统计检验力 > 11.1 效应量的测量 > 11.1 效应量的测量
大家好
今天我们开始学习效应量
和统计检验力的相关知识
对于效应量和统计检验力
它也是
我们的应用统计里面特别重要的两个概念
也是在研究设计的时候我们会关注的两个概念
今天我们来看第一节效应量的测量
在这一节我们主要会重点讲以下两个问题
第一效应量概念的引入
也就是说
我们在统计里面为什么要引入效应量这个概念
那么另外就是介绍两个最常用的效应量
测量的统计指标
那么我们先来看第一个效应量概念的引入
我们先通过一个我们熟悉的例子来看一看
以往的假设检验会有什么样的问题
这个例子中我们说已知儿童的智力水平总体上
服从正态分布
总体的平均值是一百
标准差是15
那么研究者随机抽取了一些儿童
进行一项智力测验
目的是评价这一项智力测验的训练效果
我们来看一下
两种实验
研究者A抽取了25名儿童
训练一段时间后
测试得到这25名儿童的智力的平均值
是102分
那么我们要回答的问题是基于这一个
研究者A所抽取到的这样的一个数据
那么我们说训练有效果吗
我们α取0.05
同样另外一个研究者B抽取了400名儿童
然后训练了一段时间
测试得到的平均值也是102分
那么回答这个训练有效吗
那么我们知道对于这样的一个问题
它其实是属于总体是服从正态分布
并且总体的标准差是已知的这样的一个情况
我们知道在前面的假设检验里面
如果说训练无效的话
对于这一种类型的问题
我们实际上是用一个Z检验可以来解决的
那么我们看一下
如果用假设检验我们怎么来解决这个问题
说对于研究者A的结果N是等于25
均值是102
我们来算Z统计量的值
算出来Z统计量的值0.67
我们怎么来判断它有没有效果
我们会把0.67和我们α等于0.05的时候
双侧检验的这样的一个临界值去比较
也就是说如果Z的值落在了这个临界值里面
也就是说如果说它的值大于负的1.96
小于1.96 那么我们就说
我没有证据去判断这个训练是有效的
其实统计上是不显著的
所以现在这个0.67
是正好落在了接受域的这样的一个范围里面
所以我们说对于研究A
它所得到的这样的一个结果
就是在0.05的显著性水平下
训练效果是不显著的
我们再来看一下研究者B所得到的结果
同理我们说研究者B我们可以计算出来
它所对应的一个Z统计量的值2.67
然后现在2.67是大于了1.96
也就是说他是落在了这样的一个拒绝域里面
那么我们所得到的结论是什么
说在0.05的显著性水平下
那么训练效果是显著的
这就是我们说两个研究者研究者A和研究者B
所得到的这样的一个结果
那么我们来对比一下看一下
这是研究者A他的研究的样本
这是研究者B他的这样的一个样本
那么基于不同的样本
我们得到了不同的结论
基于研究者A的数据
我们的结论是训练没有效果
而基于研究者B的数据
我们的结论是训练是有显著效果的
这两个结论现在是不一致的
但是我们先来看它的样本的均值
函都是102
那么为什么我们就得到了
不一致的这样的一个结果呢
我们来看一下
在我们所计算Z统计量的时候
我们Z统计量的计算是
样本的平均值减去总体的平均值
那么我们说分母上我们除的是它的一个
标准误了
那么我们知道在均值的抽样分布里面
我们就知道这个标准误是会受到样本量
N的大小影响的
N越大
那么我们说抽样误差就越小
也就是说这个分母它就会越小
计算得到的Z的值就会越大
因此我们就知道
假设检验它所谓的显著还是不显著
统计量的值是会受到样本量的影响的
也就是说
假设检验的结果因为受到了样本量的影响
所以统计上的这种显著性
其实是没有办法告诉我们实际中这个处理
到底有没有意义的 也就是说
我只要选择样本量大我可能就能够得到统计上的显著
但是可能并不是实际上有意义的一个实验的处理
或者说一个实验的效果
正是因为这一点
我们要引入效应量的概念
我们希望这个效应量
它说在一定的显著性水平下
那么我们说假设检验它是没有办法回答我们
实际的处理效应是否有意义这一件事儿
只要说样本量足够大
可能我们就会得到统计上拒绝的这样的一个结论
那么我们希望这个效应量
它能够描述实际的意义
也就是说我们知道所谓统计上的显著效应
它并不等于我们实际中
一个有意义的处理的效应
那么样本量大
统计上这个效应可能就显著
因此我们试图去定义一个统计量
能够去描述实际差异的大小
或者说去描述实际处理的效应
到底是大还是小这一件事儿
这是我们为什么要引入效应量的概念
所以引入的效应量的概念
我们就希望它不受样本量的大小的影响
是能够表示实际关联强度的一个统计指标
那么它可以帮助我们定量的研究者去判断
统计的结果
显着以后实际的效应是否有意义这一件事儿
那么正是基于这一点
那么我们说大家就批判假设检验你的结果
你所得到的其实只是一个统计上的意义了
因此现在大多数的论文也是建议说研究者
你报告统计显著效应的同时
应该提供你的效应量的这样的一个报告
这也是为什么我们会单独拿出一个部分
来介绍效应量的概念
我们看APA的杂志上它就明确的要求
那么我们说SSCI的这样的一系列杂志
就是说你做了统计上的检验以后
你要去报告你的效应量
那么我们的心理学科的主流的杂志也是要求
就是说你要报告你的效应量的大小
那么我们知道效应量其实主要的就是
不受样本量大小的影响
试图去描述实际的实验的效果这样的一个量
这是我们说为什么要引入这样概念
那么下面对于效应量的测量来讲
统计上一般情况下会用到哪一些指标
那么我们说统计上对于效应量的这概念的引入
实际上是有很多很多种不同的指标
那么作为基础的统计部分
我这个部分重点会给大家讲
两种类型的指标那么我们来看
一个是科恩他1988年提出来的
一个Cohen d系数
或者我们简单的把它叫做Cohen d值了
就d值它是怎么定义的
他说呢
把这个d值就定义为均值的差异除以标准差
那么我们现在看到了
它下面除的是这个标准差了
那么你在检验的时候下面除的是它的标准误
那么标准误会受N的影响
但这个时候标准差它就不再受N的影响
我们再来理解一下Cohen d值
它到底是一个什么样的含义
那么在这个里面的话
他说上面我描述你的差异
然后下面我除以标准差
意味着我就是把这种差异在你标准差的尺度上
做了标准化
也就是说这种差异和你的标准差相比是多大
这样的一件事儿
这是我们说Cohen d值
对于Cohen d值
那么我们可以说是文献中报的最多的一种
关于效果量的这样的一个测量
那么同样科恩他在他的著作中
也提出来如何去判断
实际的处理效应的大小的一个标准
那么我们说对于d值他说如果d值它是小于0.2的
那么这个处理其实是一个小的效应了
如果是介于0.2到0.8之间的
也有的书上去说0.5
那么它就是一个中等的效应
如果大于0.8就是一个大的效应
那么基于这样的标准
我们就可以通过去计算d值了
来回答我们实际处理的这种效应
到底是有还是没有
有的话那么是大还是小这样的一件事情
这是我们说效应量的这样一个测量
我们再返回去看我们刚才的这样的一个例子
现在我们如果在计算d值的话
那么均值的差异是样本的均值减去总体的均值
下面那么我们说除以这个标准差
我们就得到他其实是一个0.13了这个值的话
那么我们说呢
它不会受到样本量的这样的一个影响
那么从这个上面来看
它其实是一个小的效应
除了Cohen d值以外
那么还有另外一个测量效应值大小的指标
它是从变异的解释的角度来定义
也就是说他说在总的你所关注的变量的
总的变异里面的话
有一些是因为实验处理而引起的
有一些是随机的偶然的误差引起的
那么在总的变异里面实验处理所导致的这种
差异有多大
这就是这个系数它所定义的一个核心
那么我们说把它用r平方来表示
所以它就是来描述你这个处理得
到底能够多大程度上去解释
你变量之间的这种变异
所以我们说r平方的定义它实际上是说
处理的效应在总的效应里面
它所占的这样的一个比例的大小
同时那么我们说呢
对于r的平方 科恩呢
也给出来了它的一个判断的标准
如果r平方的值它是0.01
那么是一个很小的效应了
如果是0.09
也就是说在你的总的变异里面
如果有大约9%的变异
是因为这个实验处理而导致的或者引起的
我们把它叫做一个中等的效应
大的效应0.25
那么就说如果你有25%的变异
都是因为实验处理效应而引起的
我们就把它叫做一个大的效应
这是我们说r平方的这样一个定义
那么当然在实际应用中
结合不同的检验的统计量
或者说结合不同的研究的问题
那么r平方或者说Cohen d值它的计算方法
都有一些差异
那么我们把这节课的内容总结一下
首先第一个问题我们就知道为什么我们要引入
效应量这样一个概念
说效应量
我们是希望它能够
测量这种实际关联的程度的大小
在这个里面我们说在结果的报告里面
除了报告假设检验的结果
同样来报告效应值
那么后面我们就讲到了两种最常用的效应值
一种是Cohen d系数
d系数其实就是在标准差的单位上
把这种差异标准化
另外的一个是r平方
也就是在总的效应里面处理效应它所占的比例
这是我们这一节课的主要内容
好 谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业