当前课程知识点:基于R语言的社会统计分析 > 第八章:两组比较和多组比较 > 8.4 比较两个相依样本的均值 > Video
前面我们进行了
比较以后呢你会发现我们前面
最开始的时候探讨了
相依样本和独立样本的
前面的两个例子讲的都是独立样本
现在我需要面对一下相依样本的问题了
所以我们看看再回顾一下什么是相依样本
也就是当样本
1中的每个观测值
都与样本2中的每个观测值匹配的时候
相依样本就形成了
那由于这个匹配的缘故
来自相依样本的数据有时候也被称为
配对数据我们有的时候直接管它叫做matched pairs
配对数据
相依的两个样本中呢
有相同的或相关的研究对象
可以说并不一定百分之百相同我们说来自于
同一个家庭
夫妇啊或者双胞胎啊他们之间
有可能是相关的
你也可以把这个单元想得更大一点
可能来自于同一个社区同一个城市的人之中
也会存在某种程度的相关性
那前面所说的追踪研究所产生的样本是相关的
那另一种类型的相依样本的发生于
对同一个研究对象进行两种不同的刺激和干预
在实验研究里
我们经常
用不同的刺激去刺激同一个人
这种研究叫做交叉型研究
叫做cross-over study
我们来看一个也是很有意思的例子啊现在大家都很喜欢
当低头族当然和这个例子不太一样它是
研究
打电话就是在开车的时候打电话
对司机的反应时间有没有影响呢
同样要给大家
灌输一个概念当我们认为一个问题很重要的时候
我们很武断地给出一个结论是不可以的
我们觉得打电话不好啊可能会影响司机的反应时间大家
常理上都会这么认为
但到底是不是这样仍然需要一个严谨的试验来证明
于是乎美国人又很勤劳的做了一个实验啊
也就是手机使用和司机反应的时间之间的关系
这个实验呢用的是一个大学生的样本
它用大学生样本来检测手机使用是否
会削弱司机的反应时间
它用的是一个
模拟的驾驶环境
也就是在一个模拟驾驶环境机器上
用时间周期不规律的目标
快速发出红色或绿色的灯
就一直再给你发信号有的时候红有的时候绿而且这个
红绿相间的时间是不规律的
那当被试对象发现红灯的时候
他们就要求去按一个制动按钮
这就模拟我们开车的时候踩刹车的那个过程见红灯就要踩刹车
所以它一直红绿灯转换等着人去
按按钮
于是乎你会想到它会有两个实验条件
第一种他使用手机的条件下就是
而且很有意思它
有是有很具体的指示
它要求学生使用手机
和另一个屋子里的人进行有关政治议题方面的交谈
还不能普通的还不能闲聊要
探讨政治议题
这是它的实验组就是实际上想证明
不好的那组那另外在控制组
就是控制条件下呢在进行模拟驾驶时
他们同时收听无线电广播或者是磁带
就它并不是说让司机就专心看红绿灯它是比较公平的
就是大部分人在开车的时候可能听广播
于是说控制组变成这个
听广播或者是磁带的状态
那对于每个学生他记录
几次实验中他们反映的平均时间
它可能让
每个学生去反映三次到四次啊
它为了让这个样本具有足够的代表性
它会对每次的反应时间求一个均值
一般情况下这个均值的单位是毫秒
这个时候你会想到不管在控制组还是在实验组中
这个做出反应的是同一个学生
所以这个配对就出现了这就是我们所说的交叉型试验
那
关于交叉型试验作比较的时候我们要怎么比较呢
好因为时间关系呢
这个交叉型研究实验里面的这个
手机使用还有司机的反应时间的例子里面的计算细节
请大家如果有兴趣的话可以阅读
我们课程参考书《社会科学统计方法》那个
Alan Agresti里面的《社会科学统计方法》里面的
解释啊然后我们
这里面呢
给大家演示一下怎么用R软件来做这样一个
交叉型试验或者是相依样本的T检验
数据这个例子中的数据呢
我会上传到我们的课程文件里
我们看我们用到的这个excel
叫做phone data
非常非常简单的文件一共有三十二个观测值啊
然后no代表的是没有使用手机
yes代表的是使用手机了
然后diff代表的是使用和没有使用的
观察对象研究对象的差异啊
单位都是毫秒
基本数据长成这样后来我又把它存成了csv文件就是
每一个数据之间csv文件都是用逗号来隔开的
这个过程就不演示了啊直接给大家看一下
本周的R语言的
我首先要让R把数据读进去
我前面说我存成了csv文件所以用到的函数就是read.csv
然后
路径的话根据你自己电脑的储存路径不同啊数据下到哪了就
读哪个文件
然后一定要告诉它说header=true
说明
你就告诉R软件第一行代表的是变量名
好我把它读进去没有问题是蓝色的
然后你又觉得
心里头有点紧张啊不知道
数据到底有没有成功读进去我可以查一下
直接打mobile看看我的数据长成什么样子很规整那下面我们继续啊
之前我们举例子的时候我们用了一个美元的
dollar sign 来
代表我要
去哪个数据中找哪个
变量
如果我比较懒我直接可以用attached这个函数
attached这个意思是说
我现在
就把这套数据
赋在了R的这个
记忆中然后
每次我搜索的时候它直接去找
这个数据里面的变量所以
后边打任何变量名的时候我就不需要美元符号了
然后下面我想做一个特别简单的描述统计
我就想看看使用手机和没有使用手机之间中位数有什么区别
他们总体的
分布长成什么样我用boxplot
我们用boxplot以后出现了这张图
1
你可以看出1这个总体或者1这个样本
和2这个样本相比呢它的这个中位数显然更高
然后我
很崩溃你这个1和2分别代表的是什么呢
我下面对这个boxplot做一个更
严谨的处理我把它这个明明都明明好了啊yes代表的是
使用手机no代表的是没使用手机那
yes代表的是cell phone我这里面给它起名names=cell phone
然后no代表的是no cell phone
x轴我给它起名是reaction time然后我还不喜欢这个
boxplot这样竖着我想把它横过来
那你可以告诉
boxplot这个函数
加一个参数啊horizontal=T就是说要把它横过来就是要
呈现一个水平的图形那这个图形就长成这样
可能有同学觉得这样可能更
更顺眼了一点啊然后那个reaction time看不到的话你稍微
挪一下图行啊就出现了啊reaction time
然后你可以看到
用cell phone这一组
他们的平均反应时间显然要比不用cell phone这一组时间要
要高一些当然还有一个异常值
可能有一个人可能他实在是反应很慢啊
无论如何就是用不用手机他都比别人慢好多
那这是用描述统计的方法来看一看它们大致的区别现在我要检验了
我想知道这个样本区别是根据样本随机性引起的呢
还是因为总体确实不同
那用到的是T test这个没有问题
然后两个变量yes这个变量和no这个变量进去以后
只需要和之前的T text有一个不同叫
告诉它paired=true
要告诉R说我现在这个样本是配对样本
然后结论它就告诉你了啊它说
t
检验的
检验统计量等于5.13P值等于1.475乘以10的-5次方
很接近很接近0了啊
那也就是说在原假设为真的情况下
得到这样的样本的
差异
显然是不太可能的所以我们就要拒绝原假设认为
两总体的均值是不相等的
那如果说我还有更明确的目的我是想证明
用了手机就会比
不用手机的反应时间长你这个时候的备择假设
可以就把它变成greater就是yes大于no
那alternative加了一个greater以后
你看到这里面它会写到
alternative hypothesis true difference in means
is greater than 0
然后
检验统计量是一样的
自由度也一样唯一不同的我们看P value
是有所不同的其实它应该
等于前面的P value除以2
好这是怎么样用R语言
来帮我们做一个配对样本的T检验
我们前面讲到了独立样本和相依样本
的情况下怎么进行两组比较
那你可能已经发现了啊
在有选择的情况下你认为哪种样本进行的比较更合理呢
答案很清楚啊应该是相依样本
原因我们总结一下
第一个原因呢就是我们可预见的潜在偏差被控制了
比如说
同样我们都是在研究反应时间的差异
这次我们不用cross-over study 我们改用独立样本
那么反应时间的差别呢可能就由两组
实验的参与者本身的反应时间不同而引起的
我们在说具体一点比如说我控制组用了一组大学生
那我的实验组用了一组可能平均年龄呢在40岁左右的人
然后得出一个结论说
控制组那个不用手机的组反应速度要快
那你可不可以得出一个结论
说实验组反应慢确实是因为手机引起的呢
我们完全可以有人跳出来说不一定那是因为
实验组本身年龄偏大它们本身的反应速度就慢一点
所以这是第一个原因啊
第二个从统计上可以证明相依样本的
样本均值差异的标准误
是远远小于独立样本的
同样我们还手机使用
和司机反应时间为例
我们假设同样的数据
不是相依样本而是从独立样本中获得的
那么均值差异的标准误
就不是9.3而是19.7了
只是一个这样的例子你会发现
标准误就大了一倍啊
那这种
这个标准误是我们最讨厌的我们不希望标准误变大
标准误越大说明
样本和样本之间差异越大说明
我们的样本代表性就不足了
所以第二个
如果你使用了相依样本标准误可以被控制住也是一件特别棒的事情
这是关于独立样本和相依样本的选择
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video