当前课程知识点:基于R语言的社会统计分析 >  第八章:两组比较和多组比较 >  8.4 比较两个相依样本的均值 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

前面我们进行了

比较以后呢你会发现我们前面

最开始的时候探讨了

相依样本和独立样本的

前面的两个例子讲的都是独立样本

现在我需要面对一下相依样本的问题了

所以我们看看再回顾一下什么是相依样本

也就是当样本

1中的每个观测值

都与样本2中的每个观测值匹配的时候

相依样本就形成了

那由于这个匹配的缘故

来自相依样本的数据有时候也被称为

配对数据我们有的时候直接管它叫做matched pairs

配对数据

相依的两个样本中呢

有相同的或相关的研究对象

可以说并不一定百分之百相同我们说来自于

同一个家庭

夫妇啊或者双胞胎啊他们之间

有可能是相关的

你也可以把这个单元想得更大一点

可能来自于同一个社区同一个城市的人之中

也会存在某种程度的相关性

那前面所说的追踪研究所产生的样本是相关的

那另一种类型的相依样本的发生于

对同一个研究对象进行两种不同的刺激和干预

在实验研究里

我们经常

用不同的刺激去刺激同一个人

这种研究叫做交叉型研究

叫做cross-over study

我们来看一个也是很有意思的例子啊现在大家都很喜欢

当低头族当然和这个例子不太一样它是

研究

打电话就是在开车的时候打电话

对司机的反应时间有没有影响呢

同样要给大家

灌输一个概念当我们认为一个问题很重要的时候

我们很武断地给出一个结论是不可以的

我们觉得打电话不好啊可能会影响司机的反应时间大家

常理上都会这么认为

但到底是不是这样仍然需要一个严谨的试验来证明

于是乎美国人又很勤劳的做了一个实验啊

也就是手机使用和司机反应的时间之间的关系

这个实验呢用的是一个大学生的样本

它用大学生样本来检测手机使用是否

会削弱司机的反应时间

它用的是一个

模拟的驾驶环境

也就是在一个模拟驾驶环境机器上

用时间周期不规律的目标

快速发出红色或绿色的灯

就一直再给你发信号有的时候红有的时候绿而且这个

红绿相间的时间是不规律的

那当被试对象发现红灯的时候

他们就要求去按一个制动按钮

这就模拟我们开车的时候踩刹车的那个过程见红灯就要踩刹车

所以它一直红绿灯转换等着人去

按按钮

于是乎你会想到它会有两个实验条件

第一种他使用手机的条件下就是

而且很有意思它

有是有很具体的指示

它要求学生使用手机

和另一个屋子里的人进行有关政治议题方面的交谈

还不能普通的还不能闲聊要

探讨政治议题

这是它的实验组就是实际上想证明

不好的那组那另外在控制组

就是控制条件下呢在进行模拟驾驶时

他们同时收听无线电广播或者是磁带

就它并不是说让司机就专心看红绿灯它是比较公平的

就是大部分人在开车的时候可能听广播

于是说控制组变成这个

听广播或者是磁带的状态

那对于每个学生他记录

几次实验中他们反映的平均时间

它可能让

每个学生去反映三次到四次啊

它为了让这个样本具有足够的代表性

它会对每次的反应时间求一个均值

一般情况下这个均值的单位是毫秒

这个时候你会想到不管在控制组还是在实验组中

这个做出反应的是同一个学生

所以这个配对就出现了这就是我们所说的交叉型试验

关于交叉型试验作比较的时候我们要怎么比较呢

好因为时间关系呢

这个交叉型研究实验里面的这个

手机使用还有司机的反应时间的例子里面的计算细节

请大家如果有兴趣的话可以阅读

我们课程参考书《社会科学统计方法》那个

Alan Agresti里面的《社会科学统计方法》里面的

解释啊然后我们

这里面呢

给大家演示一下怎么用R软件来做这样一个

交叉型试验或者是相依样本的T检验

数据这个例子中的数据呢

我会上传到我们的课程文件里

我们看我们用到的这个excel

叫做phone data

非常非常简单的文件一共有三十二个观测值啊

然后no代表的是没有使用手机

yes代表的是使用手机了

然后diff代表的是使用和没有使用的

观察对象研究对象的差异啊

单位都是毫秒

基本数据长成这样后来我又把它存成了csv文件就是

每一个数据之间csv文件都是用逗号来隔开的

这个过程就不演示了啊直接给大家看一下

本周的R语言的

我首先要让R把数据读进去

我前面说我存成了csv文件所以用到的函数就是read.csv

然后

路径的话根据你自己电脑的储存路径不同啊数据下到哪了就

读哪个文件

然后一定要告诉它说header=true

说明

你就告诉R软件第一行代表的是变量名

好我把它读进去没有问题是蓝色的

然后你又觉得

心里头有点紧张啊不知道

数据到底有没有成功读进去我可以查一下

直接打mobile看看我的数据长成什么样子很规整那下面我们继续啊

之前我们举例子的时候我们用了一个美元的

dollar sign 来

代表我要

去哪个数据中找哪个

变量

如果我比较懒我直接可以用attached这个函数

attached这个意思是说

我现在

就把这套数据

赋在了R的这个

记忆中然后

每次我搜索的时候它直接去找

这个数据里面的变量所以

后边打任何变量名的时候我就不需要美元符号了

然后下面我想做一个特别简单的描述统计

我就想看看使用手机和没有使用手机之间中位数有什么区别

他们总体的

分布长成什么样我用boxplot

我们用boxplot以后出现了这张图

1

你可以看出1这个总体或者1这个样本

和2这个样本相比呢它的这个中位数显然更高

然后我

很崩溃你这个1和2分别代表的是什么呢

我下面对这个boxplot做一个更

严谨的处理我把它这个明明都明明好了啊yes代表的是

使用手机no代表的是没使用手机那

yes代表的是cell phone我这里面给它起名names=cell phone

然后no代表的是no cell phone

x轴我给它起名是reaction time然后我还不喜欢这个

boxplot这样竖着我想把它横过来

那你可以告诉

boxplot这个函数

加一个参数啊horizontal=T就是说要把它横过来就是要

呈现一个水平的图形那这个图形就长成这样

可能有同学觉得这样可能更

更顺眼了一点啊然后那个reaction time看不到的话你稍微

挪一下图行啊就出现了啊reaction time

然后你可以看到

用cell phone这一组

他们的平均反应时间显然要比不用cell phone这一组时间要

要高一些当然还有一个异常值

可能有一个人可能他实在是反应很慢啊

无论如何就是用不用手机他都比别人慢好多

那这是用描述统计的方法来看一看它们大致的区别现在我要检验了

我想知道这个样本区别是根据样本随机性引起的呢

还是因为总体确实不同

那用到的是T test这个没有问题

然后两个变量yes这个变量和no这个变量进去以后

只需要和之前的T text有一个不同叫

告诉它paired=true

要告诉R说我现在这个样本是配对样本

然后结论它就告诉你了啊它说

t

检验的

检验统计量等于5.13P值等于1.475乘以10的-5次方

很接近很接近0了啊

那也就是说在原假设为真的情况下

得到这样的样本的

差异

显然是不太可能的所以我们就要拒绝原假设认为

两总体的均值是不相等的

那如果说我还有更明确的目的我是想证明

用了手机就会比

不用手机的反应时间长你这个时候的备择假设

可以就把它变成greater就是yes大于no

那alternative加了一个greater以后

你看到这里面它会写到

alternative hypothesis true difference in means

is greater than 0

然后

检验统计量是一样的

自由度也一样唯一不同的我们看P value

是有所不同的其实它应该

等于前面的P value除以2

好这是怎么样用R语言

来帮我们做一个配对样本的T检验

我们前面讲到了独立样本和相依样本

的情况下怎么进行两组比较

那你可能已经发现了啊

在有选择的情况下你认为哪种样本进行的比较更合理呢

答案很清楚啊应该是相依样本

原因我们总结一下

第一个原因呢就是我们可预见的潜在偏差被控制了

比如说

同样我们都是在研究反应时间的差异

这次我们不用cross-over study 我们改用独立样本

那么反应时间的差别呢可能就由两组

实验的参与者本身的反应时间不同而引起的

我们在说具体一点比如说我控制组用了一组大学生

那我的实验组用了一组可能平均年龄呢在40岁左右的人

然后得出一个结论说

控制组那个不用手机的组反应速度要快

那你可不可以得出一个结论

说实验组反应慢确实是因为手机引起的呢

我们完全可以有人跳出来说不一定那是因为

实验组本身年龄偏大它们本身的反应速度就慢一点

所以这是第一个原因啊

第二个从统计上可以证明相依样本的

样本均值差异的标准误

是远远小于独立样本的

同样我们还手机使用

和司机反应时间为例

我们假设同样的数据

不是相依样本而是从独立样本中获得的

那么均值差异的标准误

就不是9.3而是19.7了

只是一个这样的例子你会发现

标准误就大了一倍啊

那这种

这个标准误是我们最讨厌的我们不希望标准误变大

标准误越大说明

样本和样本之间差异越大说明

我们的样本代表性就不足了

所以第二个

如果你使用了相依样本标准误可以被控制住也是一件特别棒的事情

这是关于独立样本和相依样本的选择

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。