当前课程知识点:基于R语言的社会统计分析 >  第八章:两组比较和多组比较 >  8.1 预备知识 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

在社会学和行为科学中呢

比较两个组别是特别常见的一种统计分析方法

在性别研究中

比如说一项研究呢可能会研究从事

类似工作的

工作经验类似的

然后学历也类似的

男性和女性他们的收入是不是相同

看是不是有性别歧视的问题

那在一项社会学研究中呢

人们可能关注

城市居民和农村居民的幸福感是不是相同

那在流行病学的研究中

我们可能会关注不同组别的人群中

比如说他们的预期寿命还有他们疾病的发病率是不是一样

很多时候我们都希望关注

我们的目标变量或者结果变量

在不同的组别之内的取值是不是一样

那对于数值型的变量

我们通常会关注

两组的均值是不是一样

那对于分类型变量呢

你们肯定都已经很快可以猜到

我们关注的是比例

我想知道不同组别的比例是不是一样

那下面呢我们就分别的来介绍

比较均值还有比较比例的方法

当然在介绍之前

我们需要先用一些预备知识来

总结一些基本的概念

我们先来看一个例子

这个例子是关于做家务的例子

英国有一个实践调查

它调查男性和女性在家务
英国有一个实践调查

它调查男性和女性在家务

劳动上这个花时间的问题

女人会比男人花更多的时间做家务吗

如果是那么多多少呢

2005年的时候英国的时间使用调查通过

一个英国人的随机样本

研究了英国人在

他们典型的一天中是如何使用他们的时间的

他的研究对象是那些有全职工作的人

就是家庭主妇我们就把她刨到

样本以外了

那我们看到的这张表

它就记录了男性和女性每天分别花在

烹饪和洗涤上

平均的分钟数的均值还有标准差

然后我们就可以借由这个表格呢来了解一下在

比较两组均值和两组比例的时候

我们会使用的一些概念

那很简单的我们先看看这张表

男性一共有1219个研究对象

那女性呢有733个人

你乍一看就会发现男性的均值是23

然后女性的均值

花在烹饪和洗涤上的时间是37

然后你再看标准差

我们说标准差研究的是

总体之中的

每个观测值的离散程度

也就是说每个人和每个人之间有多不同

你会看到男性和男性之间的差别很大

他们的标准差是32

是女性离散程度的2倍

也就是说女性的发挥是比较稳定的

而男性呢

是不是能够这个在

烹饪和洗涤上花时间的就很不一样了

这是一个例子

实际上我们就是关注的是

不同组别组别就是男性女性咯

他们的家务时间是不是一样

那两个参与比较的组

这个组别很自然的就构成了一个二分变量

英文对应的这个表达是

binary variable/dichotomous variable

那在比较男女家务劳动的这个例子中

我们的组别就是性别性别只有

男和女所以这是一个两组比较

那两组比较实际上是

二元分析的一种类型

二元分析叫bivariate analysis关注的是

两个变量之间的关系

我们在研究两个变量之间关系的时候

有好多好多种方法那

其中当一个变量

也就是我们的关注的那个变量那个

结果变量是

定量型是数值型的时候

而当解释的那个变量是组别的时候

我们就回归到了两组比较的问题

那两组比较呢就是对

某种类型的结果变量的分析

是根据另一个变量的不同分类进行的

我们所关注的

也就是实际上进行比较的那个结果变量

叫做响应变量

它是如果是看书上的定义

它说an outcome variable about which comparisons are made

is called a response variable

那定义组别的那个变量

叫做解释变量就是

我实际上是在探寻因果的过程中找原因

那the variable that defines the groups is called

explanatory variable 解释变量

那回到之前那个例子

我的解释变量是什么

解释变量是性别

我就想知道性别是不是

家务劳动时间不同的原因

下面还有一个很重要的一组概念

叫做相依样本和独立样本

相依样本的英文是

dependent samples

独立样本呢是independent samples

某些研究呢在两个或多个时间点上

比较均值和比例

这种研究呢是纵向研究

其实我们在第一节课举很多

社会调查例子上已经举了很多的

追踪调查的例子

这种纵向研究呢实际上我追同一个人

每两年问他一次

那我们可以想象这一个人的记录会在

不同的样本中出现

这种时候我们能说样本是完全独立的吗

每个样本中都有相同的人

所以说样本不可能做到独立

这个时候我们管它叫做相依样本

也就是说这类研究所收集的样本

在不同的时间点的研究对象是相同的

称为相依样本

那更广义的说并不一定说

样本里有一模一样的研究对象就说它是相依样本

相依样本其实还有更广义的定义

比如说

这个研究对象是来自同一个家庭的

我们想象夫妻之间可能会有一定的相关性

要胖一起胖要瘦一起瘦

然后呢还有

最最常用的相依样本是双胞胎

我们说双胞胎在基因上基本上一致的

如果把双胞胎的这个

两兄弟两姐妹放到不同的样本中

那这两个样本就不可能做到完全独立了

同样我们对家庭成员夫妻双胞胎的这些个

样本呢称为

相依样本

也就是说当不同样本的研究对象

发生了某种自然匹配的时候

样本就成了相依样本

当然

更多数的情况样本是独立的

这种独立呢也就是说一个样本中的观测对象

独立于另一个样本的观测对象

比如说我们刚才刚刚讲的那个时间调查的例子

我们

前面有一个前提假设就是说我调查的人一户只找一个代表

所以我得到的男性女性呢

必然不会是两口子

所以我们认为两个样本是相互独立的

那假设我想评估

你们可以想象

假设我想评估一种新的教学方法

是不是能够提升学生的

学习成绩

有两种设计

相依样本和独立样本的设计是不同的

假设说我用相依样本你会怎么设计

那我就到一个班

然后再用这种

新的方法新的这个教学方法之前

我考他们一下然后

我再对他们进行干预

我对他们进行这个密集辅导

辅导了比如说三个月以后我再试试

重新考他们一下看看学习成绩会不会有所提高

之前和之后如果我问的都是同一个班的同学

那他自然的就构成了相依样本

那另外还有一种方法

我把同一个班级的学生随机的

分成两组

一组就是比如说用

计算机生成随机数

就是如果生成了1这个人就进了第一组

如果生成2这个人就进了第二组

那我们就生成了两个

完全独立的随机样本所以

同样是

检验一种新的教学方法

是不是能够提高学生的学习成绩

我可以构建相依样本和独立样本

两种不同的样本设计

那刚才所说的这种设计呢

实际上是属于实验性的研究

我们大多数的社科研究

我们第一节课就讲说

大多数的社科研究我们研究条件不足

很多时候有这个研究伦理的问题

还有各种各样复杂的问题混淆变量的问题

我们的研究一般都是

观察性的

也就是我们很被动的去对研究对象进行访谈

那观察性研究

我们经常会用到的一种数据叫做

cross-sectional data横截面数据

或者直接叫横断面数据截面数据怎么翻译都有

这种研究呢

是在某一个特定时间内

对某一范围内的人群

以个人为单位收集和描述人群的特征

这种时候

如果说我每一次抽样抽的都是随机样本的话

那我得来的自然一般情况下都是独立样本

也就是说对一个横截面研究

如果样本是以随机抽取的

那么来自这个研究样本的子样本

通常就是随机样本是独立样本

那为什么我非要

花这么多时间去区分相依样本和独立样本呢

我们后面又涉及到一个用

样本的

估计值去估计总体的问题

用样本的特征去估计总体特征的问题

但凡要用

抽到的样本去估计总体我要关注抽样分布

我要关注抽样的标准误

那不同的样本之间它的标准误是不一样的

我们可以想象这个你们

直觉上来想谁的标准误会更大一点

如果是

独立样本的话人和人本身就有很大的变异性

那它的标准误应该会比相依样本会

会大

后面我们会用数学的关系来证明

下面呢我们就来讲讲估计值的差异

还有差异的标准误

好如果想比较科学的

比较两组均值的差异

那么我们需要首先了解差异的

点估计还有它的标准误

那点估计其实很简单

假设说我们有两个样本

样本一还有样本二

那它们两个样本的均值呢分别是y1(bar)等于

就是第一个样本的均值

它就是

第一个样本中所有的观测值都加起来然后

再除以第一个样本的样本量n1

那y2(bar)呢以此类推也是

第二个样本所有的观测值加和

再除以第二个样本的样本量n2

然后很直接的我们把

y1(bar)减去y2(bar)

算出来就构成了总体差异

μ1减μ2的点估计

这个很直接

然后下面呢

那两个点估计差异的标准误

怎么来计算呢

如果说第一个样本

的标准误是用se1来表示

standard error one

然后第二个样本的估计标准误用se2

来表示

我们有一个非常重要的前提

就是要求两个样本相互独立

只有在两个样本相互独立的条件下

我们才有下面这个关于差异抽样分布的结论

也就是我们认为

se12就等于se1的平方加上se2的平方再开根号

那se1se2

实际上咱们前面也有讲过很多次了

下面我们再复习一下

对于每一个样本来说

样本均值的估计标准误se

就等于样本标准差除以根号n

那把这个s除以根号n代进去刚才那个公式呢

我们就有两样本

差异y1(bar)减y2(bar)的

估计标准误就等于n1分之s1方

加上n2分之s2的平方

再开根号

然后到这有同学感到非常困扰

就说我这个两个样本差异明明是两样本相减

为什么会离散程度相加呢

数学上好证明

但是直观上我想跟大家

给大家举一个例子

假设说

我有两个总体这两个总体的

或者是两个总体的均值确实相等

我们就说μ1等于μ2等于30

那即使是这两个总体的离散程度相同

也有可能通过抽样的这个活动

每次抽样都带来随机性

我今天抽了个样本可能是

在均值以下明天抽的样本在均值以上

可能从第一个样本抽了一个

抽出了一个样本算出样本均值刚好是小于

总体均值等于23

那第二样本呢其实

都是7左右的偏差但是第二样本是高了

就是同样的

离散程度但有可能

一个样本抽出了23是小于

30减7

另一个样本呢是30加7

然后下面呢我用两个这个

我把两个样本均值相减

这个时候离散程度就叠加了

这是用直观的思路给大家讲讲

为什么两个样本的

离散程度是叠加的

下面我们来讲另一个问题叫做参数的

比例

刚才我们研究估计值差异的时候

实际上用的是减法

也就是我想了解两个样本有多不同

我直接相减就好了

那有的时候

减法没那么好用

我想我偏偏想用除法

比较两个比例或者两个均值的另一个方法

就是使用它们的比率

如果用相除的方法

当参数相等的时候

比例就等于1

然后比例离1越远

说明这两个数越不同对吧

说明如果是看这个

分组对于结果变量的影响的话

那说明组别的效果就越大

那两个比例的比率

称为相对风险

如果

分子和分母都是比例

我两个相比以后称为相对风险

这个相对风险可能在社会学的研究中

用的并不多

它更常用呢是在公共卫生领域

公共卫生呢通常关注两个不想要的结果

比如说它会关注

中风的发病率

它会关注各种糖尿病的发病率

然后我会关注在城市和农村中

两种发病率的区别

于是乎我就选择用比例的方法

为什么用比率而不用

差异

不用直接的减法呢我们看一个例子

根据美国最近的数据

它说在美国呢

每年的枪杀的比率是62.4人

每百万居民

每一百万个人会发生62.4起枪杀

如果我非说

那你的这个枪杀率是多少那就是0.0000624

那在英国呢

英国说它的枪杀比率是1.3个人每百万居民

枪杀率就是0.00000五个0

13

如果说我很执拗

我偏要看两个比例间的差异

也就是我就想让它相减看一看

有多大差别

我用这个一大堆0624减去0.00000

13

得出0.000611

我问你得出什么样的信息了

首先第一个信息

我肯定能得出是

美国的枪杀率比英国的枪杀率要高

但高了多少呢

这个小数点后面这么多个零我已经感觉很凌乱了

这个时候就需要看比例

那如果是用比例的方法两个数一比

这个信息就很清楚了

我可以说

美国的枪杀率是英国的48倍

这带给你的信息和前面那个0.0000611就很不一样了

所以

当我的两个参加

比较的这个比例都很小尤其是当这个比例都

非常接近于零的时候

人们更倾向于

对比率进行比较

我们就看比率而不看差别了

但是现在呢我们还是要看看

差别来怎么计算

首先

刚才把那些概念的事情都弄清楚了以后我们来看看

两个

两个分组比例的区别比较两组比例

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。