当前课程知识点:基于R语言的社会统计分析 > 第八章:两组比较和多组比较 > 8.1 预备知识 > Video
在社会学和行为科学中呢
比较两个组别是特别常见的一种统计分析方法
在性别研究中
比如说一项研究呢可能会研究从事
类似工作的
工作经验类似的
然后学历也类似的
男性和女性他们的收入是不是相同
看是不是有性别歧视的问题
那在一项社会学研究中呢
人们可能关注
城市居民和农村居民的幸福感是不是相同
那在流行病学的研究中
我们可能会关注不同组别的人群中
比如说他们的预期寿命还有他们疾病的发病率是不是一样
很多时候我们都希望关注
我们的目标变量或者结果变量
在不同的组别之内的取值是不是一样
那对于数值型的变量
我们通常会关注
两组的均值是不是一样
那对于分类型变量呢
你们肯定都已经很快可以猜到
我们关注的是比例
我想知道不同组别的比例是不是一样
那下面呢我们就分别的来介绍
比较均值还有比较比例的方法
当然在介绍之前
我们需要先用一些预备知识来
总结一些基本的概念
我们先来看一个例子
这个例子是关于做家务的例子
英国有一个实践调查
它调查男性和女性在家务
英国有一个实践调查
它调查男性和女性在家务
劳动上这个花时间的问题
女人会比男人花更多的时间做家务吗
如果是那么多多少呢
2005年的时候英国的时间使用调查通过
一个英国人的随机样本
研究了英国人在
他们典型的一天中是如何使用他们的时间的
他的研究对象是那些有全职工作的人
就是家庭主妇我们就把她刨到
样本以外了
那我们看到的这张表
它就记录了男性和女性每天分别花在
烹饪和洗涤上
平均的分钟数的均值还有标准差
然后我们就可以借由这个表格呢来了解一下在
比较两组均值和两组比例的时候
我们会使用的一些概念
那很简单的我们先看看这张表
男性一共有1219个研究对象
那女性呢有733个人
你乍一看就会发现男性的均值是23
然后女性的均值
花在烹饪和洗涤上的时间是37
然后你再看标准差
我们说标准差研究的是
总体之中的
每个观测值的离散程度
也就是说每个人和每个人之间有多不同
你会看到男性和男性之间的差别很大
他们的标准差是32
是女性离散程度的2倍
也就是说女性的发挥是比较稳定的
而男性呢
是不是能够这个在
烹饪和洗涤上花时间的就很不一样了
这是一个例子
实际上我们就是关注的是
不同组别组别就是男性女性咯
他们的家务时间是不是一样
那两个参与比较的组
这个组别很自然的就构成了一个二分变量
英文对应的这个表达是
binary variable/dichotomous variable
那在比较男女家务劳动的这个例子中
我们的组别就是性别性别只有
男和女所以这是一个两组比较
那两组比较实际上是
二元分析的一种类型
二元分析叫bivariate analysis关注的是
两个变量之间的关系
我们在研究两个变量之间关系的时候
有好多好多种方法那
其中当一个变量
也就是我们的关注的那个变量那个
结果变量是
定量型是数值型的时候
而当解释的那个变量是组别的时候
我们就回归到了两组比较的问题
那两组比较呢就是对
某种类型的结果变量的分析
是根据另一个变量的不同分类进行的
我们所关注的
也就是实际上进行比较的那个结果变量
叫做响应变量
它是如果是看书上的定义
它说an outcome variable about which comparisons are made
is called a response variable
那定义组别的那个变量
叫做解释变量就是
我实际上是在探寻因果的过程中找原因
那the variable that defines the groups is called
explanatory variable 解释变量
那回到之前那个例子
我的解释变量是什么
解释变量是性别
我就想知道性别是不是
家务劳动时间不同的原因
下面还有一个很重要的一组概念
叫做相依样本和独立样本
相依样本的英文是
dependent samples
独立样本呢是independent samples
某些研究呢在两个或多个时间点上
比较均值和比例
这种研究呢是纵向研究
其实我们在第一节课举很多
社会调查例子上已经举了很多的
追踪调查的例子
这种纵向研究呢实际上我追同一个人
每两年问他一次
那我们可以想象这一个人的记录会在
不同的样本中出现
这种时候我们能说样本是完全独立的吗
每个样本中都有相同的人
所以说样本不可能做到独立
这个时候我们管它叫做相依样本
也就是说这类研究所收集的样本
在不同的时间点的研究对象是相同的
称为相依样本
那更广义的说并不一定说
样本里有一模一样的研究对象就说它是相依样本
相依样本其实还有更广义的定义
比如说
这个研究对象是来自同一个家庭的
我们想象夫妻之间可能会有一定的相关性
要胖一起胖要瘦一起瘦
然后呢还有
很
最最常用的相依样本是双胞胎
我们说双胞胎在基因上基本上一致的
如果把双胞胎的这个
两兄弟两姐妹放到不同的样本中
那这两个样本就不可能做到完全独立了
同样我们对家庭成员夫妻双胞胎的这些个
样本呢称为
相依样本
也就是说当不同样本的研究对象
发生了某种自然匹配的时候
样本就成了相依样本
当然
更多数的情况样本是独立的
这种独立呢也就是说一个样本中的观测对象
独立于另一个样本的观测对象
比如说我们刚才刚刚讲的那个时间调查的例子
我们
前面有一个前提假设就是说我调查的人一户只找一个代表
所以我得到的男性女性呢
必然不会是两口子
所以我们认为两个样本是相互独立的
那假设我想评估
你们可以想象
假设我想评估一种新的教学方法
是不是能够提升学生的
学习成绩
有两种设计
相依样本和独立样本的设计是不同的
假设说我用相依样本你会怎么设计
那我就到一个班
然后再用这种
新的方法新的这个教学方法之前
我考他们一下然后
我再对他们进行干预
我对他们进行这个密集辅导
辅导了比如说三个月以后我再试试
重新考他们一下看看学习成绩会不会有所提高
那
之前和之后如果我问的都是同一个班的同学
那他自然的就构成了相依样本
那另外还有一种方法
我把同一个班级的学生随机的
分成两组
一组就是比如说用
计算机生成随机数
就是如果生成了1这个人就进了第一组
如果生成2这个人就进了第二组
那我们就生成了两个
完全独立的随机样本所以
同样是
检验一种新的教学方法
是不是能够提高学生的学习成绩
我可以构建相依样本和独立样本
两种不同的样本设计
那刚才所说的这种设计呢
实际上是属于实验性的研究
我们大多数的社科研究
我们第一节课就讲说
大多数的社科研究我们研究条件不足
很多时候有这个研究伦理的问题
还有各种各样复杂的问题混淆变量的问题
我们的研究一般都是
观察性的
也就是我们很被动的去对研究对象进行访谈
那观察性研究
我们经常会用到的一种数据叫做
cross-sectional data横截面数据
或者直接叫横断面数据截面数据怎么翻译都有
这种研究呢
是在某一个特定时间内
对某一范围内的人群
以个人为单位收集和描述人群的特征
这种时候
如果说我每一次抽样抽的都是随机样本的话
那我得来的自然一般情况下都是独立样本
也就是说对一个横截面研究
如果样本是以随机抽取的
那么来自这个研究样本的子样本
通常就是随机样本是独立样本
那为什么我非要
花这么多时间去区分相依样本和独立样本呢
我们后面又涉及到一个用
样本的
估计值去估计总体的问题
用样本的特征去估计总体特征的问题
但凡要用
抽到的样本去估计总体我要关注抽样分布
我要关注抽样的标准误
那不同的样本之间它的标准误是不一样的
我们可以想象这个你们
直觉上来想谁的标准误会更大一点
如果是
独立样本的话人和人本身就有很大的变异性
那它的标准误应该会比相依样本会
会大
后面我们会用数学的关系来证明
下面呢我们就来讲讲估计值的差异
还有差异的标准误
好如果想比较科学的
比较两组均值的差异
那么我们需要首先了解差异的
点估计还有它的标准误
那点估计其实很简单
假设说我们有两个样本
样本一还有样本二
那它们两个样本的均值呢分别是y1(bar)等于
就是第一个样本的均值
它就是
第一个样本中所有的观测值都加起来然后
再除以第一个样本的样本量n1
那y2(bar)呢以此类推也是
第二个样本所有的观测值加和
再除以第二个样本的样本量n2
然后很直接的我们把
y1(bar)减去y2(bar)
算出来就构成了总体差异
μ1减μ2的点估计
这个很直接
然后下面呢
那两个点估计差异的标准误
怎么来计算呢
如果说第一个样本
的标准误是用se1来表示
standard error one
然后第二个样本的估计标准误用se2
来表示
我们有一个非常重要的前提
就是要求两个样本相互独立
只有在两个样本相互独立的条件下
我们才有下面这个关于差异抽样分布的结论
也就是我们认为
se12就等于se1的平方加上se2的平方再开根号
那se1se2
实际上咱们前面也有讲过很多次了
下面我们再复习一下
对于每一个样本来说
样本均值的估计标准误se
就等于样本标准差除以根号n
那把这个s除以根号n代进去刚才那个公式呢
我们就有两样本
差异y1(bar)减y2(bar)的
估计标准误就等于n1分之s1方
加上n2分之s2的平方
再开根号
然后到这有同学感到非常困扰
就说我这个两个样本差异明明是两样本相减
为什么会离散程度相加呢
数学上好证明
但是直观上我想跟大家
给大家举一个例子
假设说
我有两个总体这两个总体的
或者是两个总体的均值确实相等
我们就说μ1等于μ2等于30
那即使是这两个总体的离散程度相同
也有可能通过抽样的这个活动
每次抽样都带来随机性
我今天抽了个样本可能是
在均值以下明天抽的样本在均值以上
那
可能从第一个样本抽了一个
抽出了一个样本算出样本均值刚好是小于
总体均值等于23
那第二样本呢其实
都是7左右的偏差但是第二样本是高了
就是同样的
离散程度但有可能
一个样本抽出了23是小于
30减7
另一个样本呢是30加7
然后下面呢我用两个这个
我把两个样本均值相减
这个时候离散程度就叠加了
这是用直观的思路给大家讲讲
为什么两个样本的
离散程度是叠加的
下面我们来讲另一个问题叫做参数的
比例
刚才我们研究估计值差异的时候
实际上用的是减法
也就是我想了解两个样本有多不同
我直接相减就好了
那有的时候
减法没那么好用
我想我偏偏想用除法
比较两个比例或者两个均值的另一个方法
就是使用它们的比率
如果用相除的方法
当参数相等的时候
比例就等于1
然后比例离1越远
说明这两个数越不同对吧
说明如果是看这个
分组对于结果变量的影响的话
那说明组别的效果就越大
那两个比例的比率
称为相对风险
如果
分子和分母都是比例
我两个相比以后称为相对风险
这个相对风险可能在社会学的研究中
用的并不多
它更常用呢是在公共卫生领域
公共卫生呢通常关注两个不想要的结果
比如说它会关注
中风的发病率
它会关注各种糖尿病的发病率
然后我会关注在城市和农村中
两种发病率的区别
于是乎我就选择用比例的方法
为什么用比率而不用
差异
不用直接的减法呢我们看一个例子
根据美国最近的数据
它说在美国呢
每年的枪杀的比率是62.4人
每百万居民
每一百万个人会发生62.4起枪杀
如果我非说
那你的这个枪杀率是多少那就是0.0000624
那在英国呢
英国说它的枪杀比率是1.3个人每百万居民
那
枪杀率就是0.00000五个0
13
如果说我很执拗
我偏要看两个比例间的差异
也就是我就想让它相减看一看
有多大差别
我用这个一大堆0624减去0.00000
13
得出0.000611
我问你得出什么样的信息了
首先第一个信息
我肯定能得出是
美国的枪杀率比英国的枪杀率要高
但高了多少呢
这个小数点后面这么多个零我已经感觉很凌乱了
这个时候就需要看比例
那如果是用比例的方法两个数一比
这个信息就很清楚了
我可以说
美国的枪杀率是英国的48倍
这带给你的信息和前面那个0.0000611就很不一样了
所以
当我的两个参加
比较的这个比例都很小尤其是当这个比例都
非常接近于零的时候
人们更倾向于
对比率进行比较
我们就看比率而不看差别了
但是现在呢我们还是要看看
差别来怎么计算
首先
刚才把那些概念的事情都弄清楚了以后我们来看看
两个
两个分组比例的区别比较两组比例
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video