当前课程知识点:基于R语言的社会统计分析 >  第八章:两组比较和多组比较 >  8.2 比较两组比例 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

下面我们来介绍一下如何在

统计推断的框架下去比较两组的比例

我们一说统计推断的框架下你就应该猜到

我们又要用抽样分布的知识了

那我们现在来看一个例子

我个人特别喜欢举这个例子

每次举这个例子大家上课的时候都炯炯有神的样子

这个例子呢是关于

我想研究祈祷能不能帮助

冠状动脉外科手术病人的康复

每次上课讲

这个例子的时候大家都会笑

觉得这个研究很傻

他的问题等于

你想想他就想研究祈祷这件事情

到底能不能起作用

很多同学都说

废话当然起不了作用

但是实际上呢我们

每次做一个陈述

做一个结论的时候都需要通过

科学的方法去证明

虽然有人觉得这是一个很劳民伤财的事情啊

就说我们花了这么多时间精力做了科学的设计可能

证明出了一个不言自明的道理啊

但是在我们真正得到结果之前它到底是不是

可以像你想象那样不言自明呢

那我们用统计学的方法来看看

我先把这个例子很清楚的表达一下

它是一项研究呢对在美国的

六个医院里

要接受冠状动脉旁路移植术的病人

进行观测

这个观测虽然听起来很

很荒谬

但是它的设计是非常严谨的

它把病人随机的分到了两个组织中

那对一个组呢他只派

信基督教的志愿者

为一个快速的

有益于健康恢复和无并发症的成功外科手术

做祈祷

然后他对祈祷还有很清楚的protocol

就是你一定要遵循他的指导

他说祈祷开始于做手术前的一个晚上

并且持续两周

所以每一个祈祷都是按照这样的设计来进行的

那另外呢响应的结果

也就是手术后的30天内

医学上有没有并发症的出现

所以我有两个组

一组是这些病人没有得到任何的祈祷

另一组的是很幸运的

被祈祷的病人

我想看看一个月以后并发症是不是出现了

那下面呢我们就来看看怎么样用统计学的

方法证明

并发症的比例是有区别或者是没有区别的

下面我们用比较规整的做法

假设我们用π1(hat)来表示

祈祷组的病人中呢出现并发症的概率
假设我们用π1(hat)来表示

祈祷组的病人中呢出现并发症的概率

那对应的用π2(hat)

来表示

未祈祷组病人出现并发症的概率

那么通过前面那个表

就是之前这个表
那么通过前面那个表

就是之前这个表

我们有了每一组里面

有并发症还有没有并发症的病人数

还有每一组的总数

很容易我们就可以计算出

两组样本比例分别是

π1(hat)等于0.522

还有π2(hat)等于0.509

那下面呢我们就需要用样本比例的差异

来估计总体差异

很直接又是用π2(hat)减π1(hat)

来估计π2减π1

光知道他们的差异不行

我们其实还需要了解

两比例差异的抽样分布

这个了解抽样分布又一定要了解到

两差异的估计标准误

那如果说样本量足够大

即使说

总体不是服从正态分布的我们也可以说

π2(hat)减π1(hat)

当样本量足够大的时候

近似的服从正态分布

而且均值呢就应该等于总体差异的真实均值

也就是π2减去π1

然后

差异标准误呢

se等于se1的平方

加上se2的平方就是我们之前就说的了

那下面se1和se2分别等于多少

就代入我们前面

研究总体比例的时候经常用到的那个公式

π1(hat)乘以1减π1(hat)

除以n1就是第一个

第一个样本的

标准误

然后把数字代进去就等于0.0288

这个很直接

然后下面就有一个问题了

我们知道了

两比例差异的抽样分布以后

到底应该用怎么样的方法

来研究出总体到底存不存在这个差异呢

有两种方法比较

第一种是置信区间的方法

第二种是显著性检验的方法

如果大家还记得我上节课讨论

我说有的时候可能用置信区间

比显著性检验更管用

因为置信区间呢

是一个比较客观的

对于可能取值的估计给了你一个范围

而显著性检验只是和某一个特定的值打架

也就是我在和π1

和π2是不是相等

这个值来打架

然后我们看看先看

比例差异的置信区间

置信区间的表达

和前面讲的很类似

就等于点估计加减

z得分

乘以两比例差异的标准误

就是点估计加减某一个得分乘以标准误

那标准误呢前面已经给出来了

等于0.0288

我这个里面就不再代了

然后π2减π1也是直接就可以算出来数

当然我们要注意

这个置信区间成立的条件

是要求样本足够大的

因为只有样本足够大的时候

我们才可以使用中心极限定理

我们才可以假设说

这个总体比例差异

的抽样分布是服从正态分布的

那又有同学问

多大是大呢

要求对于每一个样本被估计总体的

各个类别都至少有十个观测值

十个观察值

刚才你们如果还记得那个表的话我们

对每一个类别都有

上百个人所以这个用

所以我们的样本量是足够大的

那下面我们回到例子中

把数代进去π2减π1呢就等于负的0.013

两总体差异的标准误呢

等于0.0288

那π1减π2的95%置信区间就等于

这个数

因为是95%所以我知道z的二分之α等于1.96

最后得出的结论说我发现

关于祈祷和手术并发症这个例子里面

两总体差异的置信区间

是-0.07到0.04

那如果是我用置信区间来

回答

试图用置信区间来回答这个问题的时候

问题就是

我怎么样去解释这个置信区间

是这么看你看-0.07到0.04这个区间

显然把0涵盖了

所以我的解释就是说

π1减π2置信区间包含0

说明π2减π1等于0是有可能的

实际上就相当于显著性检验里面的

拒绝原假设

就是我认为

两样本或者两总体没有差异

那下面有同学说不行

还得检验那我用

显著性检验的方法

首先我就要确定我的原假设是什么

原假设必然是

我认为π1和π2相同

两总体没有差异

也就是不管你祈祷还是不祈祷

心脏病人手术的并发症

发生率应该是一样的

那这个时候做显著性检验的时候

我们关注的是样本比例的差异

和你原假设猜测的这个

没差异等于0

到底有多不同

那这个时候呢

标准误就有所变化了

之前我们做标准误的时候直接就等于根号下

se1的平方加上se2的平方

现在我们的标准误的建立

一定是在认为原假设为真

也就是π1等于π2的时候

的标准误

这个时候我们用se0这个0代表原假设

特意来用它来表示

原假设为真时的标准误

有什么区别呢

这个时候我们需要用一个公共值

既然我认为π1和π2

是相同的

那我进行点估计的时候

就可以选择一个公共值来一起把两总体给

估计了

所以这个公共值怎么算呢

实际上相当于

既然你说都是来自于总体那咱们就合成一家子吧

那把它加在一起

就是所有的病人之中的

出现并发症的病人除以所有病人的总数

315加304除以604加597

就等于0.515

然后后面的做法很类似

se0就等于前面这个公式不变

但是因为π1

我们这里面认为π1(hat)

等于π2(hat)

等于π(hat)

所以我直接就可以把它换成另外一个公式

等于π(hat)

π的估计乘以1减π的估计

乘以n1分之1加上n2分之1

那直接代数呢

很巧数字上还等于0.0288

但是小数点后面的数字其实不一样了

然后我们建立检验统计量呢z检验

仍然z检验我认为

差异是服从正态分布的

然后就等于

点估计减去原假设

0原假设我们认为π1减π2是等于0的

然后除以原假设为真情况下的

标准误

就等于负的0.43

这个意思是说

我的样本估计值

和我猜测的那个值或者理论的值相差了
我的样本估计值

和我猜测的那个值或者理论的值相差了

-0.43倍

个标准误的距离

你直接从-0.43就可以看出来

我相差的这个距离还不到一个标准误呢
你直接从-0.43就可以看出来

我相差的这个距离还不到一个标准误呢

说明

我可以认为我的样本

和你

理论上的那个猜测是没有显著差异的

但如果你还不放心非要做一个

检验

非要求p值我们也可以求

p值呢

就等于这是双尾检验

我就关注的是是不是相等

双尾检验情况下等于

pz小于-0.43

就是比0.43要离0远

还有

z大于0.43的概率就等于

0.67

说明在原假设为真的情况下

得到-0.43

或者是比它还极端的概率

是0.67

说明这件事一点都不极端

在原假设为真的情况下

你很有可能抽到一个样本

得到样本差异的

点估计是负的

刚才我们

有看

得到点估计的差异是负的0.03

0.013

好这是用显著性检验的方法

来得出结论

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。