当前课程知识点:基于R语言的社会统计分析 >  第六章:统计推断 - 区间估计 >  6.2 总体比例的区间估计 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好首先我们来介绍一下

总体比例的置信区间

总体比例是我们社科研究中总要研究的一个问题

我们前面提到分类变量

分类变量什么意思呢就是说

观测值的可能取值

为该变量的几种可能的类别

比如说我们经常遇到的变量

我们会问我们的调查对象你是什么民族的

然后你的政治面目是什么政治面目有的时候会答

共青团员啊党员啊还是群众

然后

还有定序变量定序变量我们说ordinal data非常的常见

每次使用李克特量表的时候

你会让你的访谈对象从

非常不同意到非常同意之间选择

也有可能呢是连续型变量

也是

有可能是连续型变量的重新分组

就是说实际上

我不想知道人每增加一岁对某一件事情的影响

我想知道从一个年龄组

跳到另一个年龄组

会对某一个变量产生什么样的影响

于是乎有的时候我们会人为的

明明是连续变量我又把它进行重新的分组

比如说最常见的我们有年龄组

还有的时候我们会把收入分组

经常有时候你答题的时候会发现你是

收入在800到1500啊还是1500到3000啊

一格一格的往上加

所以

年龄组和收入经常是被重新

把一个连续变量重新分为分类变量的过程

如果说我想对分类变量进行总结

我就没办法直接去求均值了

于是乎我们关注的其实是

每一个类别的占比

之前我们举的那个竞选的例子

就是我到底支持还是反对支持的概率是多少

反对的占比分别是多少

那下面呢我们就来看看

样本比例的均值还有标准误

到底是多少

因为为了构建总体比例的置信区间

我们首先必须要知道

样本比例重复抽样重复抽样得到了好多比例以后

这些个比例的均值还有这些个比例之间的

变异程度应该是怎么样的

那我们来看看这个推导过程

好假设说我们用π来代表总体的比例

后面我们会长期的用到这个

这个字母

用π来代表总体的比例

那么如果我想用一个样本的估计值去估计

总体的话

很自然的我们上节课讲了

估计值要给它带一个帽子加一个插入符号

我们管它叫p(hat)

π(hat)

π(hat)是用来估计总体的这个真实比例的

对每一个分类而言

不管你有多少个分类

如果我问到每一个具体的分类的时候

实际上我们都人为的制造了一个二分变量

比如说我问的是非常同意

是不是非常同意1代表是

零代表否

然后问到民族的时候呢其实

本来让你的选项比如说汉族回族

好多其他的民族
本来让你的选项比如说汉族回族

好多其他的民族

然后变成这样比例

分析的时候问的都是再具体的那一个分类

你是不是汉族你是不是回族

所以对于每一个分类而言

实际上的可能取值只有两个值

哪两个值呢

我可以直接把它写成第一种取值y1等于0

不是我不在这个分类里面

第二种取值y2等于1

我在这个分类里面

就只有两种可能对吧

对吧

然后下面每一种可能出现的概率分别是多少

是零的概率也就是没有发生的概率

实际上应该等于

1减π

那应该直接先说py等于1

p

y等于1的概率我在这个分类里面

概率就应该是总体的比例π

然后下面我想求总体的均值

总体的均值μ等于什么呢

又要用到之前老提的这个公式了

yi乘以pyi

可能的取值乘以与之相对应的概率

然后要把它加和

我们

可能的取值我们先分零

零乘以1减π

我还是写出来零乘以1减π

再加上

这边是1乘以π

结果是什么

直接等于π

总体的均值其实这一步都没有必要写

总体均值是什么总体均值就是总体的比例π

样本均值的均值就刚好等于这个μ

也就是总体的比例π

然后下面呢我们要知道总体的标准差

总体的标准差用σ来表示

我们又开一个大根号

根号里面

有yi

减去μ

乘以pyi

乘以pyi它等于

再像刚才那个步骤一样

一步一步的代进去

我们刚好等于

1减π的平方乘以π

再加上

零减π

乘以1减π

然后你把它重新

排一下

合并同类项把1减π乘以π提出来

最后呢就等于根号下

π乘以1减π

等于根号下π乘以1减π

然后我们就得到了总体的标准差

这还是在总体的这个里面的

我们现在想知道样本比例的均值和标准差分别是什么

于是乎很简单我们说样本均值的均值就等于总体均值对吧

我们直接在这

E

π的估计

就等于μ

样本均值的标准差就应该等于σ除以根号n对吧

等于π

直接在这加一个除以n就好了

我这就不写了所以σ

y的均值

就等于σ除以根号n

就等于根号下

π乘以1减π

除以n

这就是

总体比例的均值

还有标准差分别是什么

然后有同学说了

我知道总体比例的均值和标准差了

那我还是不知道它具体的分布是什么样子

我只知道这个分布的均值

这个分布的中心

和离散程度是什么样我想知道它的形状是什么样子

这个时候怎么办

我们又需要用到那个特别无敌的定理了

中心极限定理

于是乎

还有一步之遥我们需要知道样本比例的分布情况

那由于

我们的变量是离散型的

我们说这是一个二分变量

我们需要中心极限定理的帮助

前面已经说了

如果你的样本量足够大的话

我们认为

样本比例

可以服从中心极限定理

也就是说

有95%的观测值

会落入两倍标准误的范围内

或者更精确的说

并不是真的两倍

1.96倍的标准误的范围内

然后我们现在再说一下这个

置信区间

置信区间是一个特别难理解的事儿所以我们这里面呢

可能我画的不是特别清楚

但是也要试着给大家把置信区间这件事讲清楚
可能我画的不是特别清楚

但是也要试着给大家把置信区间这件事讲清楚

我们来看看置信区间

到底是怎么一个推导的过程
我们来看看置信区间

到底是怎么一个推导的过程

好下面我们就用一张图

来给大家解释一下总体比例的置信区间

到底是怎么样通过

中心极限定理的帮助来构建起来的

让我们来看看

在中心极限定理成立的情况下

我有一个正态分布画的不是特别好

这是一个对称的钟形的分布

然后

如果中心极限定理成立也就是说我们样本量足够大

这个分布的中心

应该在

总体的比例π这

对吧总体比例π

然后整个这个分布服从什么分布

应该近似的服从一个正态分布

这个正态分布的均值是π

标准差是什么

标准差我们刚刚推导过

标准差应该等于根号下

π乘以1减π除以n

它是长成这样一个分布

然后因为

正态分布的经验法则

我们知道

我们左边有一个下限这边是什么π

减去1.96

乘以

σπ

估计

这边呢是π

加上1.96

乘以π的估计的

标准差

我们认为

样本比例的估计

落入这一个区间

我们把它画一个阴影

落入整个阴影部分的概率

应该是多少呢

应该是95%

这里95%

好下面我们再看

现在我假设抽样过程发生了

我现在抽到了一个样本

通过这个样本

我算出了一个样本比例

是π的估计

假设在这个地方

把它对应下来这个地方

通过这个π的估计

我构建一个置信区间

我们说加一个边际误差减一个边际误差

加上这么多的

一个边际误差挪到这里面

这边减去这么多的边际误差

我这画一下

这儿实际上

是它建立的一个置信区间

这是置信区间1

我们看到虽然我的真的这个

样本比例π的估计

和π有一定距离对吧

但是

在构建置信区间的过程中

哎我这个置信区间刚好

把真实的这个π涵盖了

那以此类推

我又抽了一个样本

我说这个样本呢样本的比例稍微大一点

这个地方π(hat)

同时

我又加上一个1.96乘以σπ(hat)

减去一个1.96乘以σπ(hat)

可能对的不是那么准了

我又构建了一个置信区间

这个地方也是π(hat)

然后所有

这一部分的长度

这一部分的长度都等于1.96乘以σπ(hat)

然后你会发现

在第二样本

虽然说我的样本比例比真实的总体比例大了一点

但是通过

构建这个置信区间

我又成功的把真实值给涵盖了

想象这个过程

好多好多次我抽了好多好多个样本

算了好多好多的样本比例

假设说我一共抽了

一百个样本

一百个样本里面

其中会有95个样本的π(hat)

落入这个区间

只要我的π(hat)只要我的样本比例落入这个区间

我就能保证我生成的置信区间

可以把真实值涵盖

这是一定要强调的

就是我一定要重复这个过程很多很多次又强调说

in the long run

要重复要

要在一系列的过程中去验证它

那重复了这么多次以后假设说我得到一千一万个样本比例

那这一千一万个样本比例中

有95%的样本比例会刚好的落在这个区间里

只要我的点估计落入这个区间

我的置信区间

由这个点估计而产生的置信区间

就会成功的把真实值覆盖

实际上这就是置信区间的意思

我们总结一下它的意思是

所以只要样本量足够大

我们就可以认为

样本比例

接近服从正态分布

于是乎呢我们就有

样本比例π(hat)

那么总体的真实值落入

π(hat)减去1.96

乘以σπ(hat)

到π(hat)加上1.96乘以σπ(hat)

这个区间的概率

是95%

π的估计加减1.96σπ的估计

就被我们称为

95%置信区间

更确切的话是总体比例的95%的置信区间

这是一个比较完美的情况

我们看看π(hat)等于多少σπ(hat)

等于这个东西

它等于这

然后明眼的同学可能会发现一个问题

我做了这么多的事情

就是为了去估计

总体的比例

我估计的就是它

结果你在估计它的过程中还要用它

这显然就矛盾了对吧

所以我要想一个办法

总体的这个比例

要用现在得到的样本比例的点估计去代替

所以π就变成了π(hat)

所以我要把原来的公式改一下

改成呢

95%置信区间变成了π(hat)

加减1.96乘以根号下的π(hat)乘以1减π(hat)

除以n

这个是我们最后得到的

一定要强调大样本条件下的

样本总体比例的置信区间

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。