当前课程知识点:基于R语言的社会统计分析 > 第六章:统计推断 - 区间估计 > 6.2 总体比例的区间估计 > Video
好首先我们来介绍一下
总体比例的置信区间
总体比例是我们社科研究中总要研究的一个问题
我们前面提到分类变量
分类变量什么意思呢就是说
观测值的可能取值
为该变量的几种可能的类别
比如说我们经常遇到的变量
我们会问我们的调查对象你是什么民族的
然后你的政治面目是什么政治面目有的时候会答
共青团员啊党员啊还是群众
然后
还有定序变量定序变量我们说ordinal data非常的常见
每次使用李克特量表的时候
你会让你的访谈对象从
非常不同意到非常同意之间选择
也有可能呢是连续型变量
也是
有可能是连续型变量的重新分组
就是说实际上
我不想知道人每增加一岁对某一件事情的影响
我想知道从一个年龄组
跳到另一个年龄组
会对某一个变量产生什么样的影响
于是乎有的时候我们会人为的
明明是连续变量我又把它进行重新的分组
比如说最常见的我们有年龄组
还有的时候我们会把收入分组
经常有时候你答题的时候会发现你是
收入在800到1500啊还是1500到3000啊
一格一格的往上加
所以
年龄组和收入经常是被重新
把一个连续变量重新分为分类变量的过程
那
如果说我想对分类变量进行总结
我就没办法直接去求均值了
于是乎我们关注的其实是
每一个类别的占比
之前我们举的那个竞选的例子
就是我到底支持还是反对支持的概率是多少
反对的占比分别是多少
那下面呢我们就来看看
样本比例的均值还有标准误
到底是多少
因为为了构建总体比例的置信区间
我们首先必须要知道
样本比例重复抽样重复抽样得到了好多比例以后
这些个比例的均值还有这些个比例之间的
变异程度应该是怎么样的
那我们来看看这个推导过程
好假设说我们用π来代表总体的比例
后面我们会长期的用到这个
这个字母
用π来代表总体的比例
那么如果我想用一个样本的估计值去估计
总体的话
很自然的我们上节课讲了
估计值要给它带一个帽子加一个插入符号
我们管它叫p(hat)
π(hat)
π(hat)是用来估计总体的这个真实比例的
那
对每一个分类而言
不管你有多少个分类
如果我问到每一个具体的分类的时候
实际上我们都人为的制造了一个二分变量
比如说我问的是非常同意
是不是非常同意1代表是
零代表否
然后问到民族的时候呢其实
本来让你的选项比如说汉族回族
好多其他的民族
本来让你的选项比如说汉族回族
好多其他的民族
然后变成这样比例
分析的时候问的都是再具体的那一个分类
你是不是汉族你是不是回族
所以对于每一个分类而言
实际上的可能取值只有两个值
哪两个值呢
我可以直接把它写成第一种取值y1等于0
不是我不在这个分类里面
第二种取值y2等于1
我在这个分类里面
就只有两种可能对吧
对吧
然后下面每一种可能出现的概率分别是多少
是零的概率也就是没有发生的概率
实际上应该等于
1减π
那应该直接先说py等于1
p
y等于1的概率我在这个分类里面
概率就应该是总体的比例π
然后下面我想求总体的均值
总体的均值μ等于什么呢
又要用到之前老提的这个公式了
yi乘以pyi
可能的取值乘以与之相对应的概率
然后要把它加和
我们
可能的取值我们先分零
零乘以1减π
我还是写出来零乘以1减π
再加上
这边是1乘以π
结果是什么
直接等于π
总体的均值其实这一步都没有必要写
总体均值是什么总体均值就是总体的比例π
那
样本均值的均值就刚好等于这个μ
也就是总体的比例π
然后下面呢我们要知道总体的标准差
总体的标准差用σ来表示
我们又开一个大根号
根号里面
有yi
减去μ
乘以pyi
乘以pyi它等于
再像刚才那个步骤一样
一步一步的代进去
我们刚好等于
1减π的平方乘以π
再加上
零减π
乘以1减π
然后你把它重新
排一下
把
合并同类项把1减π乘以π提出来
最后呢就等于根号下
π乘以1减π
等于根号下π乘以1减π
然后我们就得到了总体的标准差
这还是在总体的这个里面的
我们现在想知道样本比例的均值和标准差分别是什么
于是乎很简单我们说样本均值的均值就等于总体均值对吧
我们直接在这
E
π的估计
就等于μ
那
样本均值的标准差就应该等于σ除以根号n对吧
等于π
直接在这加一个除以n就好了
我这就不写了所以σ
y的均值
就等于σ除以根号n
就等于根号下
π乘以1减π
除以n
这就是
总体比例的均值
还有标准差分别是什么
然后有同学说了
我知道总体比例的均值和标准差了
那我还是不知道它具体的分布是什么样子
我只知道这个分布的均值
这个分布的中心
和离散程度是什么样我想知道它的形状是什么样子
这个时候怎么办
我们又需要用到那个特别无敌的定理了
中心极限定理
于是乎
还有一步之遥我们需要知道样本比例的分布情况
那由于
我们的变量是离散型的
我们说这是一个二分变量
我们需要中心极限定理的帮助
前面已经说了
如果你的样本量足够大的话
我们认为
样本比例
可以服从中心极限定理
也就是说
有95%的观测值
会落入两倍标准误的范围内
或者更精确的说
并不是真的两倍
1.96倍的标准误的范围内
然后我们现在再说一下这个
置信区间
置信区间是一个特别难理解的事儿所以我们这里面呢
可能我画的不是特别清楚
但是也要试着给大家把置信区间这件事讲清楚
可能我画的不是特别清楚
但是也要试着给大家把置信区间这件事讲清楚
我们来看看置信区间
到底是怎么一个推导的过程
我们来看看置信区间
到底是怎么一个推导的过程
好下面我们就用一张图
来给大家解释一下总体比例的置信区间
到底是怎么样通过
中心极限定理的帮助来构建起来的
让我们来看看
在中心极限定理成立的情况下
我有一个正态分布画的不是特别好
这是一个对称的钟形的分布
然后
如果中心极限定理成立也就是说我们样本量足够大
这个分布的中心
应该在
总体的比例π这
对吧总体比例π
然后整个这个分布服从什么分布
应该近似的服从一个正态分布
这个正态分布的均值是π
标准差是什么
标准差我们刚刚推导过
标准差应该等于根号下
π乘以1减π除以n
它是长成这样一个分布
然后因为
正态分布的经验法则
我们知道
我们左边有一个下限这边是什么π
减去1.96
乘以
σπ
估计
这边呢是π
加上1.96
乘以π的估计的
标准差
我们认为
样本比例的估计
落入这一个区间
我们把它画一个阴影
落入整个阴影部分的概率
应该是多少呢
应该是95%
这里95%
好下面我们再看
现在我假设抽样过程发生了
我现在抽到了一个样本
通过这个样本
我算出了一个样本比例
是π的估计
假设在这个地方
把它对应下来这个地方
通过这个π的估计
我构建一个置信区间
我们说加一个边际误差减一个边际误差
加上这么多的
一个边际误差挪到这里面
这边减去这么多的边际误差
我这画一下
这儿实际上
是它建立的一个置信区间
这是置信区间1
我们看到虽然我的真的这个
样本比例π的估计
和π有一定距离对吧
但是
在构建置信区间的过程中
哎我这个置信区间刚好
把真实的这个π涵盖了
那以此类推
我又抽了一个样本
我说这个样本呢样本的比例稍微大一点
这个地方π(hat)
同时
我又加上一个1.96乘以σπ(hat)
减去一个1.96乘以σπ(hat)
可能对的不是那么准了
我又构建了一个置信区间
这个地方也是π(hat)
然后所有
这一部分的长度
这一部分的长度都等于1.96乘以σπ(hat)
然后你会发现
在第二样本
虽然说我的样本比例比真实的总体比例大了一点
但是通过
构建这个置信区间
我又成功的把真实值给涵盖了
想象这个过程
好多好多次我抽了好多好多个样本
算了好多好多的样本比例
假设说我一共抽了
一百个样本
一百个样本里面
其中会有95个样本的π(hat)
落入这个区间
只要我的π(hat)只要我的样本比例落入这个区间
我就能保证我生成的置信区间
可以把真实值涵盖
这是一定要强调的
就是我一定要重复这个过程很多很多次又强调说
in the long run
要重复要
要在一系列的过程中去验证它
那重复了这么多次以后假设说我得到一千一万个样本比例
那这一千一万个样本比例中
有95%的样本比例会刚好的落在这个区间里
只要我的点估计落入这个区间
我的置信区间
由这个点估计而产生的置信区间
就会成功的把真实值覆盖
实际上这就是置信区间的意思
我们总结一下它的意思是
所以只要样本量足够大
我们就可以认为
样本比例
接近服从正态分布
于是乎呢我们就有
样本比例π(hat)
那么总体的真实值落入
π(hat)减去1.96
乘以σπ(hat)
到π(hat)加上1.96乘以σπ(hat)
这个区间的概率
是95%
那
π的估计加减1.96σπ的估计
就被我们称为
95%置信区间
更确切的话是总体比例的95%的置信区间
好
这是一个比较完美的情况
我们看看π(hat)等于多少σπ(hat)
等于这个东西
它等于这
然后明眼的同学可能会发现一个问题
我做了这么多的事情
就是为了去估计
总体的比例
我估计的就是它
结果你在估计它的过程中还要用它
这显然就矛盾了对吧
所以我要想一个办法
总体的这个比例
要用现在得到的样本比例的点估计去代替
所以π就变成了π(hat)
所以我要把原来的公式改一下
改成呢
95%置信区间变成了π(hat)
加减1.96乘以根号下的π(hat)乘以1减π(hat)
除以n
这个是我们最后得到的
一定要强调大样本条件下的
样本总体比例的置信区间
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video