当前课程知识点:基于R语言的社会统计分析 > 第四章:概率分布 > 4.4 抽样分布 > Video
刚刚我们用离散型和连续型变量的随机分布
来描述变量所有可能取值和它
所有可能取值可以发生概率之间的关系
那我们刚才做所有的事情之前都有一条
非常非常重要的假设
就是我们知道总体
到底发生了一件什么事
我们对总体的均值对于总体的标准差都有着深入的了解
所以我们可以画出
比如正态分布的图形我们也可以知道
掷骰子的时候每一个可能的取值发生的概率是六分之一
但是在现实中
我们很少会知道变量的
真实分布究竟是什么样子的
于是乎我们就抽样
希望能够用样本
信息对于总体的信息进行推测
那在这个过程中呢
我们虽然不了解总体的实际分布情况
但是由固定参数取值决定的概率分布
就像一个参照系一样
它仍然会在统计推断中发挥非常重要的作用
下面让我们来看一个例子
大家应该都看过终结者然后都知道辛瓦辛格是谁
也会知道他是一个肌肉男当然他
还有一件事情你们应该也知道
也就是说他当选了
加利福尼亚州的州长
那下面这个例子呢就是从施瓦辛格当州长这件事情说起的
假设说我们想知道
施瓦辛格是否能成为
加利福尼亚州的州长这是发生在他当选之前的事情了啊
在选举日那天呢
这个民调机构一定在
真正得出结果之前预先的预测出
到底是谁能当选
于是乎他们就对选民进行了一个
抽样调查
以提早的预测获胜者
那对于2006年的秋季进行的这场加州州长选举呢
CNN报道了来自
2705名选民的民调结果
也就是说实际上他们是想知道这个
施瓦辛格在全加利福尼亚州的支持率怎么样
全加州实际上有七百万人
但是它们从七百万人抽取了2705人
希望知道这2705人
的看法是怎么样的啊
结果显示
有百分之五十六点五的人
赞成共和党候选人阿诺德.施瓦辛格当选州长
那下面我们的问题就来了
百分之五十六点五说明什么
说明更多的人支持施瓦辛格吗
我们可不可以仅仅通过
百分之五十六点五的这样一个数字就得出这样的结论
那
为了判断我们的百分比是不是能够
有足够的信心对
候选人能否当选做出一个科学预测
那电视网可以问一个问题
它可以怎么问呢
它可以问说假设
只有一半的总体
就是说总体的真实情况只有一半的人是
投票给施瓦辛格的话
那么我们有没有可能会得到一个
支持律师百分之五十六点五的样本
也就是说在真实的总体是一半一半大家没有真正的偏好的情况下
得到百分之五十六点五的这样一个样本
会让我们感到惊奇吗
如果说
我认为特别特别奇怪不太可能
于是乎我们就可以推翻
之前的假设认为
总体中不太可能
只有一半的人支持施瓦辛格
如果答案是
因为抽样过程的随机性
在总体实际支持率是
百分之五十的情况下
得到百分之五十六点五这样比例的样本
一点都不足为奇
那么我们就不能自信的推断出总体的支持率是过半的了
所以说前面说了这么多
提问啊问题的方式
你会发现总体的支持率
我们真正想知道就是总体支持率有没有过半啊
它到底是不是过半完全依赖于
我们对百分之五十六点五这个比例
是不是奇怪的判断
你一定要给我一个
科学的证明说百分之五十六点五是奇怪还是不奇怪
那如果说把刚才我们的这个诉求
翻译成统计语言
数学语言实际上我们希望的是
在总体支持率为
百分之五十的前提下
得到百分之五十六点五这样一个
样本支持率的概率是多少
那这次州长竞选共有七百万人投票
我们抽取了2705人做出了一个预测
那么假设我们仅抽取四个选民进行预测
会得到怎么样的结论呢
这个概率该如何计算
现在我说起来
大家肯定会觉得
我哪知道怎么算我哪知道它
到底奇怪不奇怪呢实际上
你只要可以知道目标总体的大小就是七百万人
只要知道样本量你抽取的是2705个人还是4个人
再配合下面我们要讲的一些抽样分布的理论知识
计算这个概率呢并不是天方夜谭的
当然我们可以先撇开理论了啊
把理论放在一边
我可以先用计算机
来模拟一下
这个抽样的过程
下面我们来介绍怎么样用计算机模拟的方法
来模拟刚才我们所说的施瓦辛格竞选州长的那个例子
我们还是用我们最爱的R
我们打开一个R
一个R的控制板
首先我要生成我抽样的那个总体
就是从哪抽啊
我们例子里面说实际上加利福尼亚州有七百万的选民
所以我生成的这个总体
假装的这个总体应该有七百万那么大的总体的观测值
那我要首先有一个赋值的过程
我要生成一个向量这个向量里有七百万个数
我现在管它叫Population
Population等于什么呢
生成向量还用我们之前说的那个C函数
C函数里我们这个具体的例子包含两部分
我们说七百万人假设说总体里面有
一半是支持一半是反对的话
那我用0代表反对
1代表支持
我就可以重复0这个数三百五十万次
然后再重复1这个数三百五十万次
所以总体可以这样生成重复用repeat这个函数rep
然后0
第一个函数的赋值第一个参数
0代表的是你生成那个数要重复多少次呢
重复三百五十万次35后面五个0
然后后半截
我要重复1三百五十万次
我回车一下
现在程序就默默的帮我生成了
七百万个观测值
如果你非不放心你可以看看
我敲一下Population让它显示一下
它有一个默认的限定
我这个R现在限定的是
每次只显示前十万个数后面就都被忽略掉了
因为我前面三百五十万个都是0所以你现在看到的满篇都是0
那如果你还不放心我可以用table
类似于让它生成一个相对频数的方法table (Population)
程序要思考一下
因为我们七百万个数太大了然后你现在就会看到
我有三百五十万个0和三百五十万个1
然后下面我要从这样一个大总体里面抽样
抽多少个样呢
第一次我样本的限定是2705对吧
很膈色的一个数N等于2705
第一次我样本的限定是2705对吧
很膈色的一个数N等于2705
所以我这里面对n进行赋值n等于2705
很膈色的一个数N等于2705
所以我这里面对n进行赋值n等于2705
那么从大总体里面抽样
用到的函数是sample
那当然我还要对sample进行一个赋值
我管这个小的生成抽样以后得到的向量也叫作Sample
然后下面Sample是
第一个大写这个Sample你可以随便起名字你自己只要知道
这是你抽出来的那个向量
的名字就可以了
函数名这个小写sample是不能改的
实际上我们第一节课就已经用过这个函数了抽样
从总体里面抽
这个总体是谁我们刚才生成的那个叫做Population的东西
那样本量是几呢size等于n
其实我前面已经对size进行定义了
n等于2705
然后下面你还会告诉它说replace等于FALSE
replace指的是有放回还是无放回
那因为我要一次抽2705个人出来
我是不希望抽一个又放回进去抽一个又放进去的
所以这个时候我说的是有没有放回
没有
然后我再一个回车现在实际上我已经抽出来了这个样本
我可以不放心再看看Sample怎么样
可以看到下面我抽到了2705个数然后它的分布是随机的了
这是我抽到的其中一个样本
那我现在关注的就是在这个抽到的样本里面
有多少个人是支持施瓦辛格的呢
实际上特别简单的命令我对这个样本求均值就行了
求出均值发现
如果说总体里面一半支持一半反对
我现在抽到的这个样本
他的支持率是49.61%其实相当的接近50%了
那如果我不放心我说万一这个样本不够具有代表性呢
我还要抽它很多很多遍
那后面的程序比较复杂了
我其实有备而来
我有一个编辑好的文件
我现在可以用编辑好的文件把它跑一下顺便我们来介绍一下
我有一个编辑好的文件
我现在可以用编辑好的文件把它跑一下顺便我们来介绍一下
怎么用R语言的编辑器的功能
之前我所讲的每一条命令
我都是手动的非常土的把它一条一条的键入控制板的
那如果说你有很多的
R语言的程序操作的话你这么做
做过了就不记得了对吧你一定要有自己的编辑器
要记住自己跑过的所有命令
那R语言里面这个跑过的命令
的存储方式呢
都是存在.R这样的文件里面
如果说
你想生成一个新的编辑器我们可以点开文件file
如果说
你想生成一个新的编辑器我们可以点开文件file
然后你只要敲 new document就可以了
生成了一张白纸
然后下面你可以把你后面用到的所有的语句
都敲到这个白纸里面去
因为我之前有备而来
所以我直接打开我之前已经存好的这个叫做simulation的文件就好了
我现在敲开它前面这些命令都类似
下面我们来看看后面的命令
还是跟之前一样我先把我的
语句弄大一点
我们看下面第一个
我又有一个赋值我让p等于1000
这个p代表的是重复抽样的数量
我们说我想知道抽样分布是什么样子
抽样分布理解就是说
当样本量每次都是一样我每次都抽2705个人
我重复抽样这个动作要重复1000次
我要抽出1000个样本量都是2705这样的样本
那重复多少次我给一个赋值p等于1000
运行很简单
你可以直接把鼠标放到这一行
如果你用的是mac
你就用apple和enter这个命令
是快捷键
然后如果你用到的不是mac呢
Windows系统里面你可以直接
点CtrlR
或者是控制面板上一个运行键
你直接运行一下就好了
现在P等于1000我已经复制好了
然后下面
我要生成一个空的向量
就是里面没有具体取值的向量
这个向量我管它命令叫proportion叫比例
你想象一下你每次抽一个样本
都会对这个样本求一个支持比
那重复1000次操作实际上
对于每一个样本你可以算一个支持比的话你有1000个
支持比
当然现在我还没有重复1000次的操作呢
我要先生成一个空的向量一会
我要把每一个样本得出的支持比
分别都
填到这个空向量里面
空向量怎么生成
也是可以用repeat这个命令啊
rep(NA)
NA代表缺失值我现在没有值啊
rep空值NA
然后重复多少次呢
刚才说p等于1000我重复1000次
所以后面
重复的次数直接写的就是p了
好
我运行一下
然后下面实际写了一个小小的循环啊
实际上我们这节课
并不要求我们大家写循环但是
这是一点额外的知识啊你们可以
copy我的
拷贝下来我的
程序然后后面自己去练习
循环其实很简单用到的是
for这个命令
for( i in1:p)是对于
每一个
在1到p之间的数
所以i可能是1可能是2
也可能是一直到最后1000啊等于我一直
一个一个试这是我们以前计算机课学的内容啊
proportion[i]
代表的是proportion向量里面的
第一个数
第二个数还是第三个数“第”
所以proportion [i]代表的是proportion向量中的第i个数
它等于什么呢
它等于
对这个
抽到的样本求均值
实际上前面我们
算出的那个0.4961183
就是其中的一个
样本比例的估计
那
我现在运行这个循环啊
我们可以先看下之前生成的proportion我现在打开proportion
你想想一下你会看到什么你应该会看到
1000个
空值
得又出现
拼写错误了啊proportion
1000个空值你看到
1000个NA
然后下面
for loop 以后
你要重复就
重复抽样一千次
稍微有点慢啊现在程序在响
我们说这个
提示符没有出来之前都说明计算机在
拼命的奔跑
现在提示符出来了
就说明我这1000次的抽样
并且
计算每个样本比例的过程完成了
那我重新看一下proportion
重新看一下proportion
你会发现这1000个数都被填上了
那分别看下每个数都代表什么意思啊往上拉
第一个数等于0.5020333当然
一定要注意啊
因为每一个数都是随机数
对于你的电脑现在的时点不一样
它随机数生成的值肯定是不同的
所以你不要渴望
和我生成一模一样的数你自己一定会有你自己的一套数的
那以我这个
以我的
生成的数为例第一个数0.5020333
说明第一次我抽的样本量为2705这样一个样本
求支持率
支持率是
百分之50.2
然后
另外又从这七百万
人里面抽抽2705
个样本第二个样本的支持率是49.79667
以此类推我重复这样的操作1000次
那
这么多数
我看不出所以然所以我要画一个直方图
描述统计我想看看proportion
也就是抽样分布长成什么样子
我们看看这就是抽样分布啊
你会看到整个分布的中心就
是围绕整个0.5
左右来分布的
中心是0.5然后
左边好像有
一个比较异常的值0.46就算比较奇怪的了啊
然后
大部分的数
都集中在0.48
到0.52之间
我们猜测如果说样本
真的
抽了一个样得到百分之56.5
百分之56.5
在这个
抽样分布中显得就太大了啊根本就
没有这样的数
最大也才不过0.54
这是
用计算机模拟的时候我生成的直方图啊
然后下面我们说
抽样分布中
就是样本均值的均值
刚才有一千个关于
样本比例的估计值我对这1000个数再求一个平均值
我们说
样本均值的均值应该和总体
的均值μ都相差无几
总体均值是0.5我们看看样本均值
的均值等于多少呢
等于0.500271已经很接近了
如果你不厌其烦的试啊我们现在是重复这样操作1000次
你可以重复这样操作
一万次十万次你可以
看看是不是样本均值的均值在无限的
向总体的均值0.5这个数接近
那下面我关注的是0.565这个数是不是奇怪
如果我认为
0.565奇怪那么
比它还大的值它发生的概率是多少
我们看看在
我刚才的1000次操作里面
大于0.565这样的样本有多少个
用到命令是length
proportion然后
然后给一个限定是proportion大于0.565
你发现
刚才
我重复操作了1000次在这1000次没有任何
一次的样本比例是大于0.565的说明什么
如果你真的抽到0.565
那它是一个非常非常奇怪的数
也就是说
当样本量是2705的时候
当样本量是2705
而总体的真实的
支持率真的是百分之50的时候
你得到样本支持率为百分之56.5这样的数
非常奇怪
所以如果真的得到了百分之56.5你会得出一个什么样的结论呢
我会认为总体
的支持率应该是
大于百分之五十的
这是一个反证的过程啊
然后下面
我们看看
刚才样本量很大啊两千七百个样本
如果说我这次很穷只有
精力物力财力问四个人
那我现在换一下啊 n
不是2705了变成4
n等于4
我首先复制一下
然后重复刚才的操作啊其他都一模一样
只是我的样本量
有所变化
程序又开始
缄默啊然后下面提示符出来了
一千次运算算完了啊
给我了1000个样本
那当每次
抽样样本量是4的时候我这个
抽样分布为什么样呢首先我们先看看数值啊
你会发现数值不是
看似是在0.75
1然后0.25和0之间
变化
然后我下面看看分布
同样用直方图的方式
这个图和刚才那个图就很不一样了离散啊
后面我们会
用理论方法去证明
当你的
样本量只有4的时候实际上你一共可以得到
五个可能的取值
分别是0 0.25 0.5 0.75和1
然后当然好消息是
和总体真实情况最接近的0.5的这个
样本出现的概率最高
然后两边比较远0和1出现的概率低一点
然后同样对刚才的这样1000个数求均值
这得到的就是样本比例的
均值抽样样本比例的均值
应该和
总体的比例和总体的均值特别接近
等于0.50525
没有刚才2705那个接近不过也比较不错了
下面在这样一个
当样本量是4的时候我想知道
得到0.565奇不奇怪
我同样想看proportion
大于0.565
这样的样本
在刚才1000次抽样中有多少个
用length这个函数啊
然后你会发现哇
1000次里面
大于0.565的有308个
这说明什么呢
如果你的
样本量特别小
那就说明
你样本比例的取值的
变异性很大
取值可能会非常不靠谱
样本的代表性
比较有限
那当样本量仅仅为4的时候
得到百分之56.5这样比较极端的数
就没有那么奇怪了
大于0.565它的概率是多少呢
那实际上就是308除以1000
发生的概率是30.8%
这就是我们用计算机模拟的方式
来给大家模拟一下刚才施瓦辛格竞选的这个例子
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video