当前课程知识点:基于R语言的社会统计分析 > 第五章:统计推断 - 估计 > 5.3 中心极限定理 > Video
在上周
探讨州长支持率的例子中呢
我们知道每个观测值都有两种可能取值
我们说当观测值等于1的时候说明
这个人是支持施瓦辛格的
等于零的时候呢说明这个人不支持
那这是一个绝对的离散型变量对吧
我们只有两个可能取值
如果问它的变量类型
你肯定不打磕巴的告诉我说这是离散型的
那
总体的分布
很显然不可能是正态分布对吧
但是呢
在观察它抽样分布的过程中如果你们还记得这张图的话
你会看到
当我们的样本量为2705的时候
样本均值也就是样本的比例
它呈钟形分布
就是我们特别期待的那个正态分布的形态
那实际上其实并不需要2705这么大的样本
这种近似的钟形分布
在样本量等于4的时候就已经
略见雏形了
我们可以看看这张图我们上周有给大家显示过
那
这说明一个什么问题
实际上呢
这件事情我们可以用数学推导证明
它就是我们后面对
会被反复应用的一个重要性质叫做
中心极限定理
中心极限定理呢英文叫做Central limit Theorem
有的时候我们简称它为CLT
那CLT的意思是说
对于一个样本量
足够大的随机样本
或者是随机抽样
样本均值x(bar)
它的抽样分布
近似的服从一个正态分布
也就是说我不管你的总体是服从什么分布的
你总体可能是一个特别偏的分布
可能是一个无比离散的分布
但是万变不离其宗
样本均值的分布
一定是服从正态分布的
那这个中心极限定理说明了什么
其实它说明了几件很重要的事我们后面会不断地应用它
第一件事
样本均值的抽样分布近似的服从正态分布
这条重要的性质
对于任何形态的总体分布都成立
这简直太棒了
我们这里可以继续用计算机模拟的方法
来演示一下中心极限定理
我已经准备好了一个叫做CLT的R语言的程序脚本文件
那我现在把它打开
打开以后呢这又是我们非常熟悉的R语言的界面
那为了更好的演示不同的
总体分布形态
在样本量足够大的情况下均值可以近似的服从正态分布的这一个
中心极限定理所说的特性呢
我们会给大家演示三种不同的总体分布
分布是均匀分布
还有一种呈U形的我们管它叫
Arcsine分布还有
一种是卡方分布
当然这些呢并不是你需要掌握的内容
不用担心说这些连续型分布都没听说过
我们真正需要掌握的连续型分布其实基本上最重要的就是
正态分布
然后T分布
后面会讲一些卡方分布的知识
但是现阶段呢不用担心说这三种分布我不知道是什么
我们首先来看一下
因为要演示其中有一个叫做Arcsine的分布
这种U形的分布在实际应用中
相对较少
所以我们需要安装一个外挂的程序包
叫做distribution
所以我第一件事 install.packages distribution distr
distr
如果你用苹果的话就是
apple加enter然后如果你用的是Windows
仍然快捷键是ctrl加r
有可能你还会选一下镜像
然后只要选择中国就可以了
然后下面我要libary distribution
好下面第三行的这个命令我们管它叫PAR
这是画图的时候特别特别常用的一个函数
PAR是parameter参数的简称
那画图的时候我经常会对图形有各种各样很特别很各色的要求
为了比如说你写文章的时候为了满足不同
杂志的要求
比如说杂志会对你的图形的宽度
高度还有分辨率
resolution都会有一些要求
为了满足这些具体要求你经常要改变画图的时候参数
那这里面呢我现在是想生成一个
很多个panel有很多个子图形的一张图
那我希望这个图形呢有三行
四列所以我用到的
parameter是
这个函数
我先运行一下
你看实际上它
就生成了一个空白的窗口
我可以随便调整这个窗口的大小
因为一会要三行四列所以我希望它
稍微的宽一点
那下面呢我们看看第一个首先我要演示的是
均匀分布
uniform distribution
这是我们学概率论与数理统计大数的时候
接触过的一种分布
那假设说第一条命令uniform等于
被它赋值叫做runif
它的意思是
我想模拟一个来自于均匀分布的
这样一个总体
这个总体里面有一万个观测值
然后它的最小值是0最大值是1
运行一下
很安静如果你打开Window
Window这里面去R console控制板的时候
你会发现它只是静静的
这个给你运行出来了
然后下面我想看看我生成这个分布到底长什么样
我就用直方图来表达一下
我们看到左上角出现了直方图
然后我已经给它命名了这个
main=Uniform Distribution 就是你这个图形的标题
然后下面
跟我们上节课讲的
怎样抽样分布的时候一样
首先我要先生成一个空的向量
这个向量里面有
一千个空值
后面我要把每一个样本的样本均值一个一个的填到这个向量里
所以我现在管这个向量叫做x(bar)
因为整个一个向量所有数都是样本均值
仍然
好像什么事都没发生
下面第一种情况是假设说
我重复抽样一千次
每次抽样都只抽出两个观测值的情况
这个时候我想看看样本均值的抽样分布是什么样子的
好
这个循环n等于2
然后循环
1到1000我要重复抽样一千次
然后x(bar)i代表的是x(bar)这个向量里面的
第i个数
它就等于
从一个均匀分布里抽样
抽样完了以后呢对这两个数求均值
然后我下面看看
同样你可以打开Rconsole控制板
看看出现了什么啊只是
我们最希望看到蓝色的这个字
就说明你的程序很顺利的运行出来了没有任何bug
如果它出现了红字呢
有的时候会有一些warning message
比如刚才我去
load我这个安装包的时候它就告诉你说
我现在用的这个R
并不是最新版本的最新版的是3.2.5
那很多个这个程序包里面语句是在3.2.5的情况下构建
当然这不影响我们现在的这个演示
然后下面我继续画一个直方图
然后来看看这就是当样本量等于2的时候
样本均值就重复抽样一千次的时候
样本均值的抽样分布
然后以此类推你看它其实已经成一个对称分布了
然后如果样本均值等于5的时候呢
你会发现好像
如果说它底下这个
x轴的下限和上限一致的话
它其实是
离散程度变小了
然后继续
我试试当样本量等于30的时候
实际上离散程度更小了因为你看x轴呢它是从
基本上所有的数值都集中在0.4到0.6之间
然后下面第二种分布的演示
叫做Arcsine分布这是一个比较特别的U形分布
这个Arcsine
这个函数呢用到的是distribution那个安装包里比较特殊的函数
下面这两行合在一起呢就是说我要生成一个
总体中有一万个观测值的服从Arcsine
分布的这么一个总体
我又要看它长成什么样子你看这个一个很典型的U形分布
两边的这个
出现的频数很大中间是很低的
那对于这样一个U形分布
当样本量足够大的时候我们也可以证明样本均值的分布逐渐的
接近于正态分布
首先我们看看当样本量等于2的时候
好像已经对称分布而且
中间的那两个数
中间的以零团结在零左位的数的
发生的频率是比较高的
然后下面我直接一起试当样本量等于5还有30的时候
看它是一个这样的分布越来越接近正态分布了
然后第三种总体
我们是想演示一个卡方分布
卡方分布这是一种很偏斜的很右偏的一个分布
当自由度等于1的时候
你会看到它长成这个样子
完全是一个很明显的右偏分布
然后下面我们看看当样本量增加的时候这么右偏的一个分布
它的样本均值的抽样分布
是怎么样被扭转成一个越来越对称的分布
然后
你看当样本量等于2的时候好像还是偏的
n等于5呢左边
0这附近的这个频数就开始变少了
然后当
样本均值等于30的时候
基本上我们可以认为它是服从正态分布的了
所以这一点呢就说明
中心极限定理是一条特别
棒的定理也就是说即使说
你的总体不是
正态分布或者说是一个特别奇怪的形状
U形啊或者是超级右偏的这么一个分布的情况下
只要
样本均值足够大
其实我们这里演示说都不用大太多
只要当样本均值等于三十的时候
样本均值的抽样分布已经可以基本上说
趋近于一个正态
第二件事它说明了什么
我们下面会问一个问题就是说
样本到底多大才算大
到底多大的时候
我才可以使用中心极限定理呢
我首先要说你们可以看到
之前我给大家举出那两个例子
均匀分布和卡方分布
均匀分布呢实际上相对对称的一个分布
而卡方分布是右偏程度很高的分布
感觉
对一个右偏程度很高的分布要想使它的样本
统计量服从正态分布你需要
稍微大一点样本量
那这个理论上也是成立的也就是说
偏斜程度越高
你需要的样本量也就越大
但是在大多数情况下其实样本量30
就已经足够让抽样分布近似正态了
当然这不足以做出非常精确地统计推断
如果你想让你的
统计推断非常精确的话样本量自然是多多益善了
第三件事
如果我们知道抽样分布是正态分布
那么我们就可以
大大的大踏步的利用正态分布那些漂亮的性质
这些性质呢可以帮助我们了解
样本均值不同取值它们发生概率的大小
比如说应用经验法则我们可以知道什么
我们可以知道
我们所抽到的这个样本均值
说戳大天也不会
跳出距离真实值三倍标准差的范围内
所以我们可以知道
样本均值极有可能落在总体均值相距三倍标准误
也就是三倍的σx(bar)
等于三倍的σ除以根号n这样一个范围内了
你在以后的学习中会逐渐体会到
中心极限定理在统计推断中到底发挥着多么重要的作用
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video