当前课程知识点:基于R语言的社会统计分析 >  第五章:统计推断 - 估计 >  5.3 中心极限定理 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

在上周

探讨州长支持率的例子中呢

我们知道每个观测值都有两种可能取值

我们说当观测值等于1的时候说明

这个人是支持施瓦辛格的

等于零的时候呢说明这个人不支持

那这是一个绝对的离散型变量对吧

我们只有两个可能取值

如果问它的变量类型

你肯定不打磕巴的告诉我说这是离散型的

总体的分布

很显然不可能是正态分布对吧

但是呢

在观察它抽样分布的过程中如果你们还记得这张图的话

你会看到

当我们的样本量为2705的时候

样本均值也就是样本的比例

它呈钟形分布

就是我们特别期待的那个正态分布的形态

那实际上其实并不需要2705这么大的样本

这种近似的钟形分布

在样本量等于4的时候就已经

略见雏形了

我们可以看看这张图我们上周有给大家显示过

这说明一个什么问题

实际上呢

这件事情我们可以用数学推导证明

它就是我们后面对

会被反复应用的一个重要性质叫做

中心极限定理

中心极限定理呢英文叫做Central limit Theorem

有的时候我们简称它为CLT

那CLT的意思是说

对于一个样本量

足够大的随机样本

或者是随机抽样

样本均值x(bar)

它的抽样分布

近似的服从一个正态分布

也就是说我不管你的总体是服从什么分布的

你总体可能是一个特别偏的分布

可能是一个无比离散的分布

但是万变不离其宗

样本均值的分布

一定是服从正态分布的

那这个中心极限定理说明了什么

其实它说明了几件很重要的事我们后面会不断地应用它

第一件事

样本均值的抽样分布近似的服从正态分布

这条重要的性质

对于任何形态的总体分布都成立

这简直太棒了

我们这里可以继续用计算机模拟的方法

来演示一下中心极限定理

我已经准备好了一个叫做CLT的R语言的程序脚本文件

那我现在把它打开

打开以后呢这又是我们非常熟悉的R语言的界面

那为了更好的演示不同的

总体分布形态

在样本量足够大的情况下均值可以近似的服从正态分布的这一个

中心极限定理所说的特性呢

我们会给大家演示三种不同的总体分布

分布是均匀分布

还有一种呈U形的我们管它叫

Arcsine分布还有

一种是卡方分布

当然这些呢并不是你需要掌握的内容

不用担心说这些连续型分布都没听说过

我们真正需要掌握的连续型分布其实基本上最重要的就是

正态分布

然后T分布

后面会讲一些卡方分布的知识

但是现阶段呢不用担心说这三种分布我不知道是什么

我们首先来看一下

因为要演示其中有一个叫做Arcsine的分布

这种U形的分布在实际应用中

相对较少

所以我们需要安装一个外挂的程序包

叫做distribution

所以我第一件事 install.packages distribution distr

distr

如果你用苹果的话就是

apple加enter然后如果你用的是Windows

仍然快捷键是ctrl加r

有可能你还会选一下镜像

然后只要选择中国就可以了

然后下面我要libary distribution

好下面第三行的这个命令我们管它叫PAR

这是画图的时候特别特别常用的一个函数

PAR是parameter参数的简称

那画图的时候我经常会对图形有各种各样很特别很各色的要求

为了比如说你写文章的时候为了满足不同

杂志的要求

比如说杂志会对你的图形的宽度

高度还有分辨率

resolution都会有一些要求

为了满足这些具体要求你经常要改变画图的时候参数

那这里面呢我现在是想生成一个

很多个panel有很多个子图形的一张图

那我希望这个图形呢有三行

四列所以我用到的

parameter是

这个函数

我先运行一下

你看实际上它

就生成了一个空白的窗口

我可以随便调整这个窗口的大小

因为一会要三行四列所以我希望它

稍微的宽一点

那下面呢我们看看第一个首先我要演示的是

均匀分布

uniform distribution

这是我们学概率论与数理统计大数的时候

接触过的一种分布

那假设说第一条命令uniform等于

被它赋值叫做runif

它的意思是

我想模拟一个来自于均匀分布的

这样一个总体

这个总体里面有一万个观测值

然后它的最小值是0最大值是1

运行一下

很安静如果你打开Window

Window这里面去R console控制板的时候

你会发现它只是静静的

这个给你运行出来了

然后下面我想看看我生成这个分布到底长什么样

我就用直方图来表达一下

我们看到左上角出现了直方图

然后我已经给它命名了这个

main=Uniform Distribution 就是你这个图形的标题

然后下面

跟我们上节课讲的

怎样抽样分布的时候一样

首先我要先生成一个空的向量

这个向量里面有

一千个空值

后面我要把每一个样本的样本均值一个一个的填到这个向量里

所以我现在管这个向量叫做x(bar)

因为整个一个向量所有数都是样本均值

仍然

好像什么事都没发生

下面第一种情况是假设说

我重复抽样一千次

每次抽样都只抽出两个观测值的情况

这个时候我想看看样本均值的抽样分布是什么样子的

这个循环n等于2

然后循环

1到1000我要重复抽样一千次

然后x(bar)i代表的是x(bar)这个向量里面的

第i个数

它就等于

从一个均匀分布里抽样

抽样完了以后呢对这两个数求均值

然后我下面看看

同样你可以打开Rconsole控制板

看看出现了什么啊只是

我们最希望看到蓝色的这个字

就说明你的程序很顺利的运行出来了没有任何bug

如果它出现了红字呢

有的时候会有一些warning message

比如刚才我去

load我这个安装包的时候它就告诉你说

我现在用的这个R

并不是最新版本的最新版的是3.2.5

那很多个这个程序包里面语句是在3.2.5的情况下构建

当然这不影响我们现在的这个演示

然后下面我继续画一个直方图

然后来看看这就是当样本量等于2的时候

样本均值就重复抽样一千次的时候

样本均值的抽样分布

然后以此类推你看它其实已经成一个对称分布了

然后如果样本均值等于5的时候呢

你会发现好像

如果说它底下这个

x轴的下限和上限一致的话

它其实是

离散程度变小了

然后继续

我试试当样本量等于30的时候

实际上离散程度更小了因为你看x轴呢它是从

基本上所有的数值都集中在0.4到0.6之间

然后下面第二种分布的演示

叫做Arcsine分布这是一个比较特别的U形分布

这个Arcsine

这个函数呢用到的是distribution那个安装包里比较特殊的函数

下面这两行合在一起呢就是说我要生成一个

总体中有一万个观测值的服从Arcsine

分布的这么一个总体

我又要看它长成什么样子你看这个一个很典型的U形分布

两边的这个

出现的频数很大中间是很低的

那对于这样一个U形分布

当样本量足够大的时候我们也可以证明样本均值的分布逐渐的

接近于正态分布

首先我们看看当样本量等于2的时候

好像已经对称分布而且

中间的那两个数

中间的以零团结在零左位的数的

发生的频率是比较高的

然后下面我直接一起试当样本量等于5还有30的时候

看它是一个这样的分布越来越接近正态分布了

然后第三种总体

我们是想演示一个卡方分布

卡方分布这是一种很偏斜的很右偏的一个分布

当自由度等于1的时候

你会看到它长成这个样子

完全是一个很明显的右偏分布

然后下面我们看看当样本量增加的时候这么右偏的一个分布

它的样本均值的抽样分布

是怎么样被扭转成一个越来越对称的分布

然后

你看当样本量等于2的时候好像还是偏的

n等于5呢左边

0这附近的这个频数就开始变少了

然后当

样本均值等于30的时候

基本上我们可以认为它是服从正态分布的了

所以这一点呢就说明

中心极限定理是一条特别

棒的定理也就是说即使说

你的总体不是

正态分布或者说是一个特别奇怪的形状

U形啊或者是超级右偏的这么一个分布的情况下

只要

样本均值足够大

其实我们这里演示说都不用大太多

只要当样本均值等于三十的时候

样本均值的抽样分布已经可以基本上说

趋近于一个正态

第二件事它说明了什么

我们下面会问一个问题就是说

样本到底多大才算大

到底多大的时候

我才可以使用中心极限定理呢

我首先要说你们可以看到

之前我给大家举出那两个例子

均匀分布和卡方分布

均匀分布呢实际上相对对称的一个分布

而卡方分布是右偏程度很高的分布

感觉

对一个右偏程度很高的分布要想使它的样本

统计量服从正态分布你需要

稍微大一点样本量

那这个理论上也是成立的也就是说

偏斜程度越高

你需要的样本量也就越大

但是在大多数情况下其实样本量30

就已经足够让抽样分布近似正态了

当然这不足以做出非常精确地统计推断

如果你想让你的

统计推断非常精确的话样本量自然是多多益善了

第三件事

如果我们知道抽样分布是正态分布

那么我们就可以

大大的大踏步的利用正态分布那些漂亮的性质

这些性质呢可以帮助我们了解

样本均值不同取值它们发生概率的大小

比如说应用经验法则我们可以知道什么

我们可以知道

我们所抽到的这个样本均值

说戳大天也不会

跳出距离真实值三倍标准差的范围内

所以我们可以知道

样本均值极有可能落在总体均值相距三倍标准误

也就是三倍的σx(bar)

等于三倍的σ除以根号n这样一个范围内了

你在以后的学习中会逐渐体会到

中心极限定理在统计推断中到底发挥着多么重要的作用

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。