9079449

当前课程知识点:基于R语言的社会统计分析 >  第四章:概率分布 >  4.4 抽样分布 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:第四章 概率分布

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

刚刚我们用离散型和连续型变量的随机分布

来描述变量所有可能取值和它

所有可能取值可以发生概率之间的关系

那我们刚才做所有的事情之前都有一条

非常非常重要的假设

就是我们知道总体

到底发生了一件什么事

我们对总体的均值对于总体的标准差都有着深入的了解

所以我们可以画出

比如正态分布的图形我们也可以知道

掷骰子的时候每一个可能的取值发生的概率是六分之一

但是在现实中

我们很少会知道变量的

真实分布究竟是什么样子的

于是乎我们就抽样

希望能够用样本

信息对于总体的信息进行推测

那在这个过程中呢

我们虽然不了解总体的实际分布情况

但是由固定参数取值决定的概率分布

就像一个参照系一样

它仍然会在统计推断中发挥非常重要的作用

下面让我们来看一个例子

大家应该都看过终结者然后都知道辛瓦辛格是谁

也会知道他是一个肌肉男当然他

还有一件事情你们应该也知道

也就是说他当选了

加利福尼亚州的州长

那下面这个例子呢就是从施瓦辛格当州长这件事情说起的

假设说我们想知道

施瓦辛格是否能成为

加利福尼亚州的州长这是发生在他当选之前的事情了啊

在选举日那天呢

这个民调机构一定在

真正得出结果之前预先的预测出

到底是谁能当选

于是乎他们就对选民进行了一个

抽样调查

以提早的预测获胜者

那对于2006年的秋季进行的这场加州州长选举呢

CNN报道了来自

2705名选民的民调结果

也就是说实际上他们是想知道这个

施瓦辛格在全加利福尼亚州的支持率怎么样

全加州实际上有七百万人

但是它们从七百万人抽取了2705人

希望知道这2705人

的看法是怎么样的啊

结果显示

有百分之五十六点五的人

赞成共和党候选人阿诺德.施瓦辛格当选州长

那下面我们的问题就来了

百分之五十六点五说明什么

说明更多的人支持施瓦辛格吗

我们可不可以仅仅通过

百分之五十六点五的这样一个数字就得出这样的结论

为了判断我们的百分比是不是能够

有足够的信心对

候选人能否当选做出一个科学预测

那电视网可以问一个问题

它可以怎么问呢

它可以问说假设

只有一半的总体

就是说总体的真实情况只有一半的人是

投票给施瓦辛格的话

那么我们有没有可能会得到一个

支持律师百分之五十六点五的样本

也就是说在真实的总体是一半一半大家没有真正的偏好的情况下

得到百分之五十六点五的这样一个样本

会让我们感到惊奇吗

如果说

我认为特别特别奇怪不太可能

于是乎我们就可以推翻

之前的假设认为

总体中不太可能

只有一半的人支持施瓦辛格

如果答案是

因为抽样过程的随机性

在总体实际支持率是

百分之五十的情况下

得到百分之五十六点五这样比例的样本

一点都不足为奇

那么我们就不能自信的推断出总体的支持率是过半的了

所以说前面说了这么多

提问啊问题的方式

你会发现总体的支持率

我们真正想知道就是总体支持率有没有过半啊

它到底是不是过半完全依赖于

我们对百分之五十六点五这个比例

是不是奇怪的判断

你一定要给我一个

科学的证明说百分之五十六点五是奇怪还是不奇怪

那如果说把刚才我们的这个诉求

翻译成统计语言

数学语言实际上我们希望的是

在总体支持率为

百分之五十的前提下

得到百分之五十六点五这样一个

样本支持率的概率是多少

那这次州长竞选共有七百万人投票

我们抽取了2705人做出了一个预测

那么假设我们仅抽取四个选民进行预测

会得到怎么样的结论呢

这个概率该如何计算

现在我说起来

大家肯定会觉得

我哪知道怎么算我哪知道它

到底奇怪不奇怪呢实际上

你只要可以知道目标总体的大小就是七百万人

只要知道样本量你抽取的是2705个人还是4个人

再配合下面我们要讲的一些抽样分布的理论知识

计算这个概率呢并不是天方夜谭的

当然我们可以先撇开理论了啊

把理论放在一边

我可以先用计算机

来模拟一下

这个抽样的过程

下面我们来介绍怎么样用计算机模拟的方法

来模拟刚才我们所说的施瓦辛格竞选州长的那个例子

我们还是用我们最爱的R

我们打开一个R

一个R的控制板

首先我要生成我抽样的那个总体

就是从哪抽啊

我们例子里面说实际上加利福尼亚州有七百万的选民

所以我生成的这个总体

假装的这个总体应该有七百万那么大的总体的观测值

那我要首先有一个赋值的过程

我要生成一个向量这个向量里有七百万个数

我现在管它叫Population

Population等于什么呢

生成向量还用我们之前说的那个C函数

C函数里我们这个具体的例子包含两部分

我们说七百万人假设说总体里面有

一半是支持一半是反对的话

那我用0代表反对

1代表支持

我就可以重复0这个数三百五十万次

然后再重复1这个数三百五十万次

所以总体可以这样生成重复用repeat这个函数rep

然后0

第一个函数的赋值第一个参数

0代表的是你生成那个数要重复多少次呢

重复三百五十万次35后面五个0

然后后半截

我要重复1三百五十万次

我回车一下

现在程序就默默的帮我生成了

七百万个观测值

如果你非不放心你可以看看

我敲一下Population让它显示一下

它有一个默认的限定

我这个R现在限定的是

每次只显示前十万个数后面就都被忽略掉了

因为我前面三百五十万个都是0所以你现在看到的满篇都是0

那如果你还不放心我可以用table

类似于让它生成一个相对频数的方法table (Population)

程序要思考一下

因为我们七百万个数太大了然后你现在就会看到

我有三百五十万个0和三百五十万个1

然后下面我要从这样一个大总体里面抽样

抽多少个样呢

第一次我样本的限定是2705对吧

很膈色的一个数N等于2705
第一次我样本的限定是2705对吧

很膈色的一个数N等于2705

所以我这里面对n进行赋值n等于2705
很膈色的一个数N等于2705

所以我这里面对n进行赋值n等于2705

那么从大总体里面抽样

用到的函数是sample

那当然我还要对sample进行一个赋值

我管这个小的生成抽样以后得到的向量也叫作Sample

然后下面Sample是

第一个大写这个Sample你可以随便起名字你自己只要知道

这是你抽出来的那个向量

的名字就可以了

函数名这个小写sample是不能改的

实际上我们第一节课就已经用过这个函数了抽样

从总体里面抽

这个总体是谁我们刚才生成的那个叫做Population的东西

那样本量是几呢size等于n

其实我前面已经对size进行定义了

n等于2705

然后下面你还会告诉它说replace等于FALSE

replace指的是有放回还是无放回

那因为我要一次抽2705个人出来

我是不希望抽一个又放回进去抽一个又放进去的

所以这个时候我说的是有没有放回

没有

然后我再一个回车现在实际上我已经抽出来了这个样本

我可以不放心再看看Sample怎么样

可以看到下面我抽到了2705个数然后它的分布是随机的了

这是我抽到的其中一个样本

那我现在关注的就是在这个抽到的样本里面

有多少个人是支持施瓦辛格的呢

实际上特别简单的命令我对这个样本求均值就行了

求出均值发现

如果说总体里面一半支持一半反对

我现在抽到的这个样本

他的支持率是49.61%其实相当的接近50%了

那如果我不放心我说万一这个样本不够具有代表性呢

我还要抽它很多很多遍

那后面的程序比较复杂了

我其实有备而来

我有一个编辑好的文件

我现在可以用编辑好的文件把它跑一下顺便我们来介绍一下
我有一个编辑好的文件

我现在可以用编辑好的文件把它跑一下顺便我们来介绍一下

怎么用R语言的编辑器的功能

之前我所讲的每一条命令

我都是手动的非常土的把它一条一条的键入控制板的

那如果说你有很多的

R语言的程序操作的话你这么做

做过了就不记得了对吧你一定要有自己的编辑器

要记住自己跑过的所有命令

那R语言里面这个跑过的命令

的存储方式呢

都是存在.R这样的文件里面

如果说

你想生成一个新的编辑器我们可以点开文件file
如果说

你想生成一个新的编辑器我们可以点开文件file

然后你只要敲 new document就可以了

生成了一张白纸

然后下面你可以把你后面用到的所有的语句

都敲到这个白纸里面去

因为我之前有备而来

所以我直接打开我之前已经存好的这个叫做simulation的文件就好了

我现在敲开它前面这些命令都类似

下面我们来看看后面的命令

还是跟之前一样我先把我的

语句弄大一点

我们看下面第一个

我又有一个赋值我让p等于1000

这个p代表的是重复抽样的数量

我们说我想知道抽样分布是什么样子

抽样分布理解就是说

当样本量每次都是一样我每次都抽2705个人

我重复抽样这个动作要重复1000次

我要抽出1000个样本量都是2705这样的样本

那重复多少次我给一个赋值p等于1000

运行很简单

你可以直接把鼠标放到这一行

如果你用的是mac

你就用apple和enter这个命令

是快捷键

然后如果你用到的不是mac呢

Windows系统里面你可以直接

点CtrlR

或者是控制面板上一个运行键

你直接运行一下就好了

现在P等于1000我已经复制好了

然后下面

我要生成一个空的向量

就是里面没有具体取值的向量

这个向量我管它命令叫proportion叫比例

你想象一下你每次抽一个样本

都会对这个样本求一个支持比

那重复1000次操作实际上

对于每一个样本你可以算一个支持比的话你有1000个

支持比

当然现在我还没有重复1000次的操作呢

我要先生成一个空的向量一会

我要把每一个样本得出的支持比

分别都

填到这个空向量里面

空向量怎么生成

也是可以用repeat这个命令啊

rep(NA)

NA代表缺失值我现在没有值啊

rep空值NA

然后重复多少次呢

刚才说p等于1000我重复1000次

所以后面

重复的次数直接写的就是p了

我运行一下

然后下面实际写了一个小小的循环啊

实际上我们这节课

并不要求我们大家写循环但是

这是一点额外的知识啊你们可以

copy我的

拷贝下来我的

程序然后后面自己去练习

循环其实很简单用到的是

for这个命令

for( i in1:p)是对于

每一个

在1到p之间的数

所以i可能是1可能是2

也可能是一直到最后1000啊等于我一直

一个一个试这是我们以前计算机课学的内容啊

proportion[i]

代表的是proportion向量里面的

第一个数

第二个数还是第三个数“第”

所以proportion [i]代表的是proportion向量中的第i个数

它等于什么呢

它等于

对这个

抽到的样本求均值

实际上前面我们

算出的那个0.4961183

就是其中的一个

样本比例的估计

我现在运行这个循环啊

我们可以先看下之前生成的proportion我现在打开proportion

你想想一下你会看到什么你应该会看到

1000个

空值

得又出现

拼写错误了啊proportion

1000个空值你看到

1000个NA

然后下面

for loop 以后

你要重复就

重复抽样一千次

稍微有点慢啊现在程序在响

我们说这个

提示符没有出来之前都说明计算机在

拼命的奔跑

现在提示符出来了

就说明我这1000次的抽样

并且

计算每个样本比例的过程完成了

那我重新看一下proportion

重新看一下proportion

你会发现这1000个数都被填上了

那分别看下每个数都代表什么意思啊往上拉

第一个数等于0.5020333当然

一定要注意啊

因为每一个数都是随机数

对于你的电脑现在的时点不一样

它随机数生成的值肯定是不同的

所以你不要渴望

和我生成一模一样的数你自己一定会有你自己的一套数的

那以我这个

以我的

生成的数为例第一个数0.5020333

说明第一次我抽的样本量为2705这样一个样本

求支持率

支持率是

百分之50.2

然后

另外又从这七百万

人里面抽抽2705

个样本第二个样本的支持率是49.79667

以此类推我重复这样的操作1000次

这么多数

我看不出所以然所以我要画一个直方图

描述统计我想看看proportion

也就是抽样分布长成什么样子

我们看看这就是抽样分布啊

你会看到整个分布的中心就

是围绕整个0.5

左右来分布的

中心是0.5然后

左边好像有

一个比较异常的值0.46就算比较奇怪的了啊

然后

大部分的数

都集中在0.48

到0.52之间

我们猜测如果说样本

真的

抽了一个样得到百分之56.5

百分之56.5

在这个

抽样分布中显得就太大了啊根本就

没有这样的数

最大也才不过0.54

这是

用计算机模拟的时候我生成的直方图啊

然后下面我们说

抽样分布中

就是样本均值的均值

刚才有一千个关于

样本比例的估计值我对这1000个数再求一个平均值

我们说

样本均值的均值应该和总体

的均值μ都相差无几

总体均值是0.5我们看看样本均值

的均值等于多少呢

等于0.500271已经很接近了

如果你不厌其烦的试啊我们现在是重复这样操作1000次

你可以重复这样操作

一万次十万次你可以

看看是不是样本均值的均值在无限的

向总体的均值0.5这个数接近

那下面我关注的是0.565这个数是不是奇怪

如果我认为

0.565奇怪那么

比它还大的值它发生的概率是多少

我们看看在

我刚才的1000次操作里面

大于0.565这样的样本有多少个

用到命令是length

proportion然后

然后给一个限定是proportion大于0.565

你发现

刚才

我重复操作了1000次在这1000次没有任何

一次的样本比例是大于0.565的说明什么

如果你真的抽到0.565

那它是一个非常非常奇怪的数

也就是说

当样本量是2705的时候

当样本量是2705

而总体的真实的

支持率真的是百分之50的时候

你得到样本支持率为百分之56.5这样的数

非常奇怪

所以如果真的得到了百分之56.5你会得出一个什么样的结论呢

我会认为总体

的支持率应该是

大于百分之五十的

这是一个反证的过程啊

然后下面

我们看看

刚才样本量很大啊两千七百个样本

如果说我这次很穷只有

精力物力财力问四个人

那我现在换一下啊 n

不是2705了变成4

n等于4

我首先复制一下

然后重复刚才的操作啊其他都一模一样

只是我的样本量

有所变化

程序又开始

缄默啊然后下面提示符出来了

一千次运算算完了啊

给我了1000个样本

那当每次

抽样样本量是4的时候我这个

抽样分布为什么样呢首先我们先看看数值啊

你会发现数值不是

看似是在0.75

1然后0.25和0之间

变化

然后我下面看看分布

同样用直方图的方式

这个图和刚才那个图就很不一样了离散啊

后面我们会

用理论方法去证明

当你的

样本量只有4的时候实际上你一共可以得到

五个可能的取值

分别是0 0.25 0.5 0.75和1

然后当然好消息是

和总体真实情况最接近的0.5的这个

样本出现的概率最高

然后两边比较远0和1出现的概率低一点

然后同样对刚才的这样1000个数求均值

这得到的就是样本比例的

均值抽样样本比例的均值

应该和

总体的比例和总体的均值特别接近

等于0.50525

没有刚才2705那个接近不过也比较不错了

下面在这样一个

当样本量是4的时候我想知道

得到0.565奇不奇怪

我同样想看proportion

大于0.565

这样的样本

在刚才1000次抽样中有多少个

用length这个函数啊

然后你会发现哇

1000次里面

大于0.565的有308个

这说明什么呢

如果你的

样本量特别小

那就说明

你样本比例的取值的

变异性很大

取值可能会非常不靠谱

样本的代表性

比较有限

那当样本量仅仅为4的时候

得到百分之56.5这样比较极端的数

就没有那么奇怪了

大于0.565它的概率是多少呢

那实际上就是308除以1000

发生的概率是30.8%

这就是我们用计算机模拟的方式

来给大家模拟一下刚才施瓦辛格竞选的这个例子

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。