当前课程知识点:基于R语言的社会统计分析 >  第五章:统计推断 - 估计 >  5.1 用抽样分布来代表抽样的变异性 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

选民的偏好是一个变量

也就是说我每问一个人的时候

他可能告诉我说他是支持还是不支持施瓦辛格

不同的选民偏好不同

那类似的

每个样本中支持某一个候选人的比例

也是不一样的也是一个变量

也就是说

每次在真正获得一个样本之前

这个比例到底是多少其实我们是不知道的

你一定要时刻记住样本是存在随机性的

也就是说比如说抽样

问大家支不支持施瓦辛格这件事吧

我可能抽到了一个

民主党居多的这么一个小区

然后发现大部分人是不支持共和党候选人的

于是乎你得出了一个支持率是30%

很不可能但也有可能真的发生了即使是小概率的

那另外呢你跑到了一个富人区那里都是共和党

于是乎他们就很容易支持施瓦辛格

说他的支持率是80%的

也就是说不同的样本

你一定会得到细微不同

也有可能是得到非常非常不同的样本比例

那这里面就说明一件非常重要的事儿

就是说样本比例本身

这个样本统计量本身

它是一个随机变量它是随机的

然后如果我们抽取了很多个样本量n等于2705这样的一个样本

实际上我们可以预测到

这个样本的比例的取值

会以某种可预测的变异程度存在

就是说如果我们

每次都抽取2705这样一个数的样本

每个样本都会得到一个比例

你会发现比例和比例的取值不一样

但是把他们放在一起

每一个取值会有一个与之相对应的发生概率

实际上它的离散程度是可以被预测出来的

那这个变异程度就好像我们在刚刚模拟的过程中显示的那张图

那这个分布是什么

就是我们要说的这统计学精髓所在

抽样分布

这个抽样分布呢

同时提供了在样本量为n的时候

样本比例各种不同取值的出现概率

那下面一句简单的话

给抽样分布下一个定义它是什么呢

它的意思是一个统计量的抽样分布

说明了这个统计量的所有的可能取值

可能出现的概率

下面有几个非常重要的知识点

是在学习抽样分布的过程中我们一定要提炼出来的

首先第一件事我们要记住

从同一个总体中

即使抽取的样本量是一样的

我每次得到的样本

也会产生不同的统计量

简言之

从同一个总体中抽取的样本量

相同的样本会产生取值不同的统计量

这是第一件重要的事情

样本具有随机性

那第二件事呢

统计量本身是一个随机变量

我们说的统计量呢

每次我可能一说统计量的时候你会觉得很抽象

你可以每次都把统计量都抽象成样本均值

这个统计量可以是样本均值

可以是样本标准差

可以是样本比例

可以是样本中位数

只要它是某种代表样本特征的值

它其实都可以是某种统计量

那这个统计量

从不同的样本中得到的数就是不一样的

而且每一个数出现的概率也是不一样的

所以它本身也是一个随机变量

第三个重要的信息

任何可以给出这个统计量所有可能取值

以及这些取值所发生概率的表格

列表图形或者公式

就是我们所说的统计量的抽样分布

然后我一说

表格列表图形公式

你可能就会和前面的概率分布联系在一起

所以这其实是告诉我们

抽样分布就是一种概率分布

只不过这个概率分布是针对统计量而言的

第四个信息

你要带回家的

抽样分布的重要性在于什么

我们为什么要研究抽样分布

是因为它让我们知道

在某种样本量的情况下

统计量和样本参数间的距离

会有多远

刚才的例子就告诉我们说

当样本量为2705的时候

样本统计量

会落入总体参数3%的范围以内

就是

超也超不过3%这个数

就是它和真实的情况总是不会超过3%的距离

有了抽样分布能带给我们的这些信息你就会知道

某一个统计量到底奇怪不奇怪了

统计分布绝对是我认为是统计学中最最核心的概念之一

很重要

所以我们呢不光用计算机模拟的方法

来展现一下抽样分布的全过程

现在我们可以用手算

用手动复古的方法来看看抽样分布的全过程

我们仍然还是以施瓦辛格的支持率这件事为例

刚才我们一抽就抽了2705个人

很具体

现在呢我们因为是手算没有那么大劲儿了

我只抽取四个人

那下面呢

对于每一个变量我都有两个可能的取值

1代表的是我支持施瓦辛格

当y等于零的时候代表的是我不支持施瓦辛格

那在询问了四个人之后

你可能会得到怎么样的样本呢

你有可能会得到1111这样的一个样本

说明什么你问了四个人我全都支持施瓦辛格

因为每一个人都有两种可能的选择

然后样本中又有四个人

我们在中学的时候就学过排列组合

然后这个排列组合就告诉我们说

2的4次方等于16

于是乎在这种情况下我们一共可以得到十六种的可能的样本

分别是什么

已经在这个表里面给大家列出来了

你们可以看到这十六种情况分别长成什么样子

那因为呢

我们的假设是民众的支持率是50%的

就是说

我们的参照系

是在总体为50%的情况下我想知道56.5%奇怪不奇怪

于是乎呢

每一个可能样本出现的概率是一模一样的

也就是每一种情况的概率都是十六分之一

0.0625

那下面

我们看一看

每种样本可以导致的样本比例分别是多少

这个很简单

当四个人都支持的时候会发现样本的支持率是1

然后其中有三个人支持呢

支持率就是75%两个人就是5%以此类推

我们

可以把每一种类型的样本都算一个与之对应的样本支持率

然后再总结一下

我想知道每一种样本支持率

在整个的这十四个样本里面分别发生了多少次

很简单的一个总结你会发现

支持率为零的时候

发生了一次概率是0.0625

支持率是0.25的时候

这个十六个样本里面一共有四个样本

概率是25%

然后0.5的时候实际上

这是我们猜测到的总体的支持率

这个时候出现了

六次

然后这个样本取值的出现的概率是37.5%

我们看到的这个表

实际上就是

样本比例的抽样分布

而且是在我们的样本量为四的时候

样本比例的抽样分布

你想象一下如果你的样本比例是2705

我还想画一个表显得就比较困难一点了

那我们可以看看这个对比

当样本量为2705的时候

样本量为四的时候抽样分布到底有怎么样的不同

抽样分布呢描述了在收集数据的过程中

用样本统计量来

估计总体参数的样本随机性

我们应该时时刻刻的提醒自己

就是样本是具有随机性的

不同的样本

会导致不同的对总体的估计

那么就好比呢对同一次竞选的结果

不同的调查机构因为他们抽的样本不同

抽样方法略有不同呢

会得出略有不同的预测

统计量的抽样分布呢通过重复抽取样本量相同的样本

得出不同的统计量取值的相对频数

这个相对频数呢

可以通过真的重复抽样的方法

就像刚才一样手动抽样

也可以通过计算机模拟的形式来形成它

但是在实际研究中呢

其实不管是手动还是计算机模拟都是属于

实际应用empiricai method

这些方法呢实际上是不需要的

因为通常呢我们只会抽取一个样本

我没有那么多的时间精力去反复抽取样本

那抽样分布呢在这种情况下也并不是不能获得

通过我们后面要讲的一些理论

我们会推导出

不同的样本统计量的理论分布

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。