9079461

当前课程知识点:基于R语言的社会统计分析 >  第六章:统计推断 - 区间估计 >  6.4 总体均值的区间估计 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:州长选举支持率模拟抽样 R Code

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好下面讲完了总体比例的置信区间我们来看看

总体均值的置信区间

首先

它和比例的置信区间采取非常类似的形式

什么形式呢

这置信区间一定也是围绕点估计

团结在点估计左右的

加上减去一个数这个

加减的数又是边际误差

它的基本形式就是点估计

加减边际误差

那同样

这个边际误差仍然是标准误的某种倍数

之前呢

比例的时候也是一样

它是标准误的某种倍数是1.96啊还是2.58

这个倍数是根据置信水平的大小而决定的

那总体均值μ的点估计是

X(bar)

也就是样本均值

那对于一个

样本量足够大的随机样本

根据中心极限定理

我们知道样本均值X(bar)的抽样分布

是接近于正态分布的

所以对于大样本来说我们可以很自然的通过

标准正态分布的某个

标准计分

也就是z-score乘以

标准误差来求得这个边际误差这个很直接

那在抽样分布的学习中呢

其实我们

对样本均值已经特别了解了我们知道

样本均值的均值是

总体均值

然后我们还知道样本均值的标准差等于σ除以根号n

时间长了你们都会背了

σx(bar)等于σ除以根号n

那这里面的σ是谁

它就是总体的标准差

那和总体的比例类似

又有一个问题了对吧

这个σ是我们所不知道的

于是乎我们就需要用样本的标准差s

来代替总体的标准差σ

那于是呢

构建这个置信区间所用到的标准误

实际上是抽样分布标准误的一个

估计值

我们叫做estimated standard error

就是理想中

我们想知道的那个抽样分布的标准误

我们因为并不知道总体的那个σ

所以没法直接求得

那退而求其次

我们要用样本的这个标准差s来代替σ

那它就变成standard error简称se

se就等于

s除以根号n

好下面让我们来看一个例子

又是来自美国综合社会调查GSS的一个

很有意思的问题

调查人员呢他询问访谈对象

一个比较敏感的问题

他问他们自从年满了18岁以后

有过多少个性伴侣

那在2006年的那次调查中呢

他们询问了

231名年龄在20到29岁之间的女性

然后这些女性就回答了她们

年满了18岁之后到底有过多少个性伴侣

这个数量的均值是4.96

你们现在看到的

是我们通过统计软件呢对这个

变量做的特别基本的一个描述分析

一般情况下你

用任何一个统计软件对一个变量做一个简单的summary

你让它做描述统计它会给你

这个变量的样本量

均值标准差还有

标准误以及95%的置信度

置信区间你会看到

用到了231个样本

均值是4.96

然后实际上标准差还挺大的说明人和人之间区别还比较大

标准差是6.81

然后下面

这个叫做SE Mean的

代表的是

样本均值的

标准误standard error

等于0.45我们可以看看这个0.45

是怎么算出来的实际上

刚才我们那个公式SE就等于

样本的标准差除以根号N

那SE就等于S除以根号n

等于6.81除以根号下231

很直观的啊就是

直接带公式我们就可以算出来等于0.45了

也就是说

我们

231这一个样本只是众多可能中的一个

如果我们想知道全美国人的情况

显然我用231个人去回答这个问题显然还不够

所以231呢

是许多个

样本为231的随机样本中一个

然后我们通过不同的样本

会得到略有不同的

对性伴侣数量平均数的估计

然后每一个平均数都不一样

那我对这些个平均数

再求它们的标准差

平均数的标准差

等于0.45它代表的是

样本和样本之间

不同的程度

那下面95%CI

CI是confidence interval 的简称

很多软件都直接写CI了

但这个置信区间

和我们前面讲的一样它的意思是说

我们以95%的信心相信

4.1到5.8这样的一个区间

会包含

全美国人的

性伴侣的平均数这么一个真实情况

或者说呢我们直接说总体的真实值

落入4.1

到5.8这个区间的概率

为95%

然后下面的问题就来了

那计算机是怎么算出来这个置信区间的

我们试一试我们刚才说说

总体

均值的

置信区间采取和

总体比例置信区间一致的形式是点估计

加减一个

边际误差

然后我们又说边际误差

某一个特定的倍数乘以标准误

现在等于我们知道点估计的值了

是谁啊是样本均值4.96

我们又知道了

样本的标准误

虽然它是估计的标准误估计标准误

等于0.45那我们算一算

这个倍数是多少

然后我们

用4.96减去4.1

除以0.45

等于1.91

我们之前讲过

用到Z-score用到正态分布的时候这个倍数

常用的倍数是

尤其是95%的倍数是1.96

那1.91好像和1.96不太一样啊

那这个数是怎么算出来的

那其实在这种情况下

我们要求助另一种

连续型变量的分布啦

这个分布的名字叫做T分布

T分布

很重要啊它也是一个很特别的分布

它帮助我们去构建一个

没有样本量要求的置信区间

那我们现在来看一看T分布怎么回事

在学习总体比例的置信区间的时候呢

我们刚才

经常要说说是在样本量足够大的情况下

总体比例的置信区间等于刚才我们所说的那个区间啊

那我们现在呢需要学习一种对于

任何的样本量

都适用的置信区间

我们不想被样本量大小禁锢啊

即使样本量特别小我也希望能

比较安稳的推出一个置信区间

那当然呢万事都要有取舍

那要做到对任何样本量都适用

你显然要降低一些灵活性

你就需要有所牺牲

那这个牺牲是什么呢

你要对总体有所假设了

我们之前为什么要样本量大是因为我们想用中心极限定理

中心极限定理的好处在于它对总体没有任何的要求

你可以是特别偏的

可以是卡方分布可以是

可以使我们之前说的均匀分布啊

那现在呢我们回来既然你要把这个样本量的要求

给去掉给抹去

那我就希望你的总体是一个

正态分布了

有得总要有舍

那我们需要一个假设那就是总体服从正态分布

这个时候呢

我们可以从

这张你们正看到的这张图可以看出来啊

当总体是正态的情况下

不同样本量情况下

抽样分布的形状呢

是有变化的

它们都是正态分布

我们可以看到当样本量是2 5 30 甚至更多的时候它的变化情况啊

即使当样本量是2的时候

它的抽样分布也服从正态分布

唯一的不同在于就是随着样本量的增加你会看到

数据的离散程度逐渐降低

那图形显得越来越瘦数据显得越来越集中

样本和样本的取值会越接近

那么假设

我们特别精确的

知道总体的标准差σ是多少

我们就可以特别精确的计算出

抽样分布的标准误用

我们老用的那个公式

说σx(bar)应该等于σ除以根号n

然后

配合着前面我们说的总体的正态假设你就可以说

不管样本量n是多少我们都可以

安全的推算出

总体均值的置信区间这个置信区间呢应该等于

x(bar)

也就是点估计

加减z乘以σx

这个z得分就是我们所说的那个倍数

也就是x(bar)加减z

乘以σ除以根号n

常用的当置信度为95%的情况下

我们的z得分等于1.96

然后如果说现实这么美好的话

我们就不用再多学一个连续型变量的分布

我不用学T分布了

好我们又要说呢现实中我们

并不知道总体的标准差σ是多少

如果知道的话我就用刚才的x(bar)加减z乘以σx(bar)

就可以直接

构建出一个很完美的置信区间了

但是现实上我们不知道σ是多少

那又要做同样的操作

我要用

样本的标准差s

去代替总体的标准差σ

那因为这样一个动作

因为样本的标准差毕竟不是总体的标准差σ

我实际上

引入了一些不可避免的额外的误差

那尤其是当你的样本量比较小的情况下

你的样本标准差

实际上很可能距离总体的那个标准差还

差了老远呢

那于是乎这个

小小的额外的误差

可能就不可避免了

那所以我们要想一个办法

因为额外误差的引入

我们的置信区间可能就要比以前要宽了

要用一个稍微大一些的数字

代替z-score

那这个数字呢就是T-score

T-score呢

来自于T分布

这个分布呢

和正态分布实际上长得特别特别像

因为只是一个小小的替代的过程

唯一的不同

就是它的离散程度稍大

那下面呢我们就来具体看看T分布的几个

漂亮的性质

T分布也是一个很不错的分布我们后面老要使用到它

它其中

首先第一条最漂亮的性质

它也是钟形的而且它是绝对对称的

绝对对称说明它的均值也等于中位数

也等于众数

钟形对称

第二条

它的标准差稍微大于1

你们现在可以看到一张图

经常我拿到这张图去考大家

我在什么都不写的情况下我问你

哪一个是标准正态分布

哪一个是T分布

你可能说我哪知道啊

长得都是对称的钟形分布

然后前面我们说

说T分布的标准差稍大于1

标准正态分布的标准差是1

那T分布呢稍大于1

说明它的离散程度

会比标准正态分布稍稍大一点

那如果说一个分布的离散程度稍微大一点

会体现在哪呢

也就是它

我经常用特别土的话说我说它有胖尾巴
也就是它

我经常用特别土的话说我说它有胖尾巴

它两边胖

我们管它叫fat tail胖尾巴

你看很清楚这两张图上谁

是有一个更胖的尾巴就是

两边尾巴更高的那个是T分布

然后第三条重要的性质

T分布在某种程度上

可以说比正态分布还美好

我们说正态分布呢有两个参数决定它的形状

给一个均值给一个标准差我就可以

完美的

精确的确定一个正态分布长什么样子了

那T分布需要的信息更少

我只要一个参数

叫做自由度

degree of freedom

我就可以完全的确定一个T分布长成什么样子

degree of freedom呢简称我们一般都用df来

标识它

df就等于样本的样本量n减去1

我们可以看下面这张图

当自由度不同的时候实际上

T分布的形状略有改变

随着自由度增高

实际上自由度

等于n减1的话

自由度升高就说明我的样本量变大了

样本量越大

T分布实际上慢慢的

渐近于一个标准正态分布

它的尾巴就从一个特别胖的两边很高的尾巴

变得越来越瘦越来越瘦直到

和正态分布重叠

这是我们要说的

很重要实际上也说出来了第四条性质

就是随着df

自由度的增加

T分布越来越趋近于

标准正态分布

当自由度大于30的时候

每次我们经常用30来

来代表一个大样本

其实它并不算很大但是

只是30这么一个数

很多漂亮的性质一些渐进理论就可以实现了

那当自由度大于30的时候

两种分布形状基本一致

近乎可以重叠了

然后最后一条性质

也就是说

总体均值的置信区间中的边际误差

这其实不是T分布的性质

是我们要说用T分布

构建置信区间了

我们实际上

在构建总体均值置信区间的时候

只是用T得分

把z-score代替了

它就可以构建出一个很棒的

很科学的置信区间了

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。