Video慕课视频播放-基于R语言的社会统计分析-MOOC慕课视频教程-柠檬大学

好讲完了抽样分布的基本知识呢

我们实际上就已经把概率论的部分基本掌握了

那下面呢我们就可以转移到

统计推断的部分来谈一谈估计也就是estimation

那在估计的这一个部分呢

我们首先

会介绍两种参数估计的基本方法

然后我们会聊聊怎么样

去估计总体的均值还有总体的比例

最后我们要聊一聊

要想找到一个很精准的估计

我们需要的样本量会是多少

那首先呢我们来看看两种基本的估计方法

我们这里面有两种估计方法需要掌握

第一个呢是点估计

另外一个是区间估计

好我们先看看点估计point estimation

它实际上我们

前面所提到的那些样本均值也好

样本标准差也好还有

样本比例

都是某一种形式的点估计

那也就是说我们为了描述总体的特征

我们会找一个统计量去描述它去估计它

那只有一次好的猜测一个点估计

我认为它就是我通过目前的数据可以得到的最好的猜测

所以如果一句话给点估计下一个特别简单的定义

它就是作为参数最好猜测的那个值

那区间估计呢

区间估计是

被认为包含总体参数的

围绕着点估计的一个区间

也就是说我现在认为

光给一个点是不够的

我还希望知道我的精确程度怎么样

于是乎我给一个区间

我会以某一种置信的程度

某一种信心的大小相信

我总体的真实值会落入这个区间

那再举一个更具体点的例子

美国综合社会调查

我每次都举这个例子

这个GSS里面有一道题

咱们听起来应该觉得还挺有意思的一道题

他问了所有的受访对象说

你认为人死后还有来生吗

那答案呢其实就是二分的

是或者否

如果大家选是就是1不是就是0

那如果说我们只要一个点估计的话

通过

对1539个调查对象呢

访谈

得出一个结论说

73％的人认为死后都有来生

挺大的一个数

然后我现在就想知道

我这73％的数到底有多靠谱

是所有的样本都能够很好的代表总体说

总体就是73％的这个比例吗

于是乎我希望给一个区间

这个区间告诉我说

全体美国人

全体美国人认为

死后还有来生的比例可能

有很大的几率会落在

0.71到0.75的这个区间里面

那实际上

0.71到0.75这个区间的意思也就是说

0.73这个点估计落在

真实的边际误差0.02的这个范围内的概率是很大的

这就帮助我们更好的了解

我们这个点估计的精确程度到底是怎么样的

那这里面呢我稍微再说一句

我们

中文的时候其实有时候不是特别做区分

我们都叫估计估计

那其实英文有一点点不同呢有

estimate有estimater还有estimation

那其实翻译成中文呢有的时候我们只粗略的都管它叫估计

你心里一定要明白是不一样的

estimate的意思

是估计的那个值具体估计出来那个数到底是多少

那estimater呢

是用来求这个估计值我们所用的那个统计量

然后最后estimation

是指的整个的做估计猜测数的这么一个过程

好下面呢

我们具体的来讲讲参数的点估计

其实

我们任何一个参数

都有很多种可能的估计量

那因为实际上我们最终的目标

是描述总体的某一种特征

比如说我想知道总体的中心在什么地方

那为了描述这个特征

我们会无所不用其极地想很多很多办法去描述它

那这样实际上在这个过程中

我们可以有好多好多候选的估计量

那这么多个估计量的话

到底哪个好呢

我们以上节课讲过的正态分布为例

我们说正态分布有特别漂亮的性质

因为它的绝对的对称它钟型的分布

它的均值等于中位数等于众数

所以如果我要让你描述一个正态总体的中心在哪里

我可以有三种选择

均值中位数众数都可以

那下面我就要选了

到底哪一个是最好的描述

那你就要有一些标准了

标准是什么呢

我们这里面说呢

一个好的估计量它应该满足两个条件

第一个条件

它应该以真实的参数值为中心分布

什么意思呢

我承认样本的变异性

对吧每抽一个样本得出来的数都是不一样的

我用一个样本的均值去估计总体均值

因为样本的随机性每个样本数都不一样

但是

又要

想象一个特别长久的持续的反复的过程

我抽了好多好多个样本以后

有一条特别美好的性质就是说

我希望所有样本的估计值如果对它们求一个平均值的话

它应该等于总体的真实值

这也就是我们所说的无偏性

那另外一条性质呢

叫做有效性简单的话是说

希望整个抽样分布的标准误越小越好

那我们现在再具体的说一下无偏性和有效性分别指的是什么

用我们的数学语言更精准的来表达它

首先无偏性

英文叫做Unbiasedness

这个如果说我们

用一个统一的希腊字母

来表示参数我们之前用过μ用过σ

它们都是总体的某种特殊形式的参数

那如果我现在想把参数这个总体我就是说总体参数

这么一件事

那我就可以用一个希腊字母叫θ来表达

它是整个的总体参数的一个总称

那如果说我希望

估计某一个总体参数

我实际上就想知道

每一个θ估计的平均值

所以我有一个关系

无偏性呢是说μθ(hat)

就等于θ(hat)的期望值

就应该等于总体的真实值

那

我这里面用到了一个词你们可能还不太适应哈θ(hat)

hat是戴帽子的意思

我们以前上高中的时候

实际上一个插入符号如果大家有印象高中的数学老师经常会

不是高中应该是大学的数学老师应该会直接管它叫θ一尖儿

其实我们可以把它读成θ(hat)

hat用来代表说这个值

是对总体的估计值

它是一个估计量它是一个estimate

那

如果说

一个参数满足无偏性

那θ(hat)期望值就应该等于总体的参数

那我们举几个例子

比如说

我们前面一直在讲

证明了好多抽样分布里面

样本均值的均值等于总体均值

对吧我们说μx(bar)

就等于x(bar)的期望值

就等于总体的均值μ

那实际上这个过程就已经很顺利的证明出了无偏性

所以

样本的均值自然而然的

它就成为了一个无偏估计量

那

另外呢还有一个例子我们想象一下

样本极差

如果说我想知道

总体的极差是多少

如果你们还记得极差是什么

最大值减去最小值

我下面要说

我希望用样本的极差去代表

总体的极差

那

你想象一下样本永远是从总体里面抽取的一个东西

除非你这个样本恰巧的

成功的抽取了总体的最小值和最大值

否则的话你这个

样本的极差永远是比总体的极差要小的

所以这里面呢

这是一个反例

告诉我们说样本的极差实际上是总体极差的一个

有偏的估计量

你需要经过一些调整

好这是我们说的无偏性

然后下面我们可以

聊一聊有效性有效性英文叫做Efficiency

什么意思呢

我希望

我每次抽到的这个样本

得出来的这个样本的估计量

都能特别有效率的去估计总体

我们希望什么叫有效率

我们又回到

前面每次都在重复的

每次抽一个样本样本的均值都会不一样

每次抽一个样本其他的各种的样本统计量都会不一样

然后我希望描述

样本和样本之间得出的统计量

到底有多不同

我想知道样本估计量的离散程度到底是多少

你想象一下

如果离散程度小就说明

样本和样本之间得出来这个值相差的很近

它们没有什么大不同所以

无关你到底抽的是哪个样本它对总体的代表性都不错

所以我们希望

从总体抽出来这个样本它的

标准误越小越好

那一个有效的估计量在抽样时会给出

更加接近于真实值的那样一个估计

那我们现在

再举一个例子再说回

我现在又想估计总体的均值

总体的均值是μ

我们

已经理所当然的每次都说我想估计总体均值那就用样本均值好了

那如果突然跳出一个人说

我不用样本均值我偏用别的

我就用样本里面的前两个数

就用两个观测值

之前我们说

说总体的均值

说样本的均值等于

x(bar)

就等于

把所有的观测值都

加起来再除以n

我现在跳出一个人说我偏不听你的

我的样本均值就等于

不是样本均值了我总体均值的估计就用两个观测值

二分之一x1加上二分之一x2

你能直接推翻他吗

我们前面先说无偏性

无偏性的意思是说

重复好多次抽样

只要对每一次抽样的结果求一个均值等于总体的均值

那就是一个好的无偏估计量

那我现在把它求一个均值试试看

每次都抽一个样求一个均值

E二分之一x1加二分之一x2我们再把常数提出来

我们看x1和x2

E(x1)E(x2)分别等于多少

又回到之前的那个证明

每个人都可以是抽样中的第一个人

于是出

总体里面的每一个人都有被抽中的概率

所以x1的均值又回到了总体的均值

变成μ了

那它就等于二分之一乘以μ

再加上

以此类推二分之一乘以μ

等于μ

即使这么不靠谱的一个

我偏说我为了描述总体的中心在哪我就用两个观测值

它仍然满足无偏性对吧

很美好

那现在就需要另外一个标准把它给踢出去了

对吧为什么说它不好

那我们现在试试另一条标准叫做有效性

有效性一定要看它的标准差是多少了

那我们现在来看看这个数的

先看这个数的方差是多少

我们看这个数的方差同样的道理

方差的时候就要把乘数往外提对吧

那它就应该等于四分之一的

x1的方差

加上四分之一的x2的方差

同样

人人都可以是样本里面的第一个数

于是乎实际上

第一个变量的方差就相当于总体的方差

那就变成了四分之一

σ的平方

加上四分之一σ的平方

等于

二分之σ方

那标差呢

就等于σ除以根号2

那还记得原来我们说的用样本均值的时候

它的标准差是多少呢

用样本均值去估计总体均值的时候

样本均值的

抽样分布里面的标准差是σ除以根号n

那我问你它俩谁大呀

除非n等于2

否则的话

这个数永远是大于我们之前用到的这个数的

这就说明什么

相对于原来我们提出的

样本均值的标准差

这个数永远比它大它永远是更无效的那一个

那一个估计

这就是证明了

参数的点估计需要满足两条非常重要的性质

第一条是无偏性

第二条是有效性

点估计

其实有好多好多找到点估计的方法

我们

这里面说的时候就是实际上

我们为了找一条总体的特性

一般情况下找与之对应的样本特性就可以了

比如说我想知道总体的均值我就用样本均值

我想知道总体的标准差

我就用样本标准差

除了刚才说的总体极差用样本极差代不太合适

其他的大多数情况下

用样本的对应的那个估计量去估计总体是安全的

那另外呢还有一种

求点估计的方法

可能呢我们目前

的数学水平还不足以支持我们去完全的理解这种方法

但是我觉得还是有必要把它的

基本思路给大家讲一讲的

这种点估计呢

叫做极大似然法中的点估计

极大似然法英文叫做

有的时候我们直接把它简化成ml方法

那这里面呢就不得不提到一个人

这个人叫做

Ronald Fisher

Ronald Fisher呢学统计的人都知道Fisher

有的人会直接说说我是

Fisher的门徒

当这个频数派和贝叶斯派打架的时候

他是非常有名的一个

统计学家而且他还是遗传学家

这个英国人呢

他在伦敦北部的一个

农业研究工作站工作的时候

他提出了好多关于点估计还有实验设计的一些经典理论

很多经典理论呢一直到现在都在使用

我记得我上学的时候被迫读了很多很多Fisher的著作

那在点估计方面他极大的大力的宣扬一种方法

叫做极大似然估计法的理念

maximum likelihood estimate

那我们这门课呢不会触及

它的数学内涵

但是它的基本思想

基本上还是可以介绍一下的

它是这样的

它说Fisher认为呢

极大似然估计值应该

是与观测数值

观测数据最为一致的一种估计值

什么叫一致

什么叫这个

极大自然估计值应该是与观测数值最为一致的

它的意思是

如果总体参数

是你猜的这个数

总体参数就是你猜的这个样本的估计值

那我们得到手头的你眼前的这组观测数据的概率

应该是最大的

它是一个求概率最大化的过程

那

它应该是大于当总体参数等于其他的任何数值的时候

得到这组观测值的概率

所以你就想象一下实际上这个过程就是我一直在试

我想找一个最棒的样本的观测值

于是乎我可能试了一个1试了一个2

在1的情况下我算算得到这组观测值的概率是多少

我换一个数

我试试等于2的时候

得到这组数的概率是多少

我试了好多数以后我要找到最大的那个概率

只要概率最大我就可以知道那它

现在的你猜到的这个样本估计值就是

极大似然估计值了

我们举一个例子

近期呢有一个对一千名美国人的调查显示

它说有37％的人都相信真心树

发现美国人首先

73％的人相信死后还有来生

然后37％的人相信真心树

那么这组观测值必然是

在总体

也就是全体美国人有37％的人相信真心树的情况下

发生的可能性最大的一组观测值

这是极大似然估计的思想

那

其实对于很多种分布

比如说正态分布来说

有一个特别棒的特性

这就是为什么我们大爱正态分布

在正态分布里面呢

样本均值就是总体均值的极大似然估计值

就是它

可能并不是以极大似然估计的思路算来的

但是它得到的值刚好和极大似然估计值是一致的

这就是我们所说的极大似然估计法

后面呢我们还会对极大似然法有所涉及但是

大家不用太担心里面的数学内容

老师算这个最大化的概率可能有同学一听就头大了

恩这个思想是非常好的我们在后面还会

慢慢的给大家深化这个意思

基于R语言的社会统计分析课程列表：

第一章：绪论

-1.1 什么是统计学?

-1.2 数据

-1.3 随机化原则

-1.4 数据收集方法

-第一章：绪论--1.5 习题

第二章：描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章：描述统计--2.6 习题

第三章：基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章基于R语言的探索性数据分析

第四章：概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章：概率分布--4.5 习题

-第四章概率分布

第五章：统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章：统计推断 - 估计--5.5 习题

-第五章抽样分布

第六章：统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章：统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章统计推断 - 区间估计

第七章：统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章：统计推断 - 显著性检验--7.6 习题

-第七章统计推断 - 显著性检验

第八章：两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析（选学）

--Video

-第八章：两组比较和多组比较--8.6 习题

第九章：变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章：变量间的关联分析--9.4 习题

-第九章 R Code

第十章：简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章：简单线性回归--10.6 习题

-第十章简单线性回归模型 - 讲义

-第十章 R Code

第十一章：多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章：多元回归--11.5 习题

-第十一章 R Code

-第十一章多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章：统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章： 统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

第七章：统计推断 - 显著性检验