13.2.总体与样本慕课视频播放-概率论与数理统计-MOOC慕课视频教程-柠檬大学

获取数据的知识

总体和样本是统计学中最基本的概念

总体是一个统计问题研究对象的全体

而构成总体的每个成员

就被称为个体

人们能够从个体

清晰地获取具体的数据特征

所以说个体是数据的载体

而总体的信息往往

并不是直接显然的

从中获取有意义的信息

通常就是统计学研究的目标

下面我们通过一个例子来说明

总体和个体的确切含义

考虑这样的问题

研究某个地区高中男生的身高情况

具体说来

我们可能想了解

这批学生的平均身高是多少

1米90以上的学生占总数的比例

1米80以上的学生占总数的比例

身高最集中的区域在哪里

等等方面的情况

那么

该地区全体高中男生

就构成一个总体

而其中每一名学生

就是该总体中的一个个体

作为学生的个体

就是身高这个我们关心的数据特征的载体

对于每一名特定的学生

也就是每个个体的身高信息

是很容易清晰的获取的

但全体学生的身高信息

并不容易得到

需要引入有效的方法

这就是统计学要研究的课题

因为我们真正关心的

是数据的特征

因此总体

也可更直接地理解为

个体所具有的数量指标的全体

而每一成员的相应的数量指标

就是一个个体

对这个高中生身高的例子而言

由于我们感兴趣的

是该地区高中男生的身高

因此将学生身高的全体

作为一个总体

而每一名学生的

身高就是一个个体

当然

身高只是一名学生所具有的

多种可能的指标中的一个

如果我们关心学生的体重

那么全体学生的体重指标

就又构成了另外一个总体

如果不加处理的话

总体

也就是个体所具有的

数量指标的全体

它们仅仅是一组杂乱无章的数据

想要得到其中的有效信息

必须赋予这些数据一些规律性

也就是赋予数据一些数学

或概率的性质

这样才能真正有效的

对它们进行定量研究

提取有意义的信息

描述数据随机规律的

基本的模型是概率分布

所以统计学中的总体

实际就是一个概率分布

而其数量指标

就是服从这个分布的随机变量

在统计学研究中

人们总是假定

总体服从某种分布

也就是

总体即分布

在高中生身高的例子中

可以假定总体服从正态分布

叫做正态分布总体

简称正态总体

而如果总体分布

设为指数分布时

就称为指数分布总体

例如一批电子元器件的寿命

往往就设定为指数总体

当总体分布设为均匀分布时

则称为均匀分布总体

例如

公交车的等待时间

通常就可以用均匀总体来描述

下面我们对总体即分布的概念

作一点进一步的解释

用分布表示总体

一定意味着某种近似

因为真实数据一般来说

并不是简简单单的

严格地服从某种特定的分布

实际上

用正态分布

指数分布等来描述数据总体

就好比用长方形

圆形来描述物体的形状

世界上没有真正的长方形

圆形

但是用这样的抽象概念

可以很好地对图形给出近似刻画

这种抽象和近似

是数学处理的很本质的思想

刚才我们讲到

总体是一个抽象的

理想化的概念

多数情况下

统计学研究的数据

都无法严格地满足某个特定的分布

用来描述总体特性规律的概率分布

往往是对所研究数据的

某种近似

这个概念很大程度上

要归功于R.A.费舍尔

费舍尔是20世纪

最伟大的统计学家之一

他引入了“无限总体”这个概念

现实世界我们所面对的问题

其个体数目往往是有限的

例如

我们这一节里一直在使用的

中学生身高的例子

这个总体所包含的

全部个体是这个地区的

全体高中男生的身高

它的数目是有限的

所服从的分布

也就应该是一个离散分布

但如果这么直接的考虑的话

就无法给出总体的一个

简洁的表述

也就无法使用各种概率工具

对数据进行有效的分析和计算

因此

费舍尔引入了无限总体的概念

用理想化的连续分布

近似现实中的离散分布

例如

用正态分布来近似

中学生的身高分布

当总体中所含个体的

数目非常多的时候

在概率计算的意义下

由这种近似带来的误差

往往是微乎其微

可以忽略不计的

用抽象的概率分布

描述总体

更进一步的合理性在于

几种常见的

而且在概率上容易处理的分布

比如正态分布

指数分布

均匀分布

它们为许多实际问题的总体分布

提供了相当好的近似

而围绕这些分布

建立了大量

深刻而有效的统计方法

再举一个例子

设有一个物体

其真实质量a未知

要通过多次测量

来估计该物体质量

事实上对一个物体而言

其质量是客观存在的

但是质量的绝对真实值

是无法确切知道的

我们只能通过一定次数的

测量来估计这个物体的质量

若测量误差服从期望是0

方差是sigma方的正态分布

则所有可能的测量结果

构成总体

这个总体本身就是无限总体

服从期望是a

方差为sigma方的正态分布

无限总体包含取之不尽的

不同的个体

即使是有限总体

其个体数目也往往是非常庞大的

考察总体中

所有的个体是不现实的

也是不必要的

统计学的任务

就是利用尽可能少量的个体的数据

获得总体的信息

由这些少量的个体数据

就产生了样本的概念

按照我们教材中给出的定义

从总体中按一定

规则抽出的一部分个体

称为样品

样本中的个体称为样品

样品的个数称为样本容量

或样本量

我们抽取样本的目的

是用来对总体进行各种统计推断

由于样本是从总体中随机抽取的

在抽样前无法预知

它们会取到什么值

因此样本是随机变量

本课程中用

大写字母X1、X2到Xn表示样本

此时样本容量为n

一般来说

总体的信息

并不是直接反映在样本中的

需要对样本进行

进一步的计算处理

才可能获取有意义的总体信息

为了便于进行概率处理

通常要求样本满足以下性质

首先样本要具有随机性

例如

上一节小儿麻痹的例子

只有抽样具有随机性

抽样得到的个体数据

才具有代表性

其次

样本之间要相互独立

即上述X1、X2到Xn

这n个随机变量相互独立

这样所得到的样本

称为简单随机样本

今后如果不作特别说明

课程中提到的样本

总是指简单随机样本

刚才讲到

样本是随机变量

用大写字母X1、X2和Xn表示

那一旦样本在抽取后

就得到了一组确定的观测值

它们是样本的一次具体实现

这些值用小写字母x1、x2和xn表示

样本为随机变量和样本的实现

其中的区别初学者往往

不容易正确把握

其确切含义

我们用一个例子来具体说明

随机抛掷一枚骰子

观测其出现的点数

此时总体的分布

是取值为1、2、3、4、5、6的

均匀分布

现在将骰子

独立重复地抛掷10次

得到一个样本X1、X2 直到X10

其中每一个Xk

这里k从1到10取值

都是服从取值为1、2、3、4、5、6的

均匀分布随机变量

这里样本强调的是

抽取样品的个数

强调的抽取的方式

并不是具体的

抽取到的点数结果

进一步模拟一下抽样过程

那我们想象

做了一次抛掷10次骰子的

这样的实现具体的实现

得到一组点数5、6、1、6、4、1、2、4、6、6

那如果再重复这个过程

继续投掷骰子抽取10个样品

得到新的一组点数

3、5、1、4、5、3、6、1、2、4

继续重复这个过程

得到一组新的点数

6、2、4、1、3、2、6、5、1、3

如此不断进行

一般而言

我们所得到每组点数

都是不同的

是随机的

每一行的点数

就是一组确定的观测值

它是样本的一次具体实现

而第一列数表示

随机变量X1的取值

它的值在不断变化

如果不断地取下去

第一列数字将表现出

服从取值为1、2、3、4、5、6的

均匀分布随机变量的概率性质

如果专门看第4列数

不断地增加数据

那么也一定会表现出

服从取值为1、2、3、4、5、6的

均匀分布随机变量的概率性质

即X4是服从均匀分布的随机变量

数据是一切统计分析的基础

统计分析的成功依赖于详实的数据

如果数据出了问题

一切后续的分析都将失去意义

那么如何保证数据的可靠性呢

有两方面的要求非常重要

一是保证数据真实

尽可能获取第一手数据资料

二是收集的数据要有代表性

尽可能全面的蕴含人们

所真正关心的信息

我们先看一个

关于第一手数据的例子

有人收集了一批

某个落后地区居民的

人类学指标的数据

邀请一位英国统计学者

对数据进行分析

他们测定了很多人类学特征

其中的一项指标是体重

体重的原始的测量记录为

7.6 、6.5 、8.1、、…等等一些数据

这里的重量单位是英石

1英石等于14磅

负责整理测量的助手

将这些测量数据乘以14

将英石转换为以磅为

单位的测量值

得到7.6*14=106.4磅

6.5*14=90.0磅

8.1*14=113.4磅

等这样的体重记录

提交给统计学者

但这位统计学者认为

应该查看原始记录

就在查看原始记录的时候

他发现了一个特别的现象

所有重量的这个测量值呢

它的小数点后面

从来没有出现过

7、8、9这三个数字

他马上察觉到

在大量的数据测量下

发生这种情况几乎是不可能的

发生概率几乎为0

进一步调查发现

当地人在进行测量时

使用的是英国制造体重秤

而且是很古老的一种秤

上面只有英石的刻度

当地人将英石与英石的

刻度之间等分为7个单位

得到了更细致的刻度

所以原始数据

小数点后面它使用的并非是10进制

而是7进制

7.6这个测量结果

对应的正确的体重

应该是7又7分之6英石

这个数乘以14

等于110磅

而不是106.4磅

由于统计学者的严谨

这批数据避免了

平均3到4磅的重量偏差

统计学的研究

完全靠数据说话

对数据的详细考察

是统计分析最基本的保证

必须尽可能谨慎地面对

第一手的数据

关于数据的代表性

我们同样以一个真实的故事来说明

这是统计学里面一个很著名的案例

《文学摘要》是二十世纪初

美国的一本畅销杂志

这个杂志在二十世纪

二三十年代连续几次

成功地预测了美国总统大选的结果

因此获得了很好的声誉

1936年该杂志预测

候选人兰顿

将获得60%的支持率

击败另一名候选人罗斯福

但那次选举的真正结果是

罗斯福赢得了62%的选票

压倒性地战胜了兰顿

《文学摘要》的预测误差如此之大

几乎是重要民意测验

曾经出现过的最大偏差

人们事后分析原因

如此大的误差主要是源自抽样方法

该杂志给1000万名预期的

选民邮寄了问卷

这些人的姓名地址等信息

来自于电话簿

以及俱乐部会员的名册

而在当时能够拥有电话

和加入俱乐部的人

大多是中产阶级

或更为富有的群体

非俱乐部的成员

及没有电话的收入较低的人

都被《文学摘要》的民意测验给遗漏了

因此《文学摘要》的

抽样程序具有很强的选择偏向

在1936年之前

这种偏向

可能对预测结果的影响不大

因为那个时候

富人与穷人对政治主张

并不是很敏感

但在1936年

政治见解与经济状况发生了

更为密切的关联

从而导致大多数低收入的人

投了罗斯福的票

罗斯福的支持率

被《文学摘要》大大低估了

其次

杂志社发出的1000万份问卷

只收到230万份的反馈

超过75%的人并没有给出答复

愿意回答与不愿意回答本身

也代表着人的某种倾向

因此

过低的反馈率同样导致了

调查的倾向性

这两个因素是产生巨大的

预测偏差的主要原因

虽然

一般而言数据量越大

所得的估计效果就会越好

但是当抽样策略有偏向时

大量的数据是没有帮助的

它只是在更大的规模下

重复基本的错误而已

好的数据收集方法

一定要具有代表性

使得相关信息都能够平等

随机地被数据反映

以美国总统竞选为例

在《文学摘要》失败的同时

Gallup的问卷方法取得了成功

有兴趣的读者可以检索一下

Gallup民意测验

了解更多的如何更加有效的

概率论与数理统计课程列表：

第一周：随机事件及其概率运算

-随机试验与随机事件

--1.1 随机试验与随机事件

-古典概型

--1.2 古典概型

--第一周：古典概型

-事件间的关系与事件的运算

--1.3 事件间的关系与事件的运算

--第一周：事件间的关系与事件的运算

-两个著名的例子

--1.4 两个著名的例子

--第一周：两个著名的例子

-讲义

第二周：条件概率和独立性

-条件概率

--2.1 条件概率

--第二周：条件概率

-有关条件概率的三个重要计算公式

--2.2 条件概率的三个重要计算公式

--第二周：有关条件概率的三个重要计算公式

-事件的独立性

--2.3 事件的独立性

--第二周：事件的独立性

-应用实例

--2.4 应用实例

--第二周：应用实例

-网球比赛胜率的计算

--Video

-讲义

第三周：随机变量

-随机变量及分布函数

--3.1．随机变量及分布函数

--第三周：随机变量及分布函数

-离散型与连续型随机变量

--3.2 离散型随机变量

--第三周：离散型与连续型随机变量

-分布函数的性质与特殊的例子

--3.3 分布函数的性质与特殊的例子

--第三周：分布函数的性质与特殊的例子

-概率论所需微积分要点回顾

--3.4 概率论所需微积分要点回顾

--第三周：概率论所需微积分要点回顾

-讲义

第四周：常见随机变量

-二项分布与负二项分布

--4.1 二项分布与负二项分布

--第四周：二项分布与负二项分布

-泊松分布

--4.2 泊松分布

--第四周：泊松分布

-几何分布与指数分布

--4.3 几何分布与指数分布

--第四周：几何分布与指数分布

-正态分布

--4.4 正态分布

--第四周：正态分布

-讲义

第五周：随机变量函数的分布及随机变量的数字特征

-随机变量函数的分布

--5.1 随机变量函数的分布

--第五周：随机变量函数的分布

-随机变量的数学期望

--5.2 随机变量的数学期望

--第五周：随机变量的数学期望

-随机变量的方差

--5.3 随机变量的方差

--第五周：随机变量的方差

-原点矩与中心矩

--5.4 原点矩与中心矩

--第五周：原点矩与中心矩

-期望和方差的一些补充性质

--5.5 期望和方差的一些补充性质

--第五周：期望和方差的一些补充性质

-讲义

第六周：常见随机变量的期望方差和应用实例

-二项分布与泊松分布的期望与方差

--6.1二项分布与泊松分布的期望与方差

--第六周：二项分布与泊松分布的期望与方差

-几何分布的期望与方差

--6.2 几何分布的期望与方差

--第六周：几何分布的期望与方差

-均匀、指数和正态分布的期望与方差

--6.3 均匀、指数和正态分布的期望与方差

--第六周：均匀、指数和正态分布的期望与方差

-随机变量数学期望的应用实例

--6.4 随机变量数学期望的应用实例

--第六周：随机变量数学期望的应用实例

-快速排序算法的平均计算量分析

--Video

-讲义

第七周：多维随机变量，独立性

-多维随机变量

--7.1. 多维随机变量

-第七周：多维随机变量

-常见多维随机变量举例

--7.2. 常见多维随机变量举例

--第七周：常见多维随机变量举例

-随机变量的独立性

--7.3 随机变量的独立性

--第七周：随机变量的独立性

-独立随机变量期望和方差的性质

--7.4 独立随机变量期望和方差的性质

--第七周：独立随机变量期望和方差的性质

-讲义

第八周：条件分布与条件期望

-条件分布

--8.1条件分布

--第八周：条件分布

-条件期望

--8.2 条件期望

--第八周：条件期望

-全期望公式（上）

--8.3 全期望公式（上）

--第八周：全期望公式（上）

-全期望公式（下）

--8.4 全期望公式（下）

--第八周：全期望公式（下）

-讲义

第九周协方差与相关系数

-随机变量函数的期望

--9.1. 随机变量函数的期望

--第九周：随机变量函数的期望

-协方差

--9.2 协方差

--第九周：协方差

-相关系数

-- 9.3 相关系数

--第九周：相关系数

-相关与独立

--9.4 相关与独立

--第九周：相关与独立

-讲义

第十周独立随机变量和的分布与顺序统计量

-独立随机变量和的分布

--10.1. 独立随机变量和的分布

--第十周：独立随机变量和的分布

-独立正态分布和的分布

--10.2 独立正态分布和的分布

--第十周：独立正态分布和的分布

-最大值、最小值分布

--10.3 最大值、最小值分布

--第十周：最大值、最小值分布

-顺序统计量

--10.4 顺序统计量

--第十周：顺序统计量

-讲义

第十一周正态分布专题

-正态分布的相关与独立

--11.1 正态分布的相关与独立

--第十一周：正态分布的相关与独立

-边缘密度均为正态，联合分布不是二元正态的例子

--11.2 边缘密度均为正态，联合分布不是二元正态的例子

--第十一周：边缘密度均为正态，联合分布不是二元正态的例子

-二项分布的正态近似

--11.3 二项分布的正态近似

--第十一周：二项分布的正态近似

-正态近似计算实例

--11.4 正态近似计算实例

--第十一周：正态近似计算实例

-讲义

第十二周大数定律和中心极限定理

-大数定律

--12.1大数定律

--第十二周：大数定律

-中心极限定理

--12.2 中心极限定理

--第十二周：中心极限定理

-蒙特卡洛（Monte Carlo）算法

--12.3 蒙特卡洛（Monte Carlo）算法

-伪随机数和随机模拟

--12.4 伪随机数和随机模拟

-讲义

第十三周统计学基本概念

-统计学实例

--13.1 统计学实例

-总体与样本

--13.2.总体与样本

-常用统计量

--13.3 常用统计量

--第十三周：常用统计量

-三种重要的统计分布和分位数

--13.4 三种重要的统计分布和分位数

--第十三周：三种重要的统计分布和分位数

-讲义

第十四周参数点估计

-参数的矩估计

--14.1参数的矩估计法

--第十四周：参数的矩估计

-参数的极大似然估计

--14.2参数的极大似然估计法

--第十四周：参数的极大似然估计

-参数点估计的无偏性和有效性

--14.3 参数点估计的无偏性和有效性

--第十四周：参数点估计的无偏性和有效性

-参数点估计应用实例

--14.4 参数点估计应用实例

--第十四周：参数点估计应用实例

-讲义

第十五周参数的区间估计

-区间估计的基本思想

--15.1 区间估计的基本思想

--第十五周：区间估计的基本思想

-区间估计的构造方法

--15.2 区间估计的构造方法

--第十五周：区间估计的构造方法

-两个正态总体的区间估计

--15.3 两个正态总体的区间估计

--第十五周：两个正态总体的区间估计

-大样本置信区间

--15.4 大样本置信区间

--第十五周：大样本置信区间

-讲义

第十六周假设检验

-假设检验问题的提示和标准步骤

--16.1假设检验问题的提示和标准步骤

--第十六周：假设检验问题的提示和标准步骤

-假设检验问题的两类错误和P值

--16.2假设检验问题的两类错误和P值

--第十六周：假设检验问题的两类错误和P值

-单个正态总体参数的假设检验

--16.3 单个正态总体参数的假设检验

--第十六周：单个正态总体参数的假设检验

-拟合优度检验

--16.4拟合优度检验

--第十六周：拟合优度检验

-讲义

应用实例

-利用条件概率计算网球比赛胜率

--利用条件概率计算网球比赛胜率

-利用期望的计算性质分析快速排序算法的平均计算量

--利用期望的计算性质分析快速排序算法的平均计算量

-讲义

习题课一

-事件

--事件

-分布函数

--分布函数

-正态

--正态

-指数与二项

--指数与二项

习题课二

-随机变量函数的分布

-指数分布期望

-切比雪夫不等式

-二元离散

-协方差

-二元特征

习题课三

-统计量

-无偏估计

-点估计

-假设检验

习题课四

-选择

--选择

-填空

--填空

-大题

--大题

13.2.总体与样本在线视频