当前课程知识点:概率论与数理统计 > 第十三周 统计学基本概念 > 总体与样本 > 13.2.总体与样本
获取数据的知识
总体和样本是统计学中最基本的概念
总体是一个统计问题研究对象的全体
而构成总体的每个成员
就被称为个体
人们能够从个体
清晰地获取具体的数据特征
所以说个体是数据的载体
而总体的信息往往
并不是直接显然的
从中获取有意义的信息
通常就是统计学研究的目标
下面我们通过一个例子来说明
总体和个体的确切含义
考虑这样的问题
研究某个地区高中男生的身高情况
具体说来
我们可能想了解
这批学生的平均身高是多少
1米90以上的学生占总数的比例
1米80以上的学生占总数的比例
身高最集中的区域在哪里
等等方面的情况
那么
该地区全体高中男生
就构成一个总体
而其中每一名学生
就是该总体中的一个个体
作为学生的个体
就是身高这个我们关心的数据特征的载体
对于每一名特定的学生
也就是每个个体的身高信息
是很容易清晰的获取的
但全体学生的身高信息
并不容易得到
需要引入有效的方法
这就是统计学要研究的课题
因为我们真正关心的
是数据的特征
因此总体
也可更直接地理解为
个体所具有的数量指标的全体
而每一成员的相应的数量指标
就是一个个体
对这个高中生身高的例子而言
由于我们感兴趣的
是该地区高中男生的身高
因此将学生身高的全体
作为一个总体
而每一名学生的
身高就是一个个体
当然
身高只是一名学生所具有的
多种可能的指标中的一个
如果我们关心学生的体重
那么全体学生的体重指标
就又构成了另外一个总体
如果不加处理的话
总体
也就是个体所具有的
数量指标的全体
它们仅仅是一组杂乱无章的数据
想要得到其中的有效信息
必须赋予这些数据一些规律性
也就是赋予数据一些数学
或概率的性质
这样才能真正有效的
对它们进行定量研究
提取有意义的信息
描述数据随机规律的
基本的模型是概率分布
所以统计学中的总体
实际就是一个概率分布
而其数量指标
就是服从这个分布的随机变量
在统计学研究中
人们总是假定
总体服从某种分布
也就是
总体即分布
在高中生身高的例子中
可以假定总体服从正态分布
叫做正态分布总体
简称正态总体
而如果总体分布
设为指数分布时
就称为指数分布总体
例如一批电子元器件的寿命
往往就设定为指数总体
当总体分布设为均匀分布时
则称为均匀分布总体
例如
公交车的等待时间
通常就可以用均匀总体来描述
下面我们对总体即分布的概念
作一点进一步的解释
用分布表示总体
一定意味着某种近似
因为真实数据一般来说
并不是简简单单的
严格地服从某种特定的分布
实际上
用正态分布
指数分布等来描述数据总体
就好比用长方形
圆形来描述物体的形状
世界上没有真正的长方形
圆形
但是用这样的抽象概念
可以很好地对图形给出近似刻画
这种抽象和近似
是数学处理的很本质的思想
刚才我们讲到
总体是一个抽象的
理想化的概念
多数情况下
统计学研究的数据
都无法严格地满足某个特定的分布
用来描述总体特性规律的概率分布
往往是对所研究数据的
某种近似
这个概念很大程度上
要归功于R.A.费舍尔
费舍尔是20世纪
最伟大的统计学家之一
他引入了“无限总体”这个概念
现实世界我们所面对的问题
其个体数目往往是有限的
例如
我们这一节里一直在使用的
中学生身高的例子
这个总体所包含的
全部个体是这个地区的
全体高中男生的身高
它的数目是有限的
所服从的分布
也就应该是一个离散分布
但如果这么直接的考虑的话
就无法给出总体的一个
简洁的表述
也就无法使用各种概率工具
对数据进行有效的分析和计算
因此
费舍尔引入了无限总体的概念
用理想化的连续分布
近似现实中的离散分布
例如
用正态分布来近似
中学生的身高分布
当总体中所含个体的
数目非常多的时候
在概率计算的意义下
由这种近似带来的误差
往往是微乎其微
可以忽略不计的
用抽象的概率分布
描述总体
更进一步的合理性在于
几种常见的
而且在概率上容易处理的分布
比如正态分布
指数分布
均匀分布
它们为许多实际问题的总体分布
提供了相当好的近似
而围绕这些分布
建立了大量
深刻而有效的统计方法
再举一个例子
设有一个物体
其真实质量a未知
要通过多次测量
来估计该物体质量
事实上对一个物体而言
其质量是客观存在的
但是质量的绝对真实值
是无法确切知道的
我们只能通过一定次数的
测量来估计这个物体的质量
若测量误差服从期望是0
方差是sigma方的正态分布
则所有可能的测量结果
构成总体
这个总体本身就是无限总体
服从期望是a
方差为sigma方的正态分布
无限总体包含取之不尽的
不同的个体
即使是有限总体
其个体数目也往往是非常庞大的
考察总体中
所有的个体是不现实的
也是不必要的
统计学的任务
就是利用尽可能少量的个体的数据
获得总体的信息
由这些少量的个体数据
就产生了样本的概念
按照我们教材中给出的定义
从总体中按一定
规则抽出的一部分个体
称为样品
样本中的个体称为样品
样品的个数称为样本容量
或样本量
我们抽取样本的目的
是用来对总体进行各种统计推断
由于样本是从总体中随机抽取的
在抽样前无法预知
它们会取到什么值
因此样本是随机变量
本课程中用
大写字母X1、X2到Xn表示样本
此时样本容量为n
一般来说
总体的信息
并不是直接反映在样本中的
需要对样本进行
进一步的计算处理
才可能获取有意义的总体信息
为了便于进行概率处理
通常要求样本满足以下性质
首先样本要具有随机性
例如
上一节小儿麻痹的例子
只有抽样具有随机性
抽样得到的个体数据
才具有代表性
其次
样本之间要相互独立
即上述X1、X2到Xn
这n个随机变量相互独立
这样所得到的样本
称为简单随机样本
今后如果不作特别说明
课程中提到的样本
总是指简单随机样本
刚才讲到
样本是随机变量
用大写字母X1、X2和Xn表示
那一旦样本在抽取后
就得到了一组确定的观测值
它们是样本的一次具体实现
这些值用小写字母x1、x2和xn表示
样本为随机变量和样本的实现
其中的区别初学者往往
不容易正确把握
其确切含义
我们用一个例子来具体说明
随机抛掷一枚骰子
观测其出现的点数
此时总体的分布
是取值为1、2、3、4、5、6的
均匀分布
现在将骰子
独立重复地抛掷10次
得到一个样本X1、X2 直到X10
其中每一个Xk
这里k从1到10取值
都是服从取值为1、2、3、4、5、6的
均匀分布随机变量
这里样本强调的是
抽取样品的个数
强调的抽取的方式
并不是具体的
抽取到的点数结果
进一步模拟一下抽样过程
那我们想象
做了一次抛掷10次骰子的
这样的实现具体的实现
得到一组点数5、6、1、6、4、1、2、4、6、6
那如果再重复这个过程
继续投掷骰子抽取10个样品
得到新的一组点数
3、5、1、4、5、3、6、1、2、4
继续重复这个过程
得到一组新的点数
6、2、4、1、3、2、6、5、1、3
如此不断进行
一般而言
我们所得到每组点数
都是不同的
是随机的
每一行的点数
就是一组确定的观测值
它是样本的一次具体实现
而第一列数表示
随机变量X1的取值
它的值在不断变化
如果不断地取下去
第一列数字将表现出
服从取值为1、2、3、4、5、6的
均匀分布随机变量的概率性质
如果专门看第4列数
不断地增加数据
那么也一定会表现出
服从取值为1、2、3、4、5、6的
均匀分布随机变量的概率性质
即X4是服从均匀分布的随机变量
数据是一切统计分析的基础
统计分析的成功依赖于详实的数据
如果数据出了问题
一切后续的分析都将失去意义
那么如何保证数据的可靠性呢
有两方面的要求非常重要
一是保证数据真实
尽可能获取第一手数据资料
二是收集的数据要有代表性
尽可能全面的蕴含人们
所真正关心的信息
我们先看一个
关于第一手数据的例子
有人收集了一批
某个落后地区居民的
人类学指标的数据
邀请一位英国统计学者
对数据进行分析
他们测定了很多人类学特征
其中的一项指标是体重
体重的原始的测量记录为
7.6 、6.5 、8.1、、…等等一些数据
这里的重量单位是英石
1英石等于14磅
负责整理测量的助手
将这些测量数据乘以14
将英石转换为以磅为
单位的测量值
得到7.6*14=106.4磅
6.5*14=90.0磅
8.1*14=113.4磅
等这样的体重记录
提交给统计学者
但这位统计学者认为
应该查看原始记录
就在查看原始记录的时候
他发现了一个特别的现象
所有重量的这个测量值呢
它的小数点后面
从来没有出现过
7、8、9这三个数字
他马上察觉到
在大量的数据测量下
发生这种情况几乎是不可能的
发生概率几乎为0
进一步调查发现
当地人在进行测量时
使用的是英国制造体重秤
而且是很古老的一种秤
上面只有英石的刻度
当地人将英石与英石的
刻度之间等分为7个单位
得到了更细致的刻度
所以原始数据
小数点后面它使用的并非是10进制
而是7进制
7.6这个测量结果
对应的正确的体重
应该是7又7分之6英石
这个数乘以14
等于110磅
而不是106.4磅
由于统计学者的严谨
这批数据避免了
平均3到4磅的重量偏差
统计学的研究
完全靠数据说话
对数据的详细考察
是统计分析最基本的保证
必须尽可能谨慎地面对
第一手的数据
关于数据的代表性
我们同样以一个真实的故事来说明
这是统计学里面一个很著名的案例
《文学摘要》是二十世纪初
美国的一本畅销杂志
这个杂志在二十世纪
二三十年代连续几次
成功地预测了美国总统大选的结果
因此获得了很好的声誉
1936年该杂志预测
候选人兰顿
将获得60%的支持率
击败另一名候选人罗斯福
但那次选举的真正结果是
罗斯福赢得了62%的选票
压倒性地战胜了兰顿
《文学摘要》的预测误差如此之大
几乎是重要民意测验
曾经出现过的最大偏差
人们事后分析原因
如此大的误差主要是源自抽样方法
该杂志给1000万名预期的
选民邮寄了问卷
这些人的姓名地址等信息
来自于电话簿
以及俱乐部会员的名册
而在当时能够拥有电话
和加入俱乐部的人
大多是中产阶级
或更为富有的群体
非俱乐部的成员
及没有电话的收入较低的人
都被《文学摘要》的民意测验给遗漏了
因此《文学摘要》的
抽样程序具有很强的选择偏向
在1936年之前
这种偏向
可能对预测结果的影响不大
因为那个时候
富人与穷人对政治主张
并不是很敏感
但在1936年
政治见解与经济状况发生了
更为密切的关联
从而导致大多数低收入的人
投了罗斯福的票
罗斯福的支持率
被《文学摘要》大大低估了
其次
杂志社发出的1000万份问卷
只收到230万份的反馈
超过75%的人并没有给出答复
愿意回答与不愿意回答本身
也代表着人的某种倾向
因此
过低的反馈率同样导致了
调查的倾向性
这两个因素是产生巨大的
预测偏差的主要原因
虽然
一般而言数据量越大
所得的估计效果就会越好
但是当抽样策略有偏向时
大量的数据是没有帮助的
它只是在更大的规模下
重复基本的错误而已
好的数据收集方法
一定要具有代表性
使得相关信息都能够平等
随机地被数据反映
以美国总统竞选为例
在《文学摘要》失败的同时
Gallup的问卷方法取得了成功
有兴趣的读者可以检索一下
Gallup民意测验
了解更多的如何更加有效的
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题