当前课程知识点:概率论与数理统计 > 第十三周 统计学基本概念 > 常用统计量 > 13.3 常用统计量
设想你刚刚参加了一次考试
已经知道了自己的成绩是78分
这时 你关心自己的成绩在班级中
处于什么样的水平
在无法得到全班同学成绩单的前提下
要想获取
自己的成绩在班级处于什么水平
这样的进一步的信息
你会怎样做
你可能会问几位同学
通过他们各自的分数
来判断自己的位置
此时总体是成绩分布
我们问同学成绩是样本
从样本本身我们往往还不足以做出推断
需要对样本进行一定的运算
比如已经问了3位其他同学
他们的成绩分别是92,65,68
你可能通过这三个成绩的平均值
做出自己的判断
也可能取三个成绩排序结果中
成绩与自己成绩最接近的名次
用来做出判断
对样本求得的平均值
或者得到的排序名次值
这才是我们用来判断的直接数量依据
这种经过样本的一定运算得到的
用来进行推断的量
就是统计量
正式地总结一下统计量的定义
设X1、X2、Xn为取自某总体的样本
若以X1、X2、Xn作为
自变量的某个样本函数T
T中不含有任何未知参数
则称T为统计量
统计量是随机变量的函数
其本身也是随机变量
统计量的分布称为抽样分布
样本直接来自于总体
它包含了总体多方面的信息
而当人们关心总体的某些方面的特定信息
和属性时
直接使用样本信息
可能达不到理想的效果
这时需要对样本进行有针对的运算处理
所得到的量
能够更好的反应我们所希望了解的总体特征
这些对样本进行了某种加工的量
就是统计学中所说的统计量
人们使用统计量的思想有着悠久的历史
我国战国时期
著名的商鞅变法中
就有着明确的统计量的观念
在《商君书》中有一段强国须知十三数的文字
原文是 境内仓口之数
壮男壮女之数 等等
这段文字中
提炼了境内仓口之数等
13个可收集 可测量的数据指标
以此来推断秦国真正关心的
国力强弱程度
这个难以确切观测和量化的特性
这些强国13数的运用
就蕴含了统计量的思想
统计量是对样本的一种加工
虽然加工的方法
原则上可以是任意的
但人们总是喜欢用尽可能少的工具
达到尽可能大的功效
同时还希望计算尽可能的简单
最常被提起
也是最为有用的两个统计量
是样本均值和样本方差
虽然仅有这两个统计量
在实际应用中还是远远不够的
但这两个统计量确实是最常见
最有代表性的
利用这两个量已经能够做很多有意义的事情
下面我们就专门介绍这两个统计量
设X1、X2到Xn为取自某总体的样本
样本均值定义为X1、X2到Xn
这n个随机变量的算术平均
即求和再除以n
样本均值用X一拔表示
我们进一步考察样本均值的分布特性
若简单随机样本来自于期望为mu
方差为sigma方的正态总体
则样本均值X一拔服从期望为mu
方差为n分之sigma方的正态分布
证明这一结论
因为X1、X2到Xn是来自总体X的样本
所以它们相互独立
且都服从期望为mu
方差为sigma方的正态分布
所以X一拔等于n分之X1加X2
一直加到Xn仍然服从正态分布
正态分布随机变量X一拔的期望
就是n分之X1加X2
一直加到Xn的期望
方差即为n分之X1加X2
一直加到Xn的方差
利用随机变量求和的期望
等于期望求和的性质
得到n分之X1加X2
一直加到Xn的期望等于mu
因为X1,X2直到Xn相互独立
所以它们求和的方差也等于方差的求和
其中n分之1经过从括号中提出
变为了n平方分之1
所以n分之X1加X2
一直加到Xn的方差
等于n平方分之n倍的sigma方
等于n分之sigma方
当总体分布不是正态分布时
若n较大
根据中心极限定理
X一拔会近似服从于期望为mu
方差为n分之sigma方的正态分布
样本均值描述样本的平均大小
描述样本差异的是样本方差
还是设X1、X2到Xn为来自于总体X的样本
X一拔为样本均值
样本方差定义为Xi减X一拔的平方
i从1到n取值 求和 再除以n-1
样本方差用大写S方表示
这个定义式中的分母是n-1而不是n
可能有的同学会感到有些奇怪
实际上这样定义是出于概率意义的考虑
下面的定理给出了分母为n-1的道理
设总体X具有二阶中心矩
也就是存在有限的方差
并设总体的期望为mu
方差为sigma方
X1、X2到Xn是来自总体X的样本
X一拔和S方分别是样本均值和样本方差
则S方的期望等于sigma方
如果样本方差的定义中
分母变为n
则S方的期望
就不等于总体方差sigma方了
当某个统计量的期望等于某个分布参数时
称这个统计量是该参数的无偏估计量
样本方差就是总体方差的无偏估计量
样本均值也是总体期望的无偏估计量
下面我们证明样本方差的期望
等于总体方差这一结论
现在正在证明样本方差S方的期望
等于总体方差sigma方
前面已经推导了
样本均值的期望为总体期望mu
样本均值的方差等于n分之sigma方
在下面的证明过程中
我们要用到这两个结果
考虑Xi减X一拔的平方
i从1到n求和的期望
首先利用Xi的期望与X一拔的期望相等
将Xi减X一拔
等价地表示为Xi减E(Xi)
再减去X一拔减E(X一拔)
然后做平方和展开
利用和的期望等于期望求和的性质
将总的期望分解为三部分求和
前两项分别等于
Xi的方差求和与X一拔的方差求和
第三部分
提出公共项X一拔减E(X一拔)
继续计算
前两项分别等于
n倍的sigma方加n倍的X一拔的方差
第三部分的计算
利用了Xi求和等于n倍的X一拔
提出n后
剩下的期望式正好是X一拔的方差
最后等于n倍的sigma方
减去n倍的X一拔的方差
等于n-1倍的sigma方
这样就证明了
样本方差的期望等于sigma方
证明的第一步做了加一项
减一项的等价处理
将Xi减X一拔等价地表示为
Xi减E(Xi)再减去X一拔减E(X一拔)
这样做的目的是为了凑出方差项
看起来算式似乎变得更复杂了
实际上尽可能利用了每一项的概率意义
简化了计算
类似的处理在概率和统计计算中很常见
样本原点矩和样本中心矩
也是常用的统计量
仍然设X1、X2到Xn是来自总体X的样本
样本的k阶原点矩定义为
X1的k次方
直到Xn的k次方的算术平均
样本的k阶中心矩
i从1到n的算术平均
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题