当前课程知识点:概率论与数理统计 > 第十六周 假设检验 > 假设检验问题的提示和标准步骤 > 16.1假设检验问题的提示和标准步骤
这一周我们学习统计学中
假设检验的最基本的理论
我们以一本科普畅销书中一段故事
开始本周的内容
这也是那本书的开篇第一段
是这样写的
那是20 世纪20 年代后期
在英国剑桥一个夏日的午后
一群大学的绅士和他们的夫人们
还有来访者
正围坐在户外的桌旁
享用着下午茶
在品茶过程中
一位女士坚称
先把茶加进奶里
或先把奶加进茶里
不同的做法
会使茶的味道品起来不同
在场的一帮科学精英们
对这位女士的胡言乱语嗤之以鼻
这怎么可能呢
他们不能想象
仅仅因为加茶加奶的先后顺序不同
茶就会发生不同的化学反应
然而
在座的一个身材矮小 戴着厚眼镜
下巴上蓄着的短尖髯开始变灰的先生
却不这么看
他对这个问题很感兴趣
他兴奋地说道
让我们来检验这个命题吧
并开始策划一个实验
这本科普畅销书的书名是《女士品茶》
副标题是20世纪统计怎样变革了科学
作者萨尔斯伯格
是一名统计学教授
同时是美国统计学会的会员
是一位非常优秀的统计学家
这本书通俗而生动地介绍了
二十世纪统计学发展 变革的历史
通过皮尔森 格赛特 费舍尔等统计学家的
研究工作和生活经历的一些生动故事
描述了统计学一些
重要概念的演进发展的过程
刚才我们描述的女士品茶问题
是统计学历史上的一个非常有名的试验
它由现代统计学
奠基人之一的费舍尔提出
费舍尔就是书中所说的那位身材矮小
戴着厚眼镜 胡子开始变灰的那位先生
下面的问题是
如何设计有效的统计实验
来检验这位女士所说的话是否是真的
按照《女士品茶》书中的描述
在实验中
坚持茶有不同味道的那位女士
被奉上一连串的已经调制好的茶
其中
有的是先加茶后加奶制成的
有的则是先加奶后加茶制成的
接下来
在场的许多人都热心地加入到实验中来
几分钟内
他们在那位女士看不见的地方
调制出不同类型的茶来
最后
在决战来临的气氛中
蓄短胡须的先生为那位女士奉上第一杯茶
女士品了一小会儿
然后断言这一杯是先倒的茶后加的奶
这位先生不加评论地记下了女士的说法
然后
又奉上了第二杯
要辨别女士是否有鉴别力
办法无非就是让她实际的品尝
通过品尝后鉴别正确的多少进行判断
重要的是设计出既方便易行
又能够以清晰的思路给出
概率意义解释的方法
现在我们给出一个具体的试验方案
为了后面的描述方便起见
我们按照添加奶和茶的先后顺序
将先加奶后加茶的饮料记为MT
先加茶后加奶的饮料记为TM
取8个相同的杯子
其中4杯是调制好的MT
另外4杯是TM
将它们随机排列
当然
我们要预先设置一些额外的标记
使得自己能够区分不同的饮料
然后
让这位女士挑选出其中的4杯MT
我们可根据该女士所选中的4杯饮料中
实际的MT的数目
即她判断正确的杯数来进行推断
这位女士是否真的具有
鉴别MT和TM的能力
那么到底这位选对几杯
我们能够相信她有鉴别力
选对3杯是否具有说服力
4杯全选对时能不能够下结论
这就需要做概率分析了
给出对结果的概率意义的理解
我们假设这位女士没有鉴别力
并设这位女士挑出MT的杯数为
随机变量X
如果没有鉴别力
就是完全随机的碰运气选
那么每一杯饮料选的恰好是MT的概率
是2分之1
一共选择了4次
所以随机变量X服从参数为2分之1
和4的二项分布
随机变量X
共有0、1、2、3、4这5个可能的取值
相应的概率也在这里列出
如果在实际的测试中
这位女士选对了3杯
计算出现这样的结果
以及比这个结果更好结果的概率
就是X大于等于3的概率
等于70分之17
大约是0.243
也就是说
即使这位女士没有任何鉴别力
它也能够以接近4分之1的概率
猜对3杯或3杯以上
4分之1概率的事情是很容易发生的
所以
当这位女士选对3杯时
若断言她具有对MT和TM的鉴别力
就显得有点太轻率了
如果这名女士4杯都选对了
又意味着什么呢
我们计算一下概率
在没有任何鉴别力的条件下
4杯全部蒙对的概率是70分之1
大约百分之1点4
如果觉得这样小概率的事情发生
是非常异常的
那么就倾向于认为没有鉴别力是不太可能
但也有人认为
70分之1的事情发生
也不是很异常
还不足以证明这位女士不是蒙的
这时
得出相信与不相信的结论都是有道理的
得出不同的结论只是因为对何种程度
属于异常的标准不同而已
有人认为百分之5是异常的
也有人认为小于百分之1才算异常
这个标准因人而异
因情况不同而异
但是
用来进行检验的随机变量的分布
在假设下是确定的
实际检验结果
以及比它更极端的结果发生的概率
是确定的
这就提供了客观的依据
在这个客观依据下
人们可根据自己的标准进行判断
如果一个人认为
概率小于百分之1的事件真实发生
才是很异常的
那么即使这位女士选对了全部的4杯饮料
也不足以说明她有鉴别力
这时
需要设计更为精细的试验
比如对12杯饮料进行试验等等
现在考虑12个杯子的试验
仍然调制4杯MT
剩下的8杯是TM
让女士将这4杯挑出
此时
我们给出选对不同杯数的概率
如果选对3杯
则在没有鉴别力的假设下
能得到不差于这一结果的概率
为X大于等于3的概率
大约是百分之6点7
如果4杯全对时
则 在没有鉴别力的假设下
能得到不差于这一结果的概率为
X大于等于4的概率大约是百分之0.2
如果认为10%的极端就很异常了
那么在这个12杯的测试中
只要选对不少于3杯
就认为女士有鉴别力
如果认为百分之5以下的极端
才很异常
那么只选对3杯就不具有充分的说服力了
选对3杯时
还不能认为女士具有鉴别力
发生概率小到什么程度才被认为是异常
在统计学中被称为显著性水平
按这样思路做的检验称为显著性检验
统计学中要进行检验总是要先做假设
然后选定一个统计量作为检验假设的依据
确定在假设成立的情况下
该统计量所服从的分布
以此作为标准分布
检验的过程就是用观测值
与标准分布进行对比
如果观测值在标准分布中
处在正常的位置就接受假设
如果观测值在标准分布中
处在异常的位置则拒绝假设
为了对什么是异常有更明确的判断
人们还引入了与目标假设
相对立的另一个假设
通常人们将这两个假设分别称为
原假设和备择假设
原假设也叫零假设
通常用H0表示
备择假设用H1表示
下面给出统计学中
进行假设检验的标准步骤
假设检验的标准的实现过程
包括3个基本步骤
第1步
建立原假设H0
和备择假设H1
具体的检验任务要落实为
某个参数的取值来完成
是对参数的假设检验
原假设和备择假设的条件分别是
检验参数属于不同的参数集合
女士品茶的例子中
检验参数就是判断正确的概率
原假设如果认为女士不具备鉴别力
可设原假设为选对概率小于等于0.5
备择假设为这个概率大于0.5
第2步是选择检验统计量
给出拒绝域的形式
女士品茶问题中的检验统计量
就是挑选正确的杯数
利用这个量来进行判断
如果在4杯里挑选对了3杯会怎么样
挑选对了2杯又是怎样等等
足够异常的结果集合就构成了拒绝域
拒绝原假设的区域
一般用W表示拒绝域
相应的W补被称为接受域
但是
这一步还不能写出具体的拒绝域集合
因为什么是足够异常还没有明确
这就是下一步要做的事情
第3步是选择显著性水平
也就是选择概率小到什么程度
认为观测结果在原假设下是异常的
用概率语言描述
就是
显著性水平等于原假设成立条件下
检验统计量落入了拒绝域的概率
看一个假设检验的例子
设某企业员工年收入服从正态分布
期望为mu
方差为1.2的平方
单位是万元
若从某部门随机挑选出的16名员工
计算得到他们的平均年收入为4.6万元
是否可认为这个部门的员工
达到了该公司的平均收入
设所考察部门员工的年收入服从正态分布
期望为mu
方差为1.2的平方
是否可认为这个部门的员工
达到了该公司的平均收入
就是根据样本容量为16的员工的
平均年收入
判断参数mu是否不低于5万元
这样的一个假设检验问题
根据题目的条件
逐步实现假设检验的流程
第1步
设定原假设和备择假设
原假设为该部门平均年收入不少于5万元
备择假设是相反的
该部门平均年收入少于5万元
原假设和备择假设分别对应参数的
不同取值范围
通常采用下面的简洁的表达方式
H0冒号u大于等于5
H1冒号u小于5
检验参数mu是否不低于5万元的
假设检验问题的第2步
是选取检验统计量
这个问题很自然就选择样本均值
作为检验统计量
当原假设成立
也就是参数mu等于5时
样本均值服从期望为mu
方差为0.3的平方的正态分布
原假设下
mu较大时
样本均值也倾向于比较大
而备择假设下mu较小
样本均值倾向于比较小
所以X一拔小意味着异常
拒绝域的形式
即为X一拔小于某个值的区域
即X一拔小于等于c
c的值在下一步确定
然后进入第3步
选择显著性水平alpha等于0.05
因为X一拔小于等于c的概率等于0.05
所以根据X一拔的分布
可以计算出c等于4.507
所以拒绝域就是X一拔小于等于4.507
这一例题中
样本均值的观测值为4.6
不属于拒绝域
所以这一个假设检验的结果就是
接受原假设
可以认为这个部门的员工
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题