当前课程知识点:概率论与数理统计 > 第十六周 假设检验 > 拟合优度检验 > 16.4拟合优度检验
拟合优度检验是对一组观测值
检验它们与某一特定分布的吻合程度的
一类检验问题的统称
最经典也是最常用的一种
拟合优度检验的方法是卡方检验
卡方检验用来检验一组观测数据
与一个已知离散分布的拟合程度
这一检验的理论依据是下面的结论
设总体服从离散分布
取值有x1、x2到xk
这k种可能
对应概率分别为p1、p2到pk
进行n次独立的观测
k个取值出现的次数
分别为n1、n2直到nk
n1、n2到nk的求和等于n
则定义随机变量X
等于ni减去n pi的平方
除以n pi求和
这个随机变量
近似服从k-1个自由度的卡方分布
这一结论的合理性是很自然的
因为对随机变量的
1个可能的取值xi而言
在一次观测中或者出现
或者不出现
所以它总共出现次数ni
是一个二项分布
期望是npi 方差也是npi
当n很大时
根据中心极限定理
ni减npi除以根号npi
近似服从标准正态分布
所以 随机变量X的每一个求和单项
都是近似的标准正态分布的平方
求和就近似的服从卡方分布
这里的卡方分布的自由度是k-1而不是k
是因为n1到nk求和等于n
所以k个求和项是相互不独立的
这样就降低了一个自由度
X近似服从k-1个自由度的卡方分布
我们在这里只给出一个定性的解释
严格的证明过程需要多元微积分
和线性代数的知识
这一结果是20世纪初
最重要的统计学家
英国学者皮尔森首先发现的
用这一结果可以构造观测数据
与假设的离散分布的拟合程度
这一方法也称为皮尔森的卡方检验
这是我们在讲泊松分布时
用过的一个例子
卢瑟福和盖革这两位诺贝尔奖的获奖者
曾经在1910年一起合作
观察放射性物质放出
alpha粒子的个数的情况
他们共进行了2608次观察
每次观察间隔7.5秒
记录这一时间间隔内
到达指定区域的alpha粒子的个数
总共记录下了1万零94个粒子
表中的nk表示恰好记录到
k个alpha粒子的观察的次数
N1到Nk的求和为2608
表中的n乘pk一尖是泊松分布假设下
恰好记录到k个alpha粒子的
观察次数的理论值
之前我们只能从直觉出发来进行判断
感觉到理论估计值和实际发生数Nk
两者有较好的吻合
现在我们可以利用卡方检验工具
对这组数据是否来自于泊松分布
做一下检验
首先我们计算假设的泊松分布的参数
设1次观察中出现的粒子数为
随机变量X
因为共有2608次观测
所以某一个粒子落入该次观测的概率
是2608分之1
一共出现过10094个粒子
就是成功概率为2608分之1的
伯努利试验重复了10094次
所以X服从参数为10094和
2608分之1的二项分布
1次观察中出现的粒子数X
服从参数为10094和
2608分之1的二项分布
这是小概率事件重复多次
也就是n很大p很小的二项分布
根据泊松定理
X近似服从于泊松分布
参数lamda一尖约等于3.87
则利用泊松分布的分布律
可以算出数据列表中恰好记录到k个
alpha粒子的观测
发生概率的理论值pi一尖
计算数据列表中
观测数据的卡方统计量的取值
等于12.88
离散分布共有11个取值
所以卡方检验统计量
近似服从10个自由度的卡方分布
这个检验的p值为10个自由度的
卡方分布随机变量
大于等于12.88的概率
等于0.236
所以接受原假设
观测值和泊松分布的理论值吻合地很好
甲乙两人各有1枚6面的骰子
为了检验骰子的均匀性
甲乙两个人分别进行试验
甲投掷了60次
结果1至6点的出现次数
分别为7、6、12、14、5、16
相应的频率也可计算出来
最高的频率达到0.267
最低的频率只有0.1
假设乙有足够的耐心和时间
乙投掷了900万次
结果1至6点的出现次数为这6个数
同样计算出相应的频率
6个频率相当的接近
最高频率为0.1669
最低的为0.1663
试判断甲乙所用的骰子是否均匀
在骰子均匀的假设下
设投掷1次所得点数为随机变量X
则X服从取值为1至6
概率均为6分之1的离散分布
甲投掷骰子的试验进行了60次
所以此时观测次数为n=60
npi都等于10
投掷结果的卡方统计量的取值
代入公式计算可得到
等于8.6
Y1近似服从5个自由度的卡方分布
p值为5个自由度的卡方分布随机变量
大于等于8.6的概率
此概率大于0.1
所以接受骰子为均匀的假设
乙投掷骰子的试验进行了900万次
所以此时观测次数为n=900万
npi都等于150万
投掷结果的卡方统计量取值
代入公式计算得到
等于16.07
Y2近似服从5个自由度的卡方分布
p值为5个自由度的卡方分布随机变量
大于等于16.07的概率
此概率小于0.01
所以 当显著性水平大于等于0.01时
就要拒绝骰子为均匀的假设
请同学们思考
甲投掷骰子所得各点数的频率
与理想值6分之1有较明显的差异
而乙投掷骰子所得各点数的频率
都非常接近理想值6分之1
为什么甲的结果能够通过均匀假设
而乙的结果反而不能通过
拟合优度的卡方检验可以用来判断
两个不同属性之间的相关性
先看一个例题
曾经有人统计了6672名学生
使用左右手的习惯
这个表里是统计的数据结果
经过计算
其中男生的左手率大约为0.1
女生的左手率大约为0.08
男生左手率比女生高了两个百分点
能不能说左右手的习惯是与性别相关的
同学们先思考一下
有什么办法
能够在概率意义上给出一些解释
事实上
这是一类很典型的问题
常常称为双向列联表的独立性检验
双向列联表具有两个属性
每个属性包含若干不同的具体情况
通常称为“水平”
这个例子中的两个属性
就是性别和使用左右手
性别属性有两个水平
这两个水平就是男生和女生
使用左右手的习惯也有两个水平
我们先看一下双向列联表的
独立性检验的一般理论
再来具体的求解这个例题
考虑一个具有两个属性
A和B的的双向列联表
属性A有s个可能的取值
就是有s个水平
属性B有t个水平
进行了n次随机观测
其中属性A处于水平i
属性B处于水平j的观测次数为nij
则对所有nij求和应该等于n
并且记ci等于nij对所有j求和
dj等于nij对所有的i求和
ci和dj分别表示属性A
处在水平i的观测次数
和属性B处在水平j的观测次数
如果属性A和属性B相互独立
那么n分之ci乘以n分之dj
应该与n分之nij比较接近
可以证明
nij减去n分之ci
乘以n分之dj构造的统计量Y
近似服从自由度为
s减1乘t减1的卡方分布
以属性A和属性B独立为原假设
则统计量Y的取值越大
就越异常
越要拒绝原假设
统计量Y值较小时接受原假设
回到性别与左右手是否相关的问题
计算Y统计量的取值
代入公式和给定数据
得到Y的取值为5.65
因为两个属性都是2水平的
检验统计量Y近似服从
自由度为1的卡方分布
查表得到
1个自由度的卡方分布随机变量
0.95分位数等于3.841
0.99分位数为6.635
所以如果显著性水平设定为0.05
结果是拒绝性别属性和左右手属性
为独立的假设
认为使用左右手的习惯与性别是相关的
而如果选择显著性水平为0.01
则检验的结果是接受性别属性
和左右手属性是独立的
认为左右手的习惯与性别
没有明显的相关性
事实上 这组数据确实表现出
男女生的左手率有一定的差别
百分之10和百分之8
差2个百分点
25%左右的相对偏差
但这种差别又不是特别的显著
而检验统计量的取值
也和直观的感觉是差不多的
p值在0.01和0.05之间
处于比较边缘的状态
结论也就是仁者见仁
智者见智了
虽然无法得到非常确切的结论
但检验统计量的概率意义是完全清晰的
使用者根据自己的尺度得到相应的结论
再看一个独立性检验的例子
这也是历史上曾经做过的实测数据
表中列出了1936年瑞典对
25263个家庭的小孩数
和收入的调查表
试问家庭的小孩数与收入水平是否相关
列表中将家庭收入分为4档
由左至右逐级升高
家庭的小孩数共有5个水平
从0到4
粗略的看
似乎收入高的家庭的孩子数比较少
而收入低的家庭孩子数显得更多一些
例如 4个孩子的家庭
收入最低的一档家庭数
是收入最高档家庭数的将近3倍
而没有孩子的家庭
收入最低的一档家庭数
是收入最高档家庭数的1.5倍都不到
仔细的观察这张表
可以得到更多类似的局部信息
但是 从整体上看
收入和孩子数是否真的
具有显著的相关性呢
通过基于卡方的独立性检验
可能可以帮助我们看得更清楚
计算列联表独立性检验的
检验统计量的取值
代入公式和数据
得到检验统计量的取值为75.173
此时在两属性独立的原假设下
检验统计量Y近似服从自由度为
12的卡方分布
查表可知
自由度为12的卡方分布的
0.999分位数为32.9
这个数仍然远远小于检验统计量的取值
所以 75.173的检验统计量的取值
对应的p值远小于千分之一
数据显示出的相关性是非常非常显著的
所以 有充分的理由拒绝原假设
家庭的小孩数与收入水平
存在着很强的相关性。
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题