当前课程知识点:概率论与数理统计 > 第十一周 正态分布专题 > 二项分布的正态近似 > 11.3 二项分布的正态近似
本节我们研究参数p的值固定
n很大时的二项分布随机变量的
概率计算
先考虑一 个简单的例子
假设
随机地抛掷一枚均匀的硬币100次
求正面恰好出现50次的概率是多少
以及正面出现次数在40至60次之间的
概率是多少
正面出现次数不少于80次的
概率是多少
设随机地抛掷硬币100次
得到正面的次数为随机变量X
则X服从参数为100
1/2的二项分布
按照二项分布分布律写出
正面恰好出现50次的概率
等于100的阶乘除以50的阶乘
再除以50的阶乘
乘以2分之1的100次方
虽然得到了算式
但是这个值到底是多少呢
是接近1/2, 1/10
还是1/50以及其他什么数呢
类似的
X在40至60次之间的概率
X大于等于80的概率
它们的表达式也都能写出来
但形式更复杂
它们的具体取值更加难以计算
其中主要的计算困难来自于阶乘项
早在十八世纪
英国数学家斯特林就给出了
一个很方便的估计阶乘的公式
下面给出估计阶乘的经典公式
斯特林公式
n的阶乘与根号2(pi)n乘以
e分之n的n次幂同阶
也就是当n趋于无穷时
n阶乘除以根号2(pi)n乘以
e分之n的n次幂的极限等于1
虽然我们在这里略去这个公式的证明
我还是想对大家说这个公式的证明
是微积分技术的一个很有趣的应用
斯特林公式给出了n阶乘的很好的估计
而且随着n的增加
估计的相对误差越来越小
我们列出n等于5,10,50
和100时n阶乘的值
与斯特林公式的估计值的
相对误差
5!的相对误差1.65%
10!的相对误差0.83%
100!的相对误差只有0.08%
下面我们利用斯特林公式推出
当参数n很大时
二项分布会近似于正态分布
我们只证明p等于1/2
且n为偶数的特殊情形
设随机变量X服从参数为n
1/2的二项分布
令n等于2m
计算X等于m+k的概率
这一概率等于n阶乘除以m+k的阶乘
再除以m-k的阶乘乘以1/2的n次幂
将这个算式重新组合为两部分的乘积
前一部分为n阶乘除以m的阶乘
再除以m的阶乘
乘以1/2的n次幂
由斯特林公式可得
近似于根号pi m分之1
根据这一近似式就可以估计刚才举例中
随机地抛掷一枚均匀地硬币100次
正面恰好出现50次的概率大约是0.08
下面推导后一部分(m阶乘)乘(m阶乘)
除以m+k阶乘
再除以m-k阶乘的估计式
(m阶乘)乘(m阶乘)除以m+k的阶乘
再除以m-k的阶乘
等于m+k的阶乘除以m的阶乘
分之m阶乘除以m-k的阶乘
等于m+1一直乘以m+k 分之 m乘以m-1
乘以m-2
依次减1
一直乘到m-k+1
分子、分母逐项相除
等于m+j分之m-j+1连乘
j从1取到k
对于任意1到k中的正整数j
将m+j分之m-j+1进一步以分子、分母的
平均值m+2分之1为基准整理为
(m+2分之1)加(j减2分之1)分之
(m+2分之1)减(j减2分之1)
等于1加(m+2分之1)分之
(j减2分之1) 分之
1减(m+2分之1)分之(j减2分之1)
再利用ln(1+t)的展开式得到
2分之1 ln(1+t)分之(1-t)等于
负的(t加3分之t立方加5分之t的5次方 等等)
根据上面的分析
将(m阶乘)乘(m阶乘)
除以m+k阶乘再除以m-k阶乘
写成1加(m+2分之1)分之
(j减2分之1)分之
1减(m+2分之1)分之(j减2分之1)
j从1到k连乘的形式
等于e的这个连乘项的自然对数次幂
等于e的对数项求和次幂
利用上面给出的ln (1+t)分之
(1-t)的展开式
整理e的指数部分的求和项
因为m很大时
(m+2分之1)分之
(j减2分之1)很小
所以每一个对数展开式
只取第一项近似
这样近似为e的负2乘以(m+2分之1)
分之(j减2分之1)的求和次幂
近似于e的m分之负k平方次幂
利用n阶乘除以(m阶乘)再除以
(m阶乘)乘2分之1的n次幂的近似式
以及(m阶乘)乘m阶乘除以m+k阶乘
再除以m-k阶乘的估计式
得到X等于m+k的概率近似等于
根号 pi,m分之1
乘以e的m分之负k平方次幂
推出
随机变量X落入m-k和m+k之间的概率
约等于根号 pi,m分之1
乘以e的m分之负i平方次幂
i从-k到k求和
在每个求和项中提出根号2分之m分之1
作为自变量x的变化单元
对应于dx
即得到该求和式的积分近似式
根号2 pi分之1
乘以e的负2分之x平方次幂
对x从负的根号2分之m分之k到
正的根号2分之m 分之k 的积分
注意到这里的被积函数就是
标准正态分布的密度函数
所以进一步推出
随机变量X落入m-k
和m+k之间的概率
约等于标准正态分布分布函数
在根号n分之2k
和负的根号n分之2k两点的取值差
再将随机变量X落入m-k
和m+k之间的概率
整理为X-m 除以2分之根号n
落入正负根号n分之2k范围的概率
近似等于标准正态分布分布函数
在正负根号n分之2k两点的取值差
所以推出
X-m 除以2分之根号n近似
服从标准正态分布
也就是X是近似服从以m
即2分之n为期望
2分之根号n的平方
即4分之n为方差的正态分布
18世纪法国数学家
棣莫弗和拉普拉斯
分别发现了n趋于无穷时
二项分布和正态分布的近似关系
定理以两个人的名字命名
若X服从参数为np的二项分布
则对任意的实数a,b
假设a小于b
则当n趋于无穷时
X减去np除以根号np乘以(1-p)
处于a和b之间的概率趋向于
标准正态分布随机变量
处于a和b之间的概率
也就是当n趋于无穷时
X近似服从期望为np
方差为np乘以(1-p)的正态分布
正态近似将二项分布随机变量X
近似看成期望为np
方差为np乘(1-p)的正态分布
图中对比了二项分布的
分布列和相应的
正态分布的密度函数
X大于等于a小于等于 b的概率
可以由正态分布密度函数
从a到b进行积分计算
即左图的阴影部分的面积
但使用这种方法
当估计X=a的概率时
近似值就会为0
弥补这个缺陷的方法
是对任何正整k
X=k的概率用相应正态分布在
[k-1/2,k+1/2]内的概率来近似
这样X大于等于a小于等于b的概率
可以由正态分布密度函数
从a-1/2到b+1/2进行积分来计算,
即右图阴影部分的面积
这样的近似
精度较好
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题