当前课程知识点:概率论与数理统计 > 第十五周 参数的区间估计 > 区间估计的基本思想 > 15.1 区间估计的基本思想
上一周我们学习了参数的点估计
点估计是用一个点
也就是一个特定的取值来估计未知参数
这一周我们学习参数的区间估计
顾名思义
区间估计就是用一个区间来估计未知参数
例如
估计一个人的年龄
我们猜测某个人的年龄是42岁
这个使用的就是点估计的方式
但此人恰好就是42岁吗
当然有这种可能
但是也有相当的可能不是
而且
我们在猜测的时候也并非
就是认定这个人恰好就是42岁
我们心里真正想的往往是这个人
大概在42岁左右
我们不说这个人大约42岁
而是换一种猜测的说法
说这个人在40至45岁之间
这也是一种很自然的估计方法
这就是区间估计的方式
再比如
估计一个人的身高在1米75至1米80之间
估计产品的合格率在0.95至0.98之间等等
区间估计考虑到了估计的误差
多少给人们更大的信任感
区间估计的理论就是用明确的
概率语言刻画这种信任感
并给出得到区间估计的具体方法
在正式引入区间估计的概率形式之前
我们先看一个区间估计的例子
设X1、X2、X3、X4是来自于期望为mu
方差为1的正态总体的样本
样本均值X一拔是参数mu的一个点估计
X一拔减1
到X一拔加1这个区间
就可以作为参数mu的一个区间估计
因为X一拔是随机变量
所以X一拔减1
到X一拔加1这个区间是一个随机区间
计算X一拔等于mu的概率
和mu属于随机区间X一拔减1
到X一拔加1的概率
希望能够用这个例子表现出
点估计和区间估计的区别和联系
在计算之前
我们先考虑一下这个题的条件
这个题的条件是正态总体的期望未知
方差已知
现实中有没有这样的情况呢
实际上
这种情况是经常遇到的
比如
我们用天平测量
估计一个物体的质量
这个物体的质量是某一个常数
但是是未知的
考虑到测量误差通常服从
期望为0的正态分布
那么
测量值就服从以物体真实质量
为期望的正态分布
方差呢
往往由天平本身的精度
和测量员的经验决定
使用一台精密的天平
由经验丰富的测量员来测量
那测量值的波动就会比较小
也就是测量值的方差比较小
而一台简易的天平
测量值的波动就会比较大
也就是测量值的方差较大
天平的精度和测量员的经验是比较确定的
某一个测量员用同一台天平测量
所得结果的方差一般来说也是比较固定的
而被测物体是经常变化的
这样就出现了题目中给出的期望未知
方差已知的这样的情况
而期望已知
方差未知的情形
在现实中很少出现
所以虽然形式上也可以给出
总体分布服从期望已知
方差未知的正态分布
但是没有多少实际意义
我们考虑问题的时候还是要考虑问题的实际意义
当然
更多的时候是期望和方差都未知的情况
这时两个参数都要估计
下面我们回到这个例题的求解
因为样本容量是4
所以样本均值X一拔服从期望为mu
方差4分之1的正态分布
X一拔减mu除以2分之1
服从期望为0
方差为1的标准正态分布
连续型分布的随机变量
在任何一点取值的概率为0
所以X一拔减mu恰好等于0的概率为0
也就是点估计完完全全没有任何偏差地
估计出正确结果的概率
永远是0
接下来计算mu属于随机区间X一拔减1
到X一拔加1的概率
就是mu小于等于X一拔加1
大于等于X一拔减1的概率
等价地表示为X一拔小于等于mu加1
大于等于mu减1的概率
这样表示更加自然
因为我们更习惯于计算
一个随机变量属于某个区间的概率
而不是一个常数属于某个随机区间的概率
每一项都减去mu
等于X一拔减mu小于等于1
大于等于负1的概率
等于2倍的X一拔减mu小于等于2
大于等于负2的概率
中间的随机变量是标准正态分布
所以概率等于标准正态分布的分布函数
在2和负2两点的取值差
经过查表
得到概率等于0.9544
设I(X1、X2到Xn)是一个随机区间
这个随机区间由样本完全确定
而且对于属于参数空间的被估参数theta
参数theta属于随机区间的概率
也就是能够包含参数theta的
随机区间出现的概率大于等于1减alpha
就称这样定义的随机区间是参数theta的一个
置信水平为1减alpha的区间估计
其中alpha大于0小于1
置信水平可以取到的最大值称为置信系数
例15.1.1中
随机区间X一拔减1
到X一拔加1包含
未知参数mu的概率是0.9544
显然参数mu属于
这一随机区间的概率大于0.8
所以根据置信水平的定义
也可以说随机区间X一拔减1
到X一拔加1是参数mu的一个
置信水平为0.8的置信区间
当然同样可以说这个随机区间
是参数mu的一个置信水平为0.7的置信区间
但通常人们是不这样说的
因为置信水平的概念
本身是为了表示区间估计的可信程度的
因此我们希望尽可能充分地描述出
给定随机区间
对参数进行估计的可信度
也就是希望得到置信水平可能达到的最大值
在这个例子里
随机区间X一拔减1
到X一拔加1的置信水平
最大可以达到0.9544
也就是这个区间是参数mu的
置信系数为0.9544的区间估计
在实际应用中
人们不会故意将用作区间估计的随机区间的
可信度有所保留
总是尽可能得到它的置信系数的水平
用来表达这个随机区间的可靠度
所以
实际应用中所说置信水平
大多数时候指的就是置信系数
既然是这样
那为什么不用一个概念
而是提出置信系数和置信水平这两个概念呢
因为在有些情况下
被估参数属于随机区间的概率不容易计算
这时候无法知道置信系数
退而求其次
只能尽可能得到这一概率的下界估计
证明被估参数属于随机区间的概率
一定不小于某个值
这个值就是所得到的置信水平
相比于置信系数
置信水平是一个刻画用作区间估计的
随机区间的可信度的一个更宽泛的概念
参数的区间估计有三种形式
设被估参数theta属于区间I的概率
大于等于1减alpha
其中区间I由随机变量X1、X2和Xn决定
当随机区间I等于theta1一尖(X1、X2、Xn)
到theta2一尖(X1、X2、Xn)的闭区间时
因为随机区间有上下界
称这一随机区间为参数theta的
置信水平为1减alpha的双侧置信区间
当随机区间I等于theta L一尖(X1、X2、Xn)
到正无穷时
因为随机区间只有下界
没有上界
称随机区间I为参数theta的
置信水平为1减alpha的单侧置信区间
或上侧置信区间
theta L一尖为参数theta的
置信水平为1减alpha的置信下限
当随机区间I
等于负无穷到theta U一尖(X1、X2、Xn)时
因为随机区间只有上界
没有下界
同样称随机区间I为参数theta的
置信水平为1减alpha的单侧置信区间
theta U一尖为参数theta的
置信水平为1减alpha的置信上限
继续看例15.1.1
进一步理解估计区间的概率意义
事实上
未知参数本身是确定的值
不带有随机性
估计的随机性是由区间引入的
一个置信水平1减alpha的区间估计
其含义是
所得到的随机区间
至少以概率1减alpha覆盖被估的参数
在例15.1.1中
置信水平的含义是
实际抽取样本容量为4的样本
得到一次区间估计
将这样的估计重复足够多次
那么至少1减alpha比例的估计区间
包含真实的mu值
这里置信系数是0.9544
即将这一估计方法实际重复足够多次之后
大约95.44%的估计区间会包含真实的mu值
图15.1是设定参数mu等于2
将区间估计重复100次的模拟结果
其中100个估计区间中有6个区间没有包含2
即参数的实际取值
94%的区间成功的包含了真实值mu等于2
继续模拟
将区间估计重复10000次
结果442次估计区间没有包含mu的真实值2
这时成功包含被估参数mu等于2的
区间百分比达到95.58%
当然
这些都是概率意义上的结果
具体的每一次实际估计
我们不会确切的知道估计区间是否包含未知参数
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题