当前课程知识点:概率论与数理统计 > 第十四周 参数点估计 > 参数的极大似然估计 > 14.2参数的极大似然估计法
让我们回到装有一定量的
黑球和白球的盒子的问题
估计盒子中黑球的比例p
还是有放回的进行一定次数的抽取
假定进行10次有放回的抽取
抽到3个黑球
现在我们考虑发生这一结果的概率
这个抽取过程相当于成功概率为p的
伯努利试验重复10次
设抽到黑球的个数为随机变量X
则X服从参数为p
10的二项分布
恰好抽到3个黑球的概率
即等于C10、3
p立方乘以1-p的7次方
注意到 p取不同值时
对应的所观测到的实验结果
发生的概率是不同的
当p等于0.1时
恰好抽到3个黑球的概率
是0.0574
当p等于0.4时
恰好抽到3个黑球的概率为0.215
黑球比例为0.4时
发生10次抽取中得到3个黑球
这一结果的可能性
远远大于比例为0.1时的可能性
进一步验证
当p等于0.3时
10次抽取中
抽到3个黑球的发生概率
达到最大值
等于0.2668
若以能够使观测结果
以最大概率出现为原则
那p=0.3就是最合理的估计
这就是参数的
极大似然估计的基本想法
极大似然估计方法的基本思想
是选择能够以最大概率
解释样本数据的参数值
作为对未知参数的估计
相对于其他参数
所考虑的样本数据
更像是来自于这组参数
也就是更像是来自于
极大似然估计所得到的这组参数
极大似然估计通常通过3个步骤实现
首先
确定总体的概率函数f(x、theta)
这里的theta是被估参数
概率函数对于离散型随机变量
是指分布律
对连续型随机变量则是密度函数
参数theta的取值范围
是大theta集合
大theta称为参数空间
就是参数theta所有可能取值的集合
可以理解为参数theta的定义域
第2步
是获取一组来自该总体的样本观测值
小x1、x2到xn
这样
这组样本观测值
发生的联合概率函数
就是关于theta的函数
对于离散型分布的总体
联合概率函数就是
这组样本观测值发生的联合概率
对于连续型分布的总体
联合概率函数
就是这组样本观测值发生的
联合概率密度
这个联合概率函数
用L、theta、 x1、x2到xn表示
也可以简单的记为L、theta
因为简单随机样本的独立性
L(theta )等于总体概率函数
在x1、x2到xn点取值的乘积
L(theta )称为样本值的似然函数
第3步
求使得似然函数L(theta )
达到最大的theta
其中theta必须要属于
大theta集合
解出的使得似然函数L(theta )
达到最大的theta
是一个关于x1、x2到xn的函数
用theta一尖表示
则称统计量theta一尖
大X1、X2直到Xn为参数theta的
极大似然估计量
当似然函数关于theta可导时
可通过导数等于0
来求解似然函数的最大值
但似然函数它是一连串函数乘积的形式
对它进行求导往往计算非常繁琐
为了计算方便
常常考虑对数似然函数
ln(L(theta))
因为ln(x)是关于x的
单调递增函数
所以ln(L(theta))
与L(theta)达到最大值的时候
theta的取值是相同的
而乘积形式再取了对数之后
就变为了连加求导计算大大简化
所以当似然函数可导时
人们常利用对数似然函数
求解极大似然估计
要注意的是
对数似然函数
只有当似然函数可导时才能使用
当似然函数在参数空间
大theta的某些点不可导时
就不能使用对数似然函数
求导的方法来求解最大值了
这个时候往往要根据问题的具体形式
进行具体分析
看一个例子
总体服从参数为lamda的泊松分布
用极大似然估计法估计参数lamda
首先写出离散分布总体X的分布律
X等于j的概率为
j的阶乘分之lamda的j次方
乘以e的负lamda次幂
j为非负整数
设x1、x2到xn为
来自于这一总体的样本观测值
则似然函数L(lamda)
等于X等于xk的概率
k从1到n的乘积
两端取对数
得到对数似然函数
连乘项表示的似然函数
经过取对数后
成为了n项求和
经过几步整理和化简
等于(x1到xn求和)乘以ln(lamda)
减去n倍lamda
再减n倍的xk阶乘的连乘
其中x1到xn求和等于n倍x一拔
得到对数似然函数等于
n倍x一拔乘以ln(lamda)
减去n倍lamda
再减n倍的xk阶乘连乘
对对数似然函数关于lamda求导
并令其为0
得到
lamda分之n倍的x一拔减n
等于0
解出lamda等于x一拔
根据题意
这个问题必有最大值
且只有一个点导数为0
所以我们知道唯一的极值点x一拔
就是对数似然函数的最大值点
所以
参数lamda的极大似然估计量
lamda一尖等于样本均值X一拔
总体服从参数为lamda的指数分布
求参数lamda的极大似然估计量
设x1、x2、xn为
来自指数总体的样本观测值
指数分布随机变量的密度函数
为lamda乘以e的
负lamda x次幂
x大于0
似然函数L(lamda)为x1、x2
到xn同时发生的联合密度函数
似然函数等于lamda
乘以e的负lamda xk次幂
k从1到n的乘积
等于lamda的n次方
乘以e的负lamda 乘x1加x2
一直加到xn 次幂
用对数似然函数
求解似然函数的最大值
对数似然函数ln(L(lamda))
等于n倍的ln(lamda)
减lamda 乘x1、x2
到xn的求和
对lamda求导
等于lamda分之n减去x1、x2到xn的求和
令其等于0
解出lamda等于x1、x2到xn的求和分之n
等于n倍x一拔分之n
等于x一拔分之1
根据题意
这里的似然函数必有最大值
而似然函数只有一个极值点
因此所求极值点必为
似然函数的最大值点
所以参数lamda的极大似然估计量
lamda一尖等于样本均值X一拔分之1
设X1、2到Xn是期望为mu
方差为sigma方的正态总体的样本
其中sigma方已知
求参数mu的极大似然估计量
设x1、x2、xn为
来自于这个正态总体的样本观测值
似然函数L(mu)等于
概率函数在样本观测值处的乘积
即等于正态随机变量的密度函数
在x1、x2、xn点取值的乘积
等于
根号2pi sigma分之1的n次方
乘以e的(负2倍sigma方分之1)
乘(xi减mu的平方求和)次幂
对数似然函数ln(L(mu))
等于n倍的ln(根号2pi分之1)
减2分之n倍的ln(sigma方)
减2倍sigma方分之1
乘xi减mu的平方求和
对对数似然函数关于mu求导
得sigma方分之1乘xi减mu求和
令其等于0
解得mu等于n分之x1加x2
一直加到xn
等于x一拔
根据题意知此极值点
必为对数似然函数的最大值点
所以参数mu的极大似然估计量
mu一尖等于样本均值X一拔
上面看到的几个例子
都是通过对对数似然函数求导
计算似然函数的最大值
但是当似然函数
在参数空间某些点不可导时
极大似然估计就无法通过
对数似然函数的求导来求解了
这时常常需要利用
似然函数本身的性质来求解最大值
下面看一个不能利用导数求最大值的例子
设X1、X2到Xn
是来自a、b区间上均匀分布总体的样本
试利用极大似然估计
给出参数a和b的估计量
设x1、x2、xn为
来自于这个均匀总体的样本观测值
总体分布的密度函数
在a、b区间等于b-a分之1
其余点密度函数等于0
则似然函数L(a,b)
等于概率函数在样本观测值处的乘积
即等于均匀随机变量的密度函数
在x1、x2到xn点的乘积
等于b减a的n次方分之1
所有的xk小于等于b
大于等于a
显然似然函数L(a,b)
关于a是
关于b是单调递减函数
也就是固定b
L(a,b) 是关于a的
单调递增函数
固定a的时候
L(a,b) 是关于b是单调递减函数
要使得L(a,b)达到最大
就必须使b-a达到最小
也就是使b尽可能的小
a尽可能的大
考虑到所有xk都小于等于b
大于等于a
所以
a小于等于x1、x2到xn中每一个
也就是小于等于x1、x2到xn的最小值
相应的
b大于等于x1、x2
到xn的最大值
a允许取到的最大值就是x1、x2
到xn的最小值
b允许取到的最小值就是x1、x2
到xn的最大值
所以
参数a的极大似然估计量a一尖
等于样本X1、X2
到Xn的最小值函数
参数b的极大似然估计量
b一尖等于样本X1、X2
到Xn的最大值函数
再看一个例子
估计柯西分布随机变量的参数theta
参数为theta的柯西分布随机变量的密度函数
为(pi乘以1加x减theta平方)分之1
柯西分布没有数学期望
我们验证一下
按照期望定义
连续型随机变量
如果x的绝对值乘以密度函数
从负无穷到正无穷的积分存在
则该随机变量存在期望
否则不存在期望
计算这一积分
利用对称性
等于2倍的x乘以密度函数
从0到正无穷积分
将密度函数的表达式代入
将分子的x拆分为
x减theta 再加 theta
后一部分积分的被积函数
就是theta倍的密度函数
积分值等于theta
前一部分利用换元法积分
其原函数 ln (1 加 x减theta的平方)
当x趋于无穷时
函数值趋于无穷
其极限不存在
这样就验证了柯西分布随机变量
不存在期望
所以无法使用矩估计法
估计它的参数
下面尝试用极大似然估计法
来估计柯西分布的参数
设x1、x2到xn为
来自参数为theta的
柯西分布总体的样本观测值
其似然函数L(theta)
等于密度函数在x1、x2
到xn点处的乘积
利用对数似然函数
求解似然函数的最大值
对对数似然函数ln(L(theta))
关于theta求导
并令其等于0
所得方程无法得到解析解
需要利用一定近似计算方法
来近似求解方程
利用极大似然估计法做参数估计时候
求解似然函数的极大值
本身往往也是很困难的问题
也需要一定的近似求解
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题