当前课程知识点:大数据机器学习 > 第十三章 EM算法及混合高斯模型 > 2. EM算法的引入 > 2. EM算法的引入
我们之前学习的概率模型
都是通过观测变量
observable variable学习模型
而实际的模型
大都还会包含隐变量
或潜在变量latent variable
如果变量都是观测变量
可以直接使用之前介绍的方法
如极大似然估计 贝叶斯估计等
但是
当模型包含隐变量
之前的这些方法就不能使用了
EM算法就是针对含有隐变量的概率模型
参数的极大似然估计方法
或者是极大后验概率估计方法
我们下面讨论的是基于
极大似然估计的EM方法
EM算法在非监督学习当中也有广泛的应用
我们也会介绍
我们举一个EM算法的例子
三硬币模型
有三个硬币A B C
当我们抛硬币时
它们各自出现正面的概率
分别为π p和q
我们进行如下的抛硬币实验
先抛A硬币
如果是正面呢就选B
反面时就选C硬币
然后再抛选中的硬币
选中的硬币出现正面
就记作1 反面就记作0
这样呢
重复执行M次
这里呢
M等于10
我们就得到如下的观测结果
1101001011
假设我们只能看结果不能看中间的过程
现在我们需要估计三个硬币抛出
出现正面的概率π p和q这三个参数
模型随机变量Y是观测变量
表示一次实验观测的结果是1或0
随机变量z是隐变量
表示未观测到的掷硬币A的结果
这模型是以上数据的生成模型
将观测数据表示为Y=Y1 Y2一直到Yn
未观测数据为z=z1 z2一直到Zn
模型参数为θ=π p q
则观测数据的似然函数为
(见上图)
即 (见上图)
这个等式很好理解
每个观测值对应yj
等式右边的前一项
是指A硬币为正面的时候选取B硬币
B硬币为正面时的概率
或者是B硬币为反面时的概率
第二项是指硬币A为反面的时候
选取C硬币
C硬币为正面的概率
或者C硬币为反面时的概率
然后呢
将每次观测的0或1代入式子
就得到10次实验的整体概率
作为似然函数的结果
最后得到(见上图)
使得对数似然函数最大
由于该优化问题没有解析解
所以呢
就需要采用EM的迭代算法进行求解
EM算法
首先是选取参数的初值
记做(见上图)
然后呢
通过下面的步骤
迭代计算参数的估计值
直至收敛为止
我们看第I步的估计值
(见上图)
EM算法第i+1次迭代是这样的
首先是期望步
计算在模型参数i=πi Pi qi下
观测数据yi来自掷硬币B的概率
(见上图)
有了M步的结果
我们就可以进行M步的计算就是最大步
计算模型参数的新估计
(见上图)
这样
我们通过M步就得到了
三个参数的在M步的结果
对刚才的例子
假设三个参数的取值为
μ0=0.5 p0=0.5 q0=0.5
那么由刚才的求取μi+1的式子
对yj=1或者是0
具有μj等于0.5
进而得到π1 p1和q1
这样呢
再由此进行μi+1公式的计算
得到μj2还等于0.5
继续迭代得到π2=0.5 p2=0.6 q2=0.6
没有变化
这样呢
我们就得到了模型参数θ的极大似然估计
π^=0.5 p^=0.6 q^=0.6
依然是刚才的例子
如果我们初值选取为
π0=0.4 p0=0.6 q0=0.7
那么得到的结果是会一样还是不一样呢
我们发现极大似然估计和刚才就有所不同
这说明EM算法与初值的选取是有关的
一般在EM算法中
y表示观测随机变量的数据
Z呢表示隐随机变量的数据
Y和Z在一起就称为完全数据
观测数据本身称为不完全数据
下面我们给出EM算法的完整步骤
输入呢是观测变量数据Y
隐变量数据Z
联合分布PYZΘ条件概率
也就是已知模型参数θ下
YZ完全数据的条件概率
和条件分布也就是PZY Θ的条件概率
也就是在观测和模型参数Θ下隐变量的条件概率
输出呢是模型参数θ
步骤一
选择参数的初值θ0
开始迭代
第二步
也就是E步 求期望
即θi为第I次迭代参数θ的估计值
在第i+1次迭代的E步
计算(见上图)
那么
在给定观测数据Y
和当前参数估计θi下
我们注意在这个等式有两个θ
前一个θ呢
是要求取的在i+1轮的θ
后一个θ是一个上一轮已经刚得到的θ
这里pzY θi是在给定观测数据Y
和当前的参数估计θi下
隐变量数据Z的条件概率分布
第三步
也就是最大化Q函数
求使Qθ θi极大化的θ
(见上图)
在最大化Q函数以后就是第四步
重复第二步和第三步直至收敛
在这四个步骤当中
函数Q θ θi是EM算法的核心
称为Q函数
这里给出Q函数的定义
完全数据的对数似然函数
logP Y Z θ条件概率
关于在给定观测数据Y和当前函数θi下
对未观测数据Z的条件概率分布
PZYCθi的期望就称为Q函数
这句话有点长有点拗口
但我们要抓住几个重要的概念
这个函数里呢有两个条件概率
一个呢是未知的
也就是要求的模型参数
θ条件下观测数据和隐变量的条件概率
一个条件概率呢
是在已知的上一轮得到的模型参数
以及观测数据下隐变量的条件概率
我们抓住这两个重点
就比较容易的理解Q函数的实质
我们在对EM算法做几点说明
在步骤一当中
参数的初值选取是需要注意的
因为EM算法对初值是很敏感
在步骤二中
也就是求取期望的这一步求Q函数
式子中的Z是未观测数据 Y是观测数据
注意
Q θ θi中的第一个变量
是要求取的极大化的参数
第二个变元表示参数的当前估计值
在步骤三当中
也就是求取最大这个步骤
求Q函数的极大值
得到θi+1完成一次迭代
也就是θi到θi+1
那么呢
我们将证明每次迭代
都会使似然函数值增大
或者达到局部最大值
在步骤四中
停止迭代的条件是
(见上图)
这两个条件都可以作为停止迭代的条件
我们刚才介绍了EM算法
但是我们并没有说明
为什么EM算法能近似实现
对观测数据的即大似然估计
所以下面呢
我们将通过极大化不完全数据y
关于参数θ的极大似然函数
来推导出EM算法
但是呢
面对这个最优化问题有几个难点
第一个难点是
在式子中有未观测数据
而且包含积分的对数
这样的话
就需要通过逐步迭代近似极大化Lθ来求解
也就是说
加入第i次迭代后θ的估计值是θi
我们希望新估计值θ能使Lθ增加
也就是Lθ大于Lθi 循环往复
逐渐达到最大值
我们现在考虑两者的差
Lθ减去Lθi等于后面的式子
我们将该式展开
并根据Jensen不等式
推导出Lθ减去Lθi 大于等于右式
我们把Lθi移到不等式的右边
我们令不等式的右边为Bθ θi
因为Lθ是大于等于Bθ θi
这样呢
Bθ θi就是Lθ的一个下界
我们还可以得出Lθi等于Bθi θi
因此
任何使B增大的θi都会使Lθ增大
那么
为了使Lθ增加最快
我们就选择θi+1使B达到极大
也就是
(见上图)
我们对该优化目标函数进行推导
省去和θ无关的项
最后就得到θi+1
就是使Q函数最大的θ值
也就得到证明
也就是说
我们刚才用到的EM算法的Q函数
是可证明正确的
该图呢是EM算法的直观解释
图中的上方曲线为Lθ曲线
下方曲线是Bθ θi曲线
B是对数似然函数Lθ的下界
由图可以看出
两个函数在θi处呢是相等的
EM算法找出下一个点
θi+1 使B函数最大
也使函数Q函数极大化
由于Lθ大于等于Bθ θi
Lθ在每次迭代中也是增加的
EM算法在点θi+1
重新计算Q函数的值
进行下一次的迭代
使Lθ呢不断增大
当然我们也发现了一个问题就是
EM算法不能保证找到全局的最优解
我们通常说
机器学习方法分为监督学习和非监督学习
监督学习的训练样本
由输入和输出成对的出现
然而
如果没有对应的输出
就是非监督学习问题
生成模型由联合概率分布PXY表示
那么 实际上
监督学习和非监督学习是可以进行转换的
我们可以认为非监督学习训练数据
是联合概率分布产生的数据
X为观测数据 Y为未观测数据
然后利用EM算法进行求解
-1.机器学习定义和典型应用
-2.机器学习和人工智能的关系
-3.深度学习方法和其它人工智能方法的共性和差异
-4.机器学习和数据挖掘的关系
-5.机器学习和统计学习的关系
-6.机器学习的发展历程
-7.大数据机器学习的主要特点
-第一章 概述--7.大数据机器学习的主要特点
-1机器学习的基本术语
-2.监督学习
--2.监督学习
-3.假设空间
--3.假设空间
-4.学习方法三要素
-第二章 机器学习基本概念--4.学习方法三要素
-5.奥卡姆剃刀定理
-6.没有免费的午餐定理
-7.训练误差和测试误差
-8.过拟合与模型选择
-第二章 机器学习基本概念--8.过拟合与模型选择
-9.泛化能力
--9.泛化能力
-10.生成模型和判别模型
-1.留出法
--1.留出法
-2.交叉验证法
--2.交叉验证法
-3.自助法
--3.自助法
-4.性能度量
--4.性能度量
-5.PR曲线
--5.PR曲线
-6.ROC和AUC曲线
-第三章 模型性能评估--6.ROC和AUC曲线
-7.代价敏感错误率
-8.假设检验
--8.假设检验
-9.T检验
--9.T检验
-10.偏差和方差
--10.偏差和方差
-1.感知机模型
--1.感知机模型
-第四章 感知机--1.感知机模型
-2.感知机学习策略
-3.感知机学习算法
-第四章 感知机--3.感知机学习算法
-1.原型聚类描述
--1.原型聚类描述
-第五章 聚类--1.原型聚类描述
-2.性能度量
--2.性能度量
-第五章 聚类--2.性能度量
-3.1原型聚类 k均值算法
-3.2 原型聚类 学习向量算法
-3.3 原型聚类 密度聚类
-第五章 聚类--3.3 原型聚类 密度聚类
-3.4原型聚类 层次聚类
-1.综述
--1.综述
-2.概率图模型
--2.概率图模型
-第六章 贝叶斯分类器及图模型--2.概率图模型
-3.贝叶斯网络
--3.贝叶斯网络
-第六章 贝叶斯分类器及图模型--3.贝叶斯网络
-4.朴素贝叶斯分类器
-第六章 贝叶斯分类器及图模型--4.朴素贝叶斯分类器
-5.半朴素贝叶斯分类器
-第六章 贝叶斯分类器及图模型--5.半朴素贝叶斯分类器
-6.贝叶斯网络结构学习推断
-7.吉布斯采样
--7.吉布斯采样
-第六章 贝叶斯分类器及图模型--7.吉布斯采样
-开头
--开头
-1.决策树模型与学习基本概念
-2.信息量和熵
--2.信息量和熵
-第七章 决策树和随机森林--2.信息量和熵
-3.决策树的生成
--3.决策树的生成
-4.决策树的减枝
--4.决策树的减枝
-5.CART算法
--5.CART算法
-6.随机森林
--6.随机森林
-简介
--简介
-1.逻辑斯谛回归模型
-第八章 逻辑斯谛回归与最大熵模型--1.逻辑斯谛回归模型
-2.最大熵模型
--2.最大熵模型
-3.模型学习的最优化方法
-第八章 逻辑斯谛回归与最大熵模型--3.模型学习的最优化方法
-1.开头
--1.开头
-2.SVM简介
--2.SVM简介
-3.线性可分支持向量机
-第九章 SVM--3.线性可分支持向量机
-4. 凸优化问题的基本概念
-第九章 SVM--4. 凸优化问题的基本概念
-5.支持向量的确切定义
-6.线性支持向量机
-第九章 SVM--6.线性支持向量机
-svm相关拓展资料
-开头
--开头
-第十章 核方法与非线性SVM--开头
-1.泛函基础知识
--1.泛函基础知识
-第十章 核方法与非线性SVM--1.泛函基础知识
-2. 核函数和非线性支持向量机
-第十章 核方法与非线性SVM--2. 核函数和非线性支持向量机
-3. 序列最小最优化算法
-第十章 核方法与非线性SVM--3. 序列最小最优化算法
-开头
--开头
-1. k近邻学习
--1. k近邻学习
-第十一章 降维与度量学习--1. k近邻学习
-2. 降维嵌入
--2.降维嵌入
-第十一章 降维与度量学习--2. 降维嵌入
-3. 主成分分析
--3.主要成分分析
-第十一章 降维与度量学习--3. 主成分分析
-4. 核化线性降维
--4.核化线性降维
-5. 流型学习和度量学习
-1. 提升方法Adaboost算法
-第十二章 提升方法--1. 提升方法Adaboost算法
-2. Adaboost算法的训练误差分析
-3. Adaboost算法的解释
-4. Adaboost的实现
-第十二章 提升方法--4. Adaboost的实现
-adaboost拓展资料
-开头
--开头
-1. 问题提出
--1. 问题提出
-2. EM算法的引入
-3. EM算法的收敛性
-4. EM算法在高斯混合模型学习中的应用
-5. EM算法的推广
-第十三章 EM算法及混合高斯模型--3. EM算法的收敛性
-开头
--开头
-1. 计算学习理论的基础知识
-第十四章 计算学习理论--1. 计算学习理论的基础知识
-2. 概率近似正确学习理论
-3. 有限假设空间
--3.有限假设空间
-4. VC维
--4. VC维
-第十四章 计算学习理论--4. VC维
-5. 学习稳定性
--5. 学习稳定性
-开头
--开头
-1. 隐马尔科夫模型的基本概念
-第十五章 隐马尔可夫模型--1. 隐马尔科夫模型的基本概念
-2. 概率计算算法
-3. 学习算法
--3.学习算法
-第十五章 隐马尔可夫模型--3. 学习算法
-4预测算法
--4. 预测算法
-第十五章 隐马尔可夫模型--4预测算法
-开头
--开头
-1.概率无向图模型
-第十六章 条件随机场--1.概率无向图模型
-2.条件随机场的定义与形式
-第十六章 条件随机场--2.条件随机场的定义与形式
-3.条件随机场的计算问题
-4.条件随机场的学习算法
-5.条件随机场的预测算法
-第十六章 条件随机场--5.条件随机场的预测算法
-开头
--开头
-1.精确推断法:变量消去法和信念传播法
-第十七章 概率图模型的学习与推断--1.精确推断法:变量消去法和信念传播法
-2.近似推断法:MCMC和变分推断
-第十七章 概率图模型的学习与推断--2.近似推断法:MCMC和变分推断
-1.神经网络的发展历程
-2.神经网络的基本概念以及常见的神经网络(一)
-第十八章 神经网络和深度学习--2.神经网络的基本概念以及常见的神经网络(一)
-3.神经网络的基本概念以及常见的神经网络(二)
-4.玻尔兹曼机
--4.玻尔兹曼机
-5.深度学习
--5.深度学习
-第十八章 神经网络和深度学习--5.深度学习
-1. 深度学习简介和架构设计
-2. 计算图形式的反向传播算法
-3.深度学习的正则化方法(一)
-4.深度学习的正则化方法(二)
-1.深度学习的优化问题
-第二十章 深度学习优化方法--1.深度学习的优化问题
-2.神经网络优化的挑战
-3.神经网络的优化算法
-第二十章 深度学习优化方法--3.神经网络的优化算法
-4.相关策略
--4.相关策略
-第二十章 深度学习优化方法--4.相关策略