当前课程知识点:大数据机器学习 >  第十三章 EM算法及混合高斯模型 >  2. EM算法的引入 >  2. EM算法的引入

返回《大数据机器学习》慕课在线视频课程列表

2. EM算法的引入在线视频

2. EM算法的引入

下一节:3. EM算法的收敛性

返回《大数据机器学习》慕课在线视频列表

2. EM算法的引入课程教案、知识点、字幕

我们之前学习的概率模型

都是通过观测变量

observable variable学习模型

而实际的模型

大都还会包含隐变量

或潜在变量latent variable

如果变量都是观测变量

可以直接使用之前介绍的方法

如极大似然估计 贝叶斯估计等

但是

当模型包含隐变量

之前的这些方法就不能使用了

EM算法就是针对含有隐变量的概率模型

参数的极大似然估计方法

或者是极大后验概率估计方法

我们下面讨论的是基于

极大似然估计的EM方法

EM算法在非监督学习当中也有广泛的应用

我们也会介绍

我们举一个EM算法的例子

三硬币模型

有三个硬币A B C

当我们抛硬币时

它们各自出现正面的概率

分别为π p和q

我们进行如下的抛硬币实验

先抛A硬币

如果是正面呢就选B

反面时就选C硬币

然后再抛选中的硬币

选中的硬币出现正面

就记作1 反面就记作0

这样呢

重复执行M次

这里呢

M等于10

我们就得到如下的观测结果

1101001011

假设我们只能看结果不能看中间的过程

现在我们需要估计三个硬币抛出

出现正面的概率π p和q这三个参数

模型随机变量Y是观测变量

表示一次实验观测的结果是1或0

随机变量z是隐变量

表示未观测到的掷硬币A的结果

这模型是以上数据的生成模型

将观测数据表示为Y=Y1 Y2一直到Yn

未观测数据为z=z1 z2一直到Zn

模型参数为θ=π p q

则观测数据的似然函数为

(见上图)

即 (见上图)

这个等式很好理解

每个观测值对应yj

等式右边的前一项

是指A硬币为正面的时候选取B硬币

B硬币为正面时的概率

或者是B硬币为反面时的概率

第二项是指硬币A为反面的时候

选取C硬币

C硬币为正面的概率

或者C硬币为反面时的概率

然后呢

将每次观测的0或1代入式子

就得到10次实验的整体概率

作为似然函数的结果

最后得到(见上图)

使得对数似然函数最大

由于该优化问题没有解析解

所以呢

就需要采用EM的迭代算法进行求解

EM算法

首先是选取参数的初值

记做(见上图)

然后呢

通过下面的步骤

迭代计算参数的估计值

直至收敛为止

我们看第I步的估计值

(见上图)

EM算法第i+1次迭代是这样的

首先是期望步

计算在模型参数i=πi Pi qi下

观测数据yi来自掷硬币B的概率

(见上图)

有了M步的结果

我们就可以进行M步的计算就是最大步

计算模型参数的新估计

(见上图)

这样

我们通过M步就得到了

三个参数的在M步的结果

对刚才的例子

假设三个参数的取值为

μ0=0.5 p0=0.5 q0=0.5

那么由刚才的求取μi+1的式子

对yj=1或者是0

具有μj等于0.5

进而得到π1 p1和q1

这样呢

再由此进行μi+1公式的计算

得到μj2还等于0.5

继续迭代得到π2=0.5 p2=0.6 q2=0.6

没有变化

这样呢

我们就得到了模型参数θ的极大似然估计

π^=0.5 p^=0.6 q^=0.6

依然是刚才的例子

如果我们初值选取为

π0=0.4 p0=0.6 q0=0.7

那么得到的结果是会一样还是不一样呢

我们发现极大似然估计和刚才就有所不同

这说明EM算法与初值的选取是有关的

一般在EM算法中

y表示观测随机变量的数据

Z呢表示隐随机变量的数据

Y和Z在一起就称为完全数据

观测数据本身称为不完全数据

下面我们给出EM算法的完整步骤

输入呢是观测变量数据Y

隐变量数据Z

联合分布PYZΘ条件概率

也就是已知模型参数θ下

YZ完全数据的条件概率

和条件分布也就是PZY Θ的条件概率

也就是在观测和模型参数Θ下隐变量的条件概率

输出呢是模型参数θ

步骤一

选择参数的初值θ0

开始迭代

第二步

也就是E步 求期望

即θi为第I次迭代参数θ的估计值

在第i+1次迭代的E步

计算(见上图)

那么

在给定观测数据Y

和当前参数估计θi下

我们注意在这个等式有两个θ

前一个θ呢

是要求取的在i+1轮的θ

后一个θ是一个上一轮已经刚得到的θ

这里pzY θi是在给定观测数据Y

和当前的参数估计θi下

隐变量数据Z的条件概率分布

第三步

也就是最大化Q函数

求使Qθ θi极大化的θ

(见上图)

在最大化Q函数以后就是第四步

重复第二步和第三步直至收敛

在这四个步骤当中

函数Q θ θi是EM算法的核心

称为Q函数

这里给出Q函数的定义

完全数据的对数似然函数

logP Y Z θ条件概率

关于在给定观测数据Y和当前函数θi下

对未观测数据Z的条件概率分布

PZYCθi的期望就称为Q函数

这句话有点长有点拗口

但我们要抓住几个重要的概念

这个函数里呢有两个条件概率

一个呢是未知的

也就是要求的模型参数

θ条件下观测数据和隐变量的条件概率

一个条件概率呢

是在已知的上一轮得到的模型参数

以及观测数据下隐变量的条件概率

我们抓住这两个重点

就比较容易的理解Q函数的实质

我们在对EM算法做几点说明

在步骤一当中

参数的初值选取是需要注意的

因为EM算法对初值是很敏感

在步骤二中

也就是求取期望的这一步求Q函数

式子中的Z是未观测数据 Y是观测数据

注意

Q θ θi中的第一个变量

是要求取的极大化的参数

第二个变元表示参数的当前估计值

在步骤三当中

也就是求取最大这个步骤

求Q函数的极大值

得到θi+1完成一次迭代

也就是θi到θi+1

那么呢

我们将证明每次迭代

都会使似然函数值增大

或者达到局部最大值

在步骤四中

停止迭代的条件是

(见上图)

这两个条件都可以作为停止迭代的条件

我们刚才介绍了EM算法

但是我们并没有说明

为什么EM算法能近似实现

对观测数据的即大似然估计

所以下面呢

我们将通过极大化不完全数据y

关于参数θ的极大似然函数

来推导出EM算法

但是呢

面对这个最优化问题有几个难点

第一个难点是

在式子中有未观测数据

而且包含积分的对数

这样的话

就需要通过逐步迭代近似极大化Lθ来求解

也就是说

加入第i次迭代后θ的估计值是θi

我们希望新估计值θ能使Lθ增加

也就是Lθ大于Lθi 循环往复

逐渐达到最大值

我们现在考虑两者的差

Lθ减去Lθi等于后面的式子

我们将该式展开

并根据Jensen不等式

推导出Lθ减去Lθi 大于等于右式

我们把Lθi移到不等式的右边

我们令不等式的右边为Bθ θi

因为Lθ是大于等于Bθ θi

这样呢

Bθ θi就是Lθ的一个下界

我们还可以得出Lθi等于Bθi θi

因此

任何使B增大的θi都会使Lθ增大

那么

为了使Lθ增加最快

我们就选择θi+1使B达到极大

也就是

(见上图)

我们对该优化目标函数进行推导

省去和θ无关的项

最后就得到θi+1

就是使Q函数最大的θ值

也就得到证明

也就是说

我们刚才用到的EM算法的Q函数

是可证明正确的

该图呢是EM算法的直观解释

图中的上方曲线为Lθ曲线

下方曲线是Bθ θi曲线

B是对数似然函数Lθ的下界

由图可以看出

两个函数在θi处呢是相等的

EM算法找出下一个点

θi+1 使B函数最大

也使函数Q函数极大化

由于Lθ大于等于Bθ θi

Lθ在每次迭代中也是增加的

EM算法在点θi+1

重新计算Q函数的值

进行下一次的迭代

使Lθ呢不断增大

当然我们也发现了一个问题就是

EM算法不能保证找到全局的最优解

我们通常说

机器学习方法分为监督学习和非监督学习

监督学习的训练样本

由输入和输出成对的出现

然而

如果没有对应的输出

就是非监督学习问题

生成模型由联合概率分布PXY表示

那么 实际上

监督学习和非监督学习是可以进行转换的

我们可以认为非监督学习训练数据

是联合概率分布产生的数据

X为观测数据 Y为未观测数据

然后利用EM算法进行求解

大数据机器学习课程列表:

第一章 概述

-1.机器学习定义和典型应用

--1.机器学习定义和典型应用

-2.机器学习和人工智能的关系

--2.机器学习和人工智能的关系

-3.深度学习方法和其它人工智能方法的共性和差异

--3.深度学习方法和其它人工智能方法的共性和差异

-4.机器学习和数据挖掘的关系

--4.机器学习和数据挖掘的关系

-5.机器学习和统计学习的关系

--5.机器学习和统计学习的关系

-6.机器学习的发展历程

--6.机器学习的发展历程

-7.大数据机器学习的主要特点

--7.大数据机器学习的主要特点

-第一章 概述--7.大数据机器学习的主要特点

-1.相关拓展资料

第二章 机器学习基本概念

-1机器学习的基本术语

--1机器学习的基本术语

-2.监督学习

--2.监督学习

-3.假设空间

--3.假设空间

-4.学习方法三要素

--4.学习方法三要素

-第二章 机器学习基本概念--4.学习方法三要素

-5.奥卡姆剃刀定理

--5.奥卡姆剃刀定理

-6.没有免费的午餐定理

--6.没有免费的午餐定理v

-7.训练误差和测试误差

--7.训练误差和测试误差

-8.过拟合与模型选择

--8.过拟合与模型选择

-第二章 机器学习基本概念--8.过拟合与模型选择

-9.泛化能力

--9.泛化能力

-10.生成模型和判别模型

--10.生成模型和判别模型

-统计学习与监督学习拓展资料

第三章 模型性能评估

-1.留出法

--1.留出法

-2.交叉验证法

--2.交叉验证法

-3.自助法

--3.自助法

-4.性能度量

--4.性能度量

-5.PR曲线

--5.PR曲线

-6.ROC和AUC曲线

--6.ROC和AUC曲线

-第三章 模型性能评估--6.ROC和AUC曲线

-7.代价敏感错误率

--7.代价敏感错误率

-8.假设检验

--8.假设检验

-9.T检验

--9.T检验

-10.偏差和方差

--10.偏差和方差

第四章 感知机

-1.感知机模型

--1.感知机模型

-第四章 感知机--1.感知机模型

-2.感知机学习策略

--2.感知机学习策略

-3.感知机学习算法

--3.感知机学习算法

-第四章 感知机--3.感知机学习算法

-感知机拓展资料

第五章 聚类

-1.原型聚类描述

--1.原型聚类描述

-第五章 聚类--1.原型聚类描述

-2.性能度量

--2.性能度量

-第五章 聚类--2.性能度量

-3.1原型聚类 k均值算法

--3.1原型聚类 k均值算法

-3.2 原型聚类 学习向量算法

--3.2 原型聚类 学习向量算法

-3.3 原型聚类 密度聚类

--3.3 原型聚类 密度聚类

-第五章 聚类--3.3 原型聚类 密度聚类

-3.4原型聚类 层次聚类

--3.4原型聚类 层次聚类

-聚类拓展资料

第六章 贝叶斯分类器及图模型

-1.综述

--1.综述

-2.概率图模型

--2.概率图模型

-第六章 贝叶斯分类器及图模型--2.概率图模型

-3.贝叶斯网络

--3.贝叶斯网络

-第六章 贝叶斯分类器及图模型--3.贝叶斯网络

-4.朴素贝叶斯分类器

--4.朴素贝叶斯分类器

-第六章 贝叶斯分类器及图模型--4.朴素贝叶斯分类器

-5.半朴素贝叶斯分类器

--5.半朴素贝叶斯分类器v

-第六章 贝叶斯分类器及图模型--5.半朴素贝叶斯分类器

-6.贝叶斯网络结构学习推断

--6.贝叶斯网络结构学习推断

-7.吉布斯采样

--7.吉布斯采样

-第六章 贝叶斯分类器及图模型--7.吉布斯采样

-贝叶斯相关拓展

第七章 决策树和随机森林

-开头

--开头

-1.决策树模型与学习基本概念

--1.决策树模型与学习基本概念

-2.信息量和熵

--2.信息量和熵

-第七章 决策树和随机森林--2.信息量和熵

-3.决策树的生成

--3.决策树的生成

-4.决策树的减枝

--4.决策树的减枝

-5.CART算法

--5.CART算法

-6.随机森林

--6.随机森林

-决策树相关拓展

第八章 逻辑斯谛回归与最大熵模型

-简介

--简介

-1.逻辑斯谛回归模型

--1.逻辑斯谛回归模型

-第八章 逻辑斯谛回归与最大熵模型--1.逻辑斯谛回归模型

-2.最大熵模型

--2.最大熵模型

-3.模型学习的最优化方法

--3.模型学习的最优化方法

-第八章 逻辑斯谛回归与最大熵模型--3.模型学习的最优化方法

-logistic回归相关拓展

第九章 SVM

-1.开头

--1.开头

-2.SVM简介

--2.SVM简介

-3.线性可分支持向量机

--3.线性可分支持向量机

-第九章 SVM--3.线性可分支持向量机

-4. 凸优化问题的基本概念

--4. 凸优化问题的基本概念

-第九章 SVM--4. 凸优化问题的基本概念

-5.支持向量的确切定义

--5.支持向量的确切定义

-6.线性支持向量机

--6.线性支持向量机

-第九章 SVM--6.线性支持向量机

-svm相关拓展资料

--svm相关拓展资料

第十章 核方法与非线性SVM

-开头

--开头

-第十章 核方法与非线性SVM--开头

-1.泛函基础知识

--1.泛函基础知识

-第十章 核方法与非线性SVM--1.泛函基础知识

-2. 核函数和非线性支持向量机

--2. 核函数和非线性支持向量机

-第十章 核方法与非线性SVM--2. 核函数和非线性支持向量机

-3. 序列最小最优化算法

--3. 序列最小最优化算法

-第十章 核方法与非线性SVM--3. 序列最小最优化算法

第十一章 降维与度量学习

-开头

--开头

-1. k近邻学习

--1. k近邻学习

-第十一章 降维与度量学习--1. k近邻学习

-2. 降维嵌入

--2.降维嵌入

-第十一章 降维与度量学习--2. 降维嵌入

-3. 主成分分析

--3.主要成分分析

-第十一章 降维与度量学习--3. 主成分分析

-4. 核化线性降维

--4.核化线性降维

-5. 流型学习和度量学习

--5.流型学习和度量学习

第十二章 提升方法

-1. 提升方法Adaboost算法

--1. 提升方法adaboost算法

-第十二章 提升方法--1. 提升方法Adaboost算法

-2. Adaboost算法的训练误差分析

--2. Adaboost算法的训练误差分析

-3. Adaboost算法的解释

--3. Adaboost算法的解释

-4. Adaboost的实现

--4. Adaboost的实现

-第十二章 提升方法--4. Adaboost的实现

-adaboost拓展资料

--adaboost拓展资料

第十三章 EM算法及混合高斯模型

-开头

--开头

-1. 问题提出

--1. 问题提出

-2. EM算法的引入

--2. EM算法的引入

-3. EM算法的收敛性

--3. EM算法的收敛性

-4. EM算法在高斯混合模型学习中的应用

--4. EM算法在高斯混合模型学习中的应用

-5. EM算法的推广

--5. EM算法的推广

-第十三章 EM算法及混合高斯模型--3. EM算法的收敛性

-EM算法拓展资料

第十四章 计算学习理论

-开头

--开头

-1. 计算学习理论的基础知识

--1. 计算学习理论的基础知识

-第十四章 计算学习理论--1. 计算学习理论的基础知识

-2. 概率近似正确学习理论

--2. 概率近似正确学习理论

-3. 有限假设空间

--3.有限假设空间

-4. VC维

--4. VC维

-第十四章 计算学习理论--4. VC维

-5. 学习稳定性

--5. 学习稳定性

-计算学习理论拓展资料

第十五章 隐马尔可夫模型

-开头

--开头

-1. 隐马尔科夫模型的基本概念

--1. 隐马尔科夫模型的基本概念

-第十五章 隐马尔可夫模型--1. 隐马尔科夫模型的基本概念

-2. 概率计算算法

--2. 概率计算算法

-3. 学习算法

--3.学习算法

-第十五章 隐马尔可夫模型--3. 学习算法

-4预测算法

--4. 预测算法

-第十五章 隐马尔可夫模型--4预测算法

-隐马尔可夫拓展资料

第十六章 条件随机场

-开头

--开头

-1.概率无向图模型

--1.概率无向图模型

-第十六章 条件随机场--1.概率无向图模型

-2.条件随机场的定义与形式

--2.条件随机场的定义与形式

-第十六章 条件随机场--2.条件随机场的定义与形式

-3.条件随机场的计算问题

--3.条件随机场的计算问题

-4.条件随机场的学习算法

--4.条件随机场的学习算法

-5.条件随机场的预测算法

--5.条件随机场的预测算法

-第十六章 条件随机场--5.条件随机场的预测算法

第十七章 概率图模型的学习与推断

-开头

--开头

-1.精确推断法:变量消去法和信念传播法

--1.精确推断法:变量消去法和信念传播法

-第十七章 概率图模型的学习与推断--1.精确推断法:变量消去法和信念传播法

-2.近似推断法:MCMC和变分推断

--2.近似推断法:MCMC和变分推断

-第十七章 概率图模型的学习与推断--2.近似推断法:MCMC和变分推断

第十八章 神经网络和深度学习

-1.神经网络的发展历程

--1.神经网络的发展历程

-2.神经网络的基本概念以及常见的神经网络(一)

--2.神经网络的基本概念以及常见的神经网络(一)

-第十八章 神经网络和深度学习--2.神经网络的基本概念以及常见的神经网络(一)

-3.神经网络的基本概念以及常见的神经网络(二)

--3.神经网络的基本概念以及常见的神经网络(二)

-4.玻尔兹曼机

--4.玻尔兹曼机

-5.深度学习

--5.深度学习

-第十八章 神经网络和深度学习--5.深度学习

-神经网络与深度学习拓展资料

第十九章 深度学习正则化方法

-1. 深度学习简介和架构设计

--1. 深度学习简介和架构设计

-2. 计算图形式的反向传播算法

--2. 计算图形式的反向传播算法

-3.深度学习的正则化方法(一)

--3.深度学习的正则化方法(一)

-4.深度学习的正则化方法(二)

--4.深度学习的正则化方法(二)

-深度学习正则化方法拓展资料

第二十章 深度学习优化方法

-1.深度学习的优化问题

--1.深度学习的优化问题

-第二十章 深度学习优化方法--1.深度学习的优化问题

-2.神经网络优化的挑战

--2. 神经网络优化的挑战

-3.神经网络的优化算法

--3.神经网络的优化算法

-第二十章 深度学习优化方法--3.神经网络的优化算法

-4.相关策略

--4.相关策略

-第二十章 深度学习优化方法--4.相关策略

-深度学习优化算法拓展资料

2. EM算法的引入笔记与讨论

收藏文章
表情删除后不可恢复,是否删除
取消
确定
图片正在上传,请稍后...
  • 评分:
评论内容为空!
还没有评论,快来抢沙发吧!

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。
欢迎学习『2. EM算法的引入慕课视频播放-大数据机器学习-MOOC慕课视频教程-柠檬大学』