当前课程知识点:大数据管理与挖掘 >  第9章 聚类方法 >  9.6 高斯混合聚类方法 >  9.6 高斯混合聚类方法

返回《大数据管理与挖掘》慕课在线视频课程列表

9.6 高斯混合聚类方法在线视频

下一节:9.7 类别数的确定方法

返回《大数据管理与挖掘》慕课在线视频列表

9.6 高斯混合聚类方法课程教案、知识点、字幕

同学们大家好

我是来自西安工程大学

管理学院的李老师

欢迎回到第九章聚类方法

接下来让我们进入

高斯混合聚类方法

首先

我们来看一下高斯混合聚类的原理

高斯混合聚类和Kmeans其实十分相似

区别仅仅在于对GMM来说

引入了概率

GMM学习的过程

就是训练出几个概率分布

所谓混合高斯模型

就是指对样本的概率密度分布进行估计

而估计的模型

是几个高斯模型加权之和

具体是几个

要在模型训练前建立好

每个高斯模型就代表了一个类

对样本的数据分别在几个高斯模型上投影

就会分别得到在各个类上的概率

然后可以选取概率最大的类

作为判决结果

高斯混合聚类算法的步骤

首先我们看一下

高斯混合模型定义

如图所示

其中K为模型个数

为第K个高斯的权重

则为第K个高斯的概率密度函数

其均值

方差

对此概率密度估计

就是要求

各个变量

当求出表达式后

求合适的各项的结果

就分别代表样本X属于各个类的概念

在做参数估计的时候

常采用的方法是最大似然法

最大似然法

就是使样本点

在估计的概率密度函数上的

概率值最大

由于概率值一般都很小

N很大的时候

这个联乘的结果就非常小

容易造成浮点数下溢

所以通常取Log

将目标改写成下式

也就是最大化

完整形式如下

对于上式

可以采用的求解方法是EM算法

将分解分为以下两步

第一步是假设知道各个高斯模型的参数

可以初始化一个

然后去估计每个高斯模型的权值

第二步是基于估计的权值

回过头再确定高斯模型的参数

重复这两个步骤

直到波动很小

近似得到极值

注意

这里是极值而不是最值

EM算法会陷入局部最优

具体表现如下

第一步

对于第i个样本Xi来说

它是由第K个model生成的概率

如图所示

在这一步

假设高斯模型的参数是已知的

它是由上一步迭代而来

或由初始值决定的

第二步

得到每个点的概率后

可以这样考虑

对样本Xi来说

它的概率以及乘上SI的值

是由第K个高斯模型产生的

换句话说

第K个高斯模型产生了这些数据

这样在估计第K个高斯模型的参数的时候

就用这些数据去做参数估计

和前面提到的一样

我们仍然采用最大似然方法去做估计

公式如下

第三步

重复上述两个步骤

直到算法收敛

理论上是可以证明这个算法是收敛的

接下来让我们用一个具体的实例

来看一下高斯混合聚类

下面

用高斯基类方法来对企业债券进行举例

具体实现代码和结果如下

从右图我们可以看到数据的可视化结果

可以看到

用高斯混合实现的聚类非常明显

接下来我们看一下高斯聚类的特点

GMM的优点呢

它是投影后

样本点不是得到一个确定的分类标记

而是得到每个类的概率

这是一个重要的信息

GMM的每一步迭代的计算量都比较大

大于K-means

GMM的求解办法是

是基于EM算法

因此有可能陷入局部极值

这和初始值的选取十分相关

GMM不仅可以用在聚类上

也可以用在概率密度估计上

高斯混合聚类方法

就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

9.6 高斯混合聚类方法笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。