当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.6 高斯混合聚类方法 > 9.6 高斯混合聚类方法
吧
同学们大家好
我是来自西安工程大学
管理学院的李老师
好
欢迎回到第九章聚类方法
接下来让我们进入
高斯混合聚类方法
首先
我们来看一下高斯混合聚类的原理
高斯混合聚类和Kmeans其实十分相似
区别仅仅在于对GMM来说
引入了概率
GMM学习的过程
就是训练出几个概率分布
所谓混合高斯模型
就是指对样本的概率密度分布进行估计
而估计的模型
是几个高斯模型加权之和
具体是几个
要在模型训练前建立好
每个高斯模型就代表了一个类
对样本的数据分别在几个高斯模型上投影
就会分别得到在各个类上的概率
然后可以选取概率最大的类
作为判决结果
高斯混合聚类算法的步骤
首先我们看一下
高斯混合模型定义
如图所示
其中K为模型个数
为第K个高斯的权重
则为第K个高斯的概率密度函数
其均值
方差
对此概率密度估计
就是要求
各个变量
当求出表达式后
求合适的各项的结果
就分别代表样本X属于各个类的概念
在做参数估计的时候
常采用的方法是最大似然法
最大似然法
就是使样本点
在估计的概率密度函数上的
概率值最大
由于概率值一般都很小
N很大的时候
这个联乘的结果就非常小
容易造成浮点数下溢
所以通常取Log
将目标改写成下式
也就是最大化
完整形式如下
对于上式
可以采用的求解方法是EM算法
将分解分为以下两步
第一步是假设知道各个高斯模型的参数
可以初始化一个
然后去估计每个高斯模型的权值
第二步是基于估计的权值
回过头再确定高斯模型的参数
重复这两个步骤
直到波动很小
近似得到极值
注意
这里是极值而不是最值
EM算法会陷入局部最优
具体表现如下
第一步
对于第i个样本Xi来说
它是由第K个model生成的概率
如图所示
在这一步
假设高斯模型的参数是已知的
它是由上一步迭代而来
或由初始值决定的
第二步
得到每个点的概率后
可以这样考虑
对样本Xi来说
它的概率以及乘上SI的值
是由第K个高斯模型产生的
换句话说
第K个高斯模型产生了这些数据
这样在估计第K个高斯模型的参数的时候
就用这些数据去做参数估计
和前面提到的一样
我们仍然采用最大似然方法去做估计
公式如下
第三步
重复上述两个步骤
直到算法收敛
理论上是可以证明这个算法是收敛的
好
接下来让我们用一个具体的实例
来看一下高斯混合聚类
下面
用高斯基类方法来对企业债券进行举例
具体实现代码和结果如下
从右图我们可以看到数据的可视化结果
可以看到
用高斯混合实现的聚类非常明显
接下来我们看一下高斯聚类的特点
GMM的优点呢
它是投影后
样本点不是得到一个确定的分类标记
而是得到每个类的概率
这是一个重要的信息
GMM的每一步迭代的计算量都比较大
大于K-means
GMM的求解办法是
是基于EM算法
因此有可能陷入局部极值
这和初始值的选取十分相关
GMM不仅可以用在聚类上
也可以用在概率密度估计上
好
高斯混合聚类方法
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论