当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.5 模糊C-均值(FCM)方法 > 9.5 模糊C-均值(FCM)方法
吧
同学们大家好
我是来自西安工程大学
管理学院的李老师
好
欢迎大家回到第九章聚类方法
接下来让我们进入 9.5模糊C均值方法
首先我们看一下Fcm的原理
模糊C均值聚类算法
是用隶属度确定每个数据点
属于某个聚类的程度的一种聚类方法
1973年
Bezdek提出该算法
作为早期硬C均值聚类方法的一种改进
首先它是给定样本观测数据的矩阵
其中
X的每一行为一个样品或观测
每一列为一个变量的N个观测值
也就是说
X是由N个样品
X1 X2 一直到Xn的
P个变量的观测值构成的矩阵
模糊聚类就是将N个样品划分为C类
为C个类的聚类中心
其中Vi由这样表示
在模糊划分中
每个样品不是严格的划分为某一类
而是以一定的隶属度
这里的和为1
定义目标函数GUV
其中
为隶属度矩阵
显然
GUV表示
各类中样品到聚类中心的加权平方距离之和
权重是样品SK
属于i类的隶属度的M次方
模糊C均值聚类法的聚类准则
是求UV使得JUV取得最小值
FCM的具体步骤如下
第一步确定类的个数C
幂指数m>1初
初始隶属度矩阵U0等于UIK0
通常的做法
是取0-1之间上的均匀分布随机数
来确定初始隶属度矩阵
令L=1表示第一步迭代
第二步
通过下式计算第L步的聚类中心
第三步
修正隶属度矩阵UL
计算目标函数GL
其中呢
这样表示
第四步
对给定的隶属度中止容限
或目标函数终止容限
或最大迭代步长
或当L>1的时候
停止迭代
否则
然后转2
经过上述步骤的迭代之后
可以求得最终的隶属度矩阵U
和聚类中心V
使得目标函数GUV的值达到最小
根据最终的隶属度矩阵U中的元素的取值
可以确定所有样品的归属
当UGK=maxUik的时候
可将样品SK归为第j类
接下来让我们看一个FCM的应用实例
下面用FCM方法
来对企业债券进行聚类
具体实现代码和结果如下
第一步进行预处理设置
第二步
绘制聚类效果图
以得到数据的可视化结果
好
接下来让我们看一下FCM算法的特点
首先我们看一下FCM的优点
FCM算法
用隶属度确定每个样本属于某个聚类的程度
它与K平均算法和中心点算法等相比
计算量可大大减少
因为它省去了多重迭代的反复计算过程
效率将大大提高
同时
模糊聚类分析可根据数据库中的相关数据
计算形成模糊相似矩阵
形成相似矩阵之后
直接对相似矩阵进行处理即可
无需多次反复扫描数据库
同时
根据实验要求动态设定M值
以满足不同类型数据挖掘任务的需要
适于高维度的数据的处理
具有较好的伸缩性
便于找出异常点
当然
FCM算法也有它的缺陷
从M值根据经验或者实验得来
具有不确定性
可能影响实验结果
并且
由于梯度法的搜索方向
总是沿着能量减小的方向
使得算法存在易陷入局部极小值
和对初始化敏感的缺点
为克服以上缺点
可在FCM算法中引入全局寻优法
来摆脱FCM矩阵运算时
可能陷入的局部极小点
以优化聚类效果
好
模糊C均值方法就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论