当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.7 类别数的确定方法 > 9.7 类别数的确定方法
吧
同学们大家好
我是来自西安工程大学
管理学院的李老师
好
欢迎回到第九章聚类方法
接下来让我们讲解
9.7类别数的确定方法
首先我们看一下类别的原理
在聚类过程中
类的个数如何来确定才是最合适的呢
这是一个十分困难的问题
至今仍未找到令人满意的方法
但这个问题又是不可回避的
下面呢
我们介绍两种比较常用的方法
第一种为阈值法
阈值法是最简单且有效的方法
其要点就是要通过观测聚类图
给出一个合适的阈值T
要求类与类之间的距离不要超过T值
比如
在如图所示的层次聚类图中
如果取阈值T=6
则聚为两类
如果取阈值T=3
则聚为四类
在实际的聚类中
一方面希望类之间有明显的区分
同时希望类别的数量越大越好
所以对于此图显示的聚类分析
该问题聚成4类比较合适
第二种
称为轮廓图法
轮廓图法是一种相对更智能
用于确定聚类类别的方法
轮廓图可用MATLAB中的
Silhouette函数来绘制
此函数可用来根据
Cluster
Custerdata
K-means的聚类结果绘制轮廓图
从图中可以判断每个点的分类是否合理
轮廓图上第i点的轮廓值定义为
如公式所示
其中
a是第i个点与同类其他点的平均距离
b是向量
其元素表示第i点
与不同类的类内个点的平均距离
SI的取值范围为
此值越大
说明该点的分类越合理
特别当SI<0时
说明该点分类不合理
在MATLAB中
Silhouette函数有如下几种用法
好
我们通过一个实例来看一下
下面我们将以实例为例
利用K-means方法和轮廓图法
来确定最佳的聚类类别数
具体代码如下
绘制各类别数对应的平均轮廓值图
中间的图展示的是分为两类
三类
四类对应的轮廓图值
最后为数据可视化结果
好
类别数的确定方法
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论