当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.3 层次聚类 > 9.3 层次聚类
吧
同学们大家好
我是来自西安工程大学
管理学院的李老师
好
欢迎回到第九章聚类方法
接下来我们介绍第三小节
层次聚类
首先
我们来看一下层次聚类的原理
层次聚类算法是通过将数据组织
分为若干组
并形成一个相应的数来进行聚类的
根据层次是自底向上还是自顶向下形成
层次聚类算法
可以进一步分为凝聚型的聚类算法
和分裂型的聚类算法
如下图所示
接下来
我们看一下层次聚类的方法
第一种称为凝聚的层次聚类
这种自顶向上的策略
首先将每个对象作为一个簇
然后合并这些原子簇为越来越大的簇
直到所有的对象都在一个簇中
或者某个终止条件达到要求
二
分裂的层次聚类
像这样的自顶向下的策略
与凝聚的层次聚类有些不一样
它首先将所有对象放在一个簇中
然后慢慢地细分为越来越小的簇
直到每个对象自行形成一簇
或者直到满足其他的一个终结条件
接下来让我们看一下层次聚类的核心步骤
其中
AGENES算法的核心步骤如下
输入
K目标累簇数D
样本点集合
输出
K个类簇集合
一
将D中的每个样本点当作其类簇
第二步重复
第三步找到分属两个不同类簇
且距离最近的样本点对
第四 将两个类簇合并
第五 util类簇数等于K
下面让我们以一个具体的实例
来看一下层次聚类
下面呢
用层次聚类方法
来对上级实例中的企业债券进行聚类
具体代码如下
第一步
绘制聚类效果图
进而得到评估各类别的相关程度
同时计算同行相关系数
进而层次结构图
得到同表相关系数
此处得到的是利用cophenet函数
得到的描述聚类树信息
与原始数据距离之间
相关性的同表象相关系数
这个值越大越好
下面是我们的数据可视化结果
从聚类效果图以及层次结构图可以看到
我们的层次聚类非常明显
层次聚类的特点
一
在凝滞的层次聚类方法
和分类的层次聚类的所有方法中
都需要用户
提供所希望得到的聚类的单个数量
和阈值
作为聚类分析的终止条件
但是对于复杂的数据来说
这是很难事先判定的
尽管层次聚类的方法实现很简单
但是偶尔会遇见合并
或分裂点的抉择的困难
这样的抉择特别关键
因为只要其中的两个对象被合并或者分裂
接下来的处理
将只能对新生成的簇中完成
已形成的处理就不能被撤销
两个聚类之间也不能交换对象
如果在每个阶段没有选择合并
或分裂的决策
就非常可能导致不高质量的聚类结果
而且这种距离方法
不是有特别好的可伸缩性
因为它们合并或分裂的决策
需要经过检测和估算大量的对象或簇
第二点
层次聚类算法由于要使用距离矩阵
所以它的时间和空间复杂性都非常高
几乎不能在大数据集上使用
层次聚类算法只处理符合某静态模型的簇
而忽略了不同簇间的信息
并且忽略了簇间的互连性和近似度
好
层次聚类就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论