当前课程知识点:大数据管理与挖掘 >  第9章 聚类方法 >  9.3 层次聚类 >  9.3 层次聚类

返回《大数据管理与挖掘》慕课在线视频课程列表

9.3 层次聚类在线视频

下一节:9.4 神经网络聚类

返回《大数据管理与挖掘》慕课在线视频列表

9.3 层次聚类课程教案、知识点、字幕

同学们大家好

我是来自西安工程大学

管理学院的李老师

欢迎回到第九章聚类方法

接下来我们介绍第三小节

层次聚类

首先

我们来看一下层次聚类的原理

层次聚类算法是通过将数据组织

分为若干组

并形成一个相应的数来进行聚类的

根据层次是自底向上还是自顶向下形成

层次聚类算法

可以进一步分为凝聚型的聚类算法

和分裂型的聚类算法

如下图所示

接下来

我们看一下层次聚类的方法

第一种称为凝聚的层次聚类

这种自顶向上的策略

首先将每个对象作为一个簇

然后合并这些原子簇为越来越大的簇

直到所有的对象都在一个簇中

或者某个终止条件达到要求

分裂的层次聚类

像这样的自顶向下的策略

与凝聚的层次聚类有些不一样

它首先将所有对象放在一个簇中

然后慢慢地细分为越来越小的簇

直到每个对象自行形成一簇

或者直到满足其他的一个终结条件

接下来让我们看一下层次聚类的核心步骤

其中

AGENES算法的核心步骤如下

输入

K目标累簇数D

样本点集合

输出

K个类簇集合

将D中的每个样本点当作其类簇

第二步重复

第三步找到分属两个不同类簇

且距离最近的样本点对

第四 将两个类簇合并

第五 util类簇数等于K

下面让我们以一个具体的实例

来看一下层次聚类

下面呢

用层次聚类方法

来对上级实例中的企业债券进行聚类

具体代码如下

第一步

绘制聚类效果图

进而得到评估各类别的相关程度

同时计算同行相关系数

进而层次结构图

得到同表相关系数

此处得到的是利用cophenet函数

得到的描述聚类树信息

与原始数据距离之间

相关性的同表象相关系数

这个值越大越好

下面是我们的数据可视化结果

从聚类效果图以及层次结构图可以看到

我们的层次聚类非常明显

层次聚类的特点

在凝滞的层次聚类方法

和分类的层次聚类的所有方法中

都需要用户

提供所希望得到的聚类的单个数量

和阈值

作为聚类分析的终止条件

但是对于复杂的数据来说

这是很难事先判定的

尽管层次聚类的方法实现很简单

但是偶尔会遇见合并

或分裂点的抉择的困难

这样的抉择特别关键

因为只要其中的两个对象被合并或者分裂

接下来的处理

将只能对新生成的簇中完成

已形成的处理就不能被撤销

两个聚类之间也不能交换对象

如果在每个阶段没有选择合并

或分裂的决策

就非常可能导致不高质量的聚类结果

而且这种距离方法

不是有特别好的可伸缩性

因为它们合并或分裂的决策

需要经过检测和估算大量的对象或簇

第二点

层次聚类算法由于要使用距离矩阵

所以它的时间和空间复杂性都非常高

几乎不能在大数据集上使用

层次聚类算法只处理符合某静态模型的簇

而忽略了不同簇间的信息

并且忽略了簇间的互连性和近似度

层次聚类就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

9.3 层次聚类笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。