当前课程知识点:大数据管理与挖掘 >  第9章 聚类方法 >  9.1 聚类方法概要 >  9.1 聚类方法概要

返回《大数据管理与挖掘》慕课在线视频课程列表

9.1 聚类方法概要在线视频

下一节:9.2 K-means方法

返回《大数据管理与挖掘》慕课在线视频列表

9.1 聚类方法概要课程教案、知识点、字幕

同学们大家好

我是来自西安工程大学

管理学院的 李老师

今天为大家讲解第九章

聚类方法

首先我们来看一下聚类的基本概念

聚类呢

是将物理或抽象对象的集合

分成由类似的对象组成的多个类或簇

的过程称为聚类

由聚类所生成的簇

是组成数据对象的集合

这些对象与同一个簇中的对象相似度较高

与其他簇中的对象相似度较低

分析事物聚类的过程称为聚类分析

又称为群分析

它是研究分类问题的一种统计分析方法

聚类分析

与其他将数据对象分组的技术相关

例如聚类可以看作是一种分类

它用类或簇标号创建对象的标记

然而

只能从数据导出这些标号

相比之下

分类是监督分类

即使用类标号已知的对象开发的模型

对新的无标记的对象赋予类标号

为此

有时称聚类分析为非监督分类

类的度量方法

常用的类的度量方法有以下两种

第一种呢

叫做闵可夫斯基距离

它呢是第i个样品

SI和第J个样品

XJ之间的闵可夫斯基距离

也称为明氏距离

其中呢

他的q为正整数

当然

我们要注意一点

当个变量的单位不同

或者测量值范围相差较大的时候

不应直接采用闵可夫斯基距

离应先对各变量的观测数据

做标准化处理

第二种呢

称为兰氏距离

当XIK大于零的时候

定义第i个样品SI

和第J个样品Xj

之间的兰氏距离为

如下面的公式所示

第三种呢

我们称为马哈拉诺比斯距离

它呢是第i个样品Si和第J个样品SJ

之间的马哈拉诺比斯距离

如下面公式所示

其中呢

是变量SK与变量SL之间的相关系数

常用的相似系数又有如下两种度量方法

第一种呢

我们称为夹角余弦

它是变量XI与S间的夹角余弦

定义如下式所示

第二种呢

叫做相关系数

它是变量Si与Sj的相关系数

定义如下式所示

由相似系数呢

我们还可定义变量间的距离

下面我们再来看一下聚类方法的应用场景

第一种我们称为客户细分

消费同一种类的商品或服务的时候

不同的客户有不同的消费特点

通过研究这些特点

企业可以制定出不同的营销组合

从而获取最大的消费者剩余

这就是客户细分的主要目的

常用的客户分类方法呢

主要有以下三类

第一种称为经验描述法

由决策者根据经验对客户进行类别划分

第二种为传统统计法

根据客户属性特征的简单统计

来划分客户类别

第三种我们称为非传统统计方法

它是即基于人工智能技术的

非数值方法

聚类分析法将有后两类方法的特点

销售片区划分

销售片区的确定

和片区经理的任命在企业的市场营销中

发挥着重要的作用

只有合理地将企业所拥有的子市场

归成几个大的片区

才能更有效地制定出

符合片区特点的市场营销战略和策略

并任命合适的片区经理

聚类分析在市场机会研究中的应用

企业在制定市场营销策略时

应弄清在同一市场中

哪些企业是直接竞争者

哪些又是间接竞争者

这是非常关键的一个环节

要解决这个问题

企业首先可以通过市场调查

获取自己和所有主要竞争者

在品牌方面的第一提及知名度

提示前知名度

和提示后知名度的指标值

将它们作为聚类分析的变量

这样便可以将企业

和竞争对手的产品或品牌归类

是量化投资

聚类在量化投资的应用

是对投资对象进行聚类

以确定合适的分类标准

并研究每个类别的升值潜力

已确定投资目标池

对证券公司等金融机构来说呢

对客户进行聚类

可以有效确定客户的构成

并可以根据不同类别的客户

采取不同的服务方式

这样就可以更大限度的提升企业的服务水平

盈利水平

同时降低企业成本

接下来让我们看一下只为方法的分类

聚类问题的研究有很长的历史了

迄今为止

为了解决各领域的聚类应用

已经提出的聚类算法已有近百种

根据聚类原理

可将聚类算法分为以下几种

划分聚类

层次聚类

基于密度的聚类

基于网格的聚类和基于模型的聚类

虽然聚类的方法很多

但在实践应用中

用的比较多的还是K-means

层次聚类

神经网络聚类

以及模糊C均值聚类

高斯聚类这几种常用的方法

聚类方法概要就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

9.1 聚类方法概要笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。