当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.1 聚类方法概要 > 9.1 聚类方法概要
哦
同学们大家好
我是来自西安工程大学
管理学院的 李老师
今天为大家讲解第九章
聚类方法
首先我们来看一下聚类的基本概念
聚类呢
是将物理或抽象对象的集合
分成由类似的对象组成的多个类或簇
的过程称为聚类
由聚类所生成的簇
是组成数据对象的集合
这些对象与同一个簇中的对象相似度较高
与其他簇中的对象相似度较低
分析事物聚类的过程称为聚类分析
又称为群分析
它是研究分类问题的一种统计分析方法
聚类分析
与其他将数据对象分组的技术相关
例如聚类可以看作是一种分类
它用类或簇标号创建对象的标记
然而
只能从数据导出这些标号
相比之下
分类是监督分类
即使用类标号已知的对象开发的模型
对新的无标记的对象赋予类标号
为此
有时称聚类分析为非监督分类
类的度量方法
常用的类的度量方法有以下两种
第一种呢
叫做闵可夫斯基距离
它呢是第i个样品
SI和第J个样品
XJ之间的闵可夫斯基距离
也称为明氏距离
其中呢
他的q为正整数
当然
我们要注意一点
当个变量的单位不同
或者测量值范围相差较大的时候
不应直接采用闵可夫斯基距
离应先对各变量的观测数据
做标准化处理
第二种呢
称为兰氏距离
当XIK大于零的时候
定义第i个样品SI
和第J个样品Xj
之间的兰氏距离为
如下面的公式所示
第三种呢
我们称为马哈拉诺比斯距离
它呢是第i个样品Si和第J个样品SJ
之间的马哈拉诺比斯距离
如下面公式所示
其中呢
是变量SK与变量SL之间的相关系数
常用的相似系数又有如下两种度量方法
第一种呢
我们称为夹角余弦
它是变量XI与S间的夹角余弦
定义如下式所示
第二种呢
叫做相关系数
它是变量Si与Sj的相关系数
定义如下式所示
由相似系数呢
我们还可定义变量间的距离
如
下面我们再来看一下聚类方法的应用场景
第一种我们称为客户细分
消费同一种类的商品或服务的时候
不同的客户有不同的消费特点
通过研究这些特点
企业可以制定出不同的营销组合
从而获取最大的消费者剩余
这就是客户细分的主要目的
常用的客户分类方法呢
主要有以下三类
第一种称为经验描述法
由决策者根据经验对客户进行类别划分
第二种为传统统计法
根据客户属性特征的简单统计
来划分客户类别
第三种我们称为非传统统计方法
它是即基于人工智能技术的
非数值方法
聚类分析法将有后两类方法的特点
二
销售片区划分
销售片区的确定
和片区经理的任命在企业的市场营销中
发挥着重要的作用
只有合理地将企业所拥有的子市场
归成几个大的片区
才能更有效地制定出
符合片区特点的市场营销战略和策略
并任命合适的片区经理
三
聚类分析在市场机会研究中的应用
企业在制定市场营销策略时
应弄清在同一市场中
哪些企业是直接竞争者
哪些又是间接竞争者
这是非常关键的一个环节
要解决这个问题
企业首先可以通过市场调查
获取自己和所有主要竞争者
在品牌方面的第一提及知名度
提示前知名度
和提示后知名度的指标值
将它们作为聚类分析的变量
这样便可以将企业
和竞争对手的产品或品牌归类
四
是量化投资
聚类在量化投资的应用
是对投资对象进行聚类
以确定合适的分类标准
并研究每个类别的升值潜力
已确定投资目标池
对证券公司等金融机构来说呢
对客户进行聚类
可以有效确定客户的构成
并可以根据不同类别的客户
采取不同的服务方式
这样就可以更大限度的提升企业的服务水平
盈利水平
同时降低企业成本
接下来让我们看一下只为方法的分类
聚类问题的研究有很长的历史了
迄今为止
为了解决各领域的聚类应用
已经提出的聚类算法已有近百种
根据聚类原理
可将聚类算法分为以下几种
划分聚类
层次聚类
基于密度的聚类
基于网格的聚类和基于模型的聚类
虽然聚类的方法很多
但在实践应用中
用的比较多的还是K-means
层次聚类
神经网络聚类
以及模糊C均值聚类
高斯聚类这几种常用的方法
好
聚类方法概要就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论