当前课程知识点:大数据管理与挖掘 > 第9章 聚类方法 > 9.2 K-means方法 > 9.2 K-means方法
吧
同学们大家好
我是来自西安工程大学
管理学院的李老师
好
欢迎回到第九章
聚类方法
接下来让我们看一下第二小节
K-means聚类
首先呢
让我们看一下K-means的原理
首先随机从数据集中选取K个点
每个点初始的代表每个簇的聚类中心
然后计算剩余各个样本到聚类中心的距离
将它赋给最近的簇
接着重新计算每一次的平均值
整个过程不断重复
如果相邻两次调整没有明显变化
说明数据聚类形成的簇已经收殓
本算法的一个特点
是在每次迭代中
都要考察每个样本的分类是否正确
若不正确
就要重新调整
在全部样本调整完后
再修改聚类中心
进入下一次的迭代
这个过程将不断重复
直到满足某个终止条件
接下来让我们看一下K-means的算法步骤
输入
输入聚类个数K
以及包含N个数据对象的数据库
输出
满足方差最小标准的K个聚类
处理流程有以下几步
第一步
从N个数据对象中任意选择K个对象
作为初始聚类中心
二
根据每个聚类对象的均值
计算每个对象与这些中心对象的距离
并根据最小距离
重新对相应对象进行划分
三
重新计算每个聚类的均值
四
循环步骤二和三
直到每个聚类不再发生变化为止
下面我们用一个小的实例
来看一下K-means基类
现在呢
我们一个小实例为载体来学习
如何用K-means算法实现实际的分类问题
是这样
已知有二十个样本
每个样本有两个特征
数据分布如下所示
是对这些数据进行分类
第一步
我们要进行数据准备和初始化
第二步
我们用来寻找聚类中心
第三步是结果显示
右图可以数据化显示出我们的聚类效果图
可以看到聚类效果非常显著
接下来让我们看一下K-means的特点
一
在K-means算法中
K是事先给定的
这个K值的选定非常难以估计
二
在K-means算法中
首先需要根据初始聚类中心
来确定一个初始划分
然后对初始划分进行优化
三
K-means算法需要不断的进行样本分类调整
不断的计算调整后的新的聚类中心
因此当数据量非常大的时候
算法的时间开销非常大
四
K-means算法
对这些离散点和初始K值比较敏感
不同的距离初始值
对同样数据样本可能得到不同的计算结果
好
K-means方法就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论