当前课程知识点：大数据管理与挖掘 > 第8章分类方法 > 8.2 K-近邻（KNN） > 8.2 K-近邻（KNN）

返回《大数据管理与挖掘》慕课在线视频课程列表

8.2 K-近邻（KNN）在线视频

下一节:8.3 贝叶斯分类

返回《大数据管理与挖掘》慕课在线视频列表

8.2 K-近邻（KNN）课程教案、知识点、字幕

吧

大家好

我是西安工程大学

管理学院王艳老师

好欢迎回来

本节我们接着介绍

分类算法里面的K近邻算法

K近邻分类算法

通过计算每个训练数据

到待分类元组的距离

取与待分类元组距离最近的K个训练数据

K中哪个类别训练数据占多数

则待分类元组就属于哪个类别

K近邻算法原理

如下图所示

最近邻分类器

把每个样例看作d维空间上的一个数据点

其中d是属性个数

给定一个测试样例

可以以计算该测试样例与训练集中

其他数据点的距离

给定样例z的K最近邻是指

找出和z距离最近的K个数据点

那么一最近邻

二最近邻

三最近邻的分类

如上图所示

该数据点

根据其近邻的类标号进行分类

如果数据点的近邻中含有多个类标号

则将该数据点

指派到其最近邻的多数类

K近邻算法的具体步骤可分为七步

第一步

初始化距离为最大值

第二步

计算未知样本和每个训练样本的距离

第三步

得到目前K个最近邻样本中的最大距离

第四步

如果未知样本与训练样本的距离

小于K个最近邻样本中的最大距离

则将该训练样本

作为K最近邻样本

第五步

重复上述步骤的234

直到未知样本和所有训练样本的距离

都算完

第六步

统计K个最近邻样本中

每个类别出现的次数

第七步

选择出现频率最大的类别

作为未知样本的类别

K近邻算法对K值的依赖较高

所以K值的选择非常重要

如果K太小

预测目标容易产生变动性

相反

如果K太大

最近邻分类器

可能会误分类测试样例

因为最近邻列表中

可能包含远离其近邻的数据点

K较大时K近邻分类

如下图所示

推定K值的有效途径

是通过有效参数的数目这个概念

有效参数的数目是和K值相关的

大致等于N/K

其中N是这个训练数据集中实力的数目

在实践中

往往通过若干次实验来确定K值

取分类误差率最小的K值

下面我们通过一个具体的例子

来进一步了解K近邻算法

一家银行的工作人员通过电话

调查客户是否愿意购买一种理财产品

并记录调查结果为Y

另外银行有这些客户的一些资料

用X表示

这些资料包括16个属性

银行客户的属性及其意义

如右图所示

现在希望建立一个分类器

来预测一个新客户是否愿意购买该产品

那么具体的实验步骤如下

第一步准备环境

具体的操作如下图所示

第二步

导入数据集数据预处理

具体的操作如下图所示

通过上述过程

可得如下图所示的两个结果

执行程序会得到数据中yes和no的结果

数据可视化结果

第三步

设置交叉验证方式

具体的操作如下图所示

通过上述过程

可得到数据训练集和测试集

具体的结果如下所示

第四步

训练K近邻分类器

具体的操作如下图所示

通过上述过程

可得最终分类结果

具体的结果如下图所示

K近邻算法的一个特点

K近邻算法的适应性强

尤其是适用于样本容量比较大的

自动分类问题

而那些样本容量较小的分类问题

采用这种算法比较容易产生误差

其优点可以分为以下两个

第一

可以较好的避免样本的不平衡问题

第二

对于类域的交叉

或重叠较多的带份样本集来说

K近邻方法较其他方法更为合适

这类方法的缺点

就是计算量比较大

针对该缺点的一些改进方法

可以有以下两个方面

第一

针对计算量大的问题

目前常用的解决方法是

事先对已知样本点进行剪辑

事先去除对分类作用不大的样本

第二

对样本进行组织与整理

分群分层

尽可能将计算压缩到

在接近测试样本领域的小范围内

避免盲目的

与训练样本集中的每个样本

进行距离计算

那么本节就是K近邻算法的一些介绍

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

8.2 K-近邻（KNN）笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。