当前课程知识点:大数据管理与挖掘 > 第8章 分类方法 > 8.2 K-近邻(KNN) > 8.2 K-近邻(KNN)
吧
大家好
我是西安工程大学
管理学院王艳老师
好欢迎回来
本节我们接着介绍
分类算法里面的K近邻算法
K近邻分类算法
通过计算每个训练数据
到待分类元组的距离
取与待分类元组距离最近的K个训练数据
K中哪个类别训练数据占多数
则待分类元组就属于哪个类别
K近邻算法原理
如下图所示
最近邻分类器
把每个样例看作d维空间上的一个数据点
其中d是属性个数
给定一个测试样例
可以以计算该测试样例与训练集中
其他数据点的距离
给定样例z的K最近邻是指
找出和z距离最近的K个数据点
那么一最近邻
二最近邻
三最近邻的分类
如上图所示
该数据点
根据其近邻的类标号进行分类
如果数据点的近邻中含有多个类标号
则将该数据点
指派到其最近邻的多数类
K近邻算法的具体步骤可分为七步
第一步
初始化距离为最大值
第二步
计算未知样本和每个训练样本的距离
第三步
得到目前K个最近邻样本中的最大距离
第四步
如果未知样本与训练样本的距离
小于K个最近邻样本中的最大距离
则将该训练样本
作为K最近邻样本
第五步
重复上述步骤的234
直到未知样本和所有训练样本的距离
都算完
第六步
统计K个最近邻样本中
每个类别出现的次数
第七步
选择出现频率最大的类别
作为未知样本的类别
K近邻算法对K值的依赖较高
所以K值的选择非常重要
如果K太小
预测目标容易产生变动性
相反
如果K太大
最近邻分类器
可能会误分类测试样例
因为最近邻列表中
可能包含远离其近邻的数据点
K较大时K近邻分类
如下图所示
推定K值的有效途径
是通过有效参数的数目这个概念
有效参数的数目是和K值相关的
大致等于N/K
其中N是这个训练数据集中实力的数目
在实践中
往往通过若干次实验来确定K值
取分类误差率最小的K值
下面我们通过一个具体的例子
来进一步了解K近邻算法
一家银行的工作人员通过电话
调查客户是否愿意购买一种理财产品
并记录调查结果为Y
另外银行有这些客户的一些资料
用X表示
这些资料包括16个属性
银行客户的属性及其意义
如右图所示
现在希望建立一个分类器
来预测一个新客户是否愿意购买该产品
那么具体的实验步骤如下
第一步准备环境
具体的操作如下图所示
第二步
导入数据集数据预处理
具体的操作如下图所示
通过上述过程
可得如下图所示的两个结果
执行程序会得到数据中yes和no的结果
数据可视化结果
第三步
设置交叉验证方式
具体的操作如下图所示
通过上述过程
可得到数据训练集和测试集
具体的结果如下所示
第四步
训练K近邻分类器
具体的操作如下图所示
通过上述过程
可得最终分类结果
具体的结果如下图所示
K近邻算法的一个特点
K近邻算法的适应性强
尤其是适用于样本容量比较大的
自动分类问题
而那些样本容量较小的分类问题
采用这种算法比较容易产生误差
其优点可以分为以下两个
第一
可以较好的避免样本的不平衡问题
第二
对于类域的交叉
或重叠较多的带份样本集来说
K近邻方法较其他方法更为合适
这类方法的缺点
就是计算量比较大
针对该缺点的一些改进方法
可以有以下两个方面
第一
针对计算量大的问题
目前常用的解决方法是
事先对已知样本点进行剪辑
事先去除对分类作用不大的样本
第二
对样本进行组织与整理
分群分层
尽可能将计算压缩到
在接近测试样本领域的小范围内
避免盲目的
与训练样本集中的每个样本
进行距离计算
那么本节就是K近邻算法的一些介绍
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论