当前课程知识点:大数据管理与挖掘 > 第11章 诊断方法 > 11.3 基于距离的离群点诊断 > 11.3 基于距离的离群点诊断
好 欢迎大家回到第十一章
诊断方法
接下来让我们看一下
基于距离的离群点诊断
首先让我们看一下理论基础
基于距离的离群点检测方法
其基本思想是
如果某个对象远离大部分其他对象
那么该对象是离群的
这样做的好处是
确定数据集的有意义的邻近性度量比
确定它的统计分布更容易
综合了基于分布的思想
克服了基于分布方法的主要缺陷
基于距离的离群点诊断方法
根据某个距离函数计算数据对象之间的距离
最早是由Knorr和Ng提出来的
他们给出了基于距离的离群点的定义
如果数据集合S中对象至少有p部分
以及对象o的距离大于d
则对象o是一个带参数p和d 的
基于距离的离群点
即 DB
基于距离方法的两种不同策略
采用给定邻域半径
依据点的邻域中包含的
对象多少来判定离群点
如果一个点的邻域内包含的对象
少于整个数据集的一定比例
则标识它为离群点
也就是将没有足够邻居的对象
看成基于距离的离群点
利用k最近邻距离的大小来判定离群点
使用k-最近邻的距离度量一个对象
是否远离大部分点
一个对象的离群程度
由到它的k-最近邻的距离给定
这种方法对k的取值比较敏感
k太小 例如1
则少量的邻近离群点
可能导致较低的离群程度
k太大
则点数少于k的簇中所有的对象
可能都成了离群点
定义
点X的离群因子定义为OF1 XK
这里N XK是不包含X的K-最近邻的集合
其数学表示为如下式所示
输入 数据集D 最近邻个数k
输出 离群点对象列表
一 for all 对象x do
二 确定x的k-最近邻集合N(x,k)
三 确定x的离群因子 OF1(x,k)
四 end for
五 对OF1(x, k)降序排列
确定离群因子大的若干对象
六 return
注意
x的k-最近邻的集合包含的对象数可能超过k
好 让我们通过一个应用实例来看一下
在如图所示的二维数据集中
当k=2时P1 P2哪个点具有更高的离群点可能
我们使用欧式距离
如图为点的坐标位置
对P1点进行分析k=2
最近邻的点为P3(5,7) P2(5,2)
distance(P1,P2)与distance(P1, P3)
分别为6.08 1.41
平均距离为OF1(P1,K) =3.745
对P2点进行分析 k=2
最近邻的点为P3 P4
同理有OF1(P2,K)=3.5
因为OF1(P1,K> OF1(P2,K)
因此P1点更有可能是离群点
优点一不必对数据集的相关信息
数据服从哪种统计分布模型
数据类型特点等足够了解
只要给出距离的度量并对数据进行预处理后
就可以找出数据集中的离群点
并且避免了大量的计算
而大量的计算正是使观察到的数据分布
适合某个标准分布
及选择不一致性检验所需要的
二在理论上可以处理任意维任意类型的数据
克服了基于统计的方法
只能较好地处理某种概率分布的
数值型单变量数据集的缺陷
基于距离的方法的缺点
主要是当数据集规模异常大时
计算复杂度很高
其次是检测结果对参数k的选择较敏感
对于不同参数结果有很大的不稳定性
而且在高维数据中应用比较困难
最后是对挖掘出的离群点
不能区分强离群点和弱离群点
好 基于距离的离群点诊断
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论