当前课程知识点：大数据管理与挖掘 > 第11章诊断方法 > 11.3 基于距离的离群点诊断 > 11.3 基于距离的离群点诊断

返回《大数据管理与挖掘》慕课在线视频课程列表

11.3 基于距离的离群点诊断在线视频

下一节:11.4 基于密度的离群点挖掘

返回《大数据管理与挖掘》慕课在线视频列表

11.3 基于距离的离群点诊断课程教案、知识点、字幕

好欢迎大家回到第十一章

诊断方法

接下来让我们看一下

基于距离的离群点诊断

首先让我们看一下理论基础

基于距离的离群点检测方法

其基本思想是

如果某个对象远离大部分其他对象

那么该对象是离群的

这样做的好处是

确定数据集的有意义的邻近性度量比

确定它的统计分布更容易

综合了基于分布的思想

克服了基于分布方法的主要缺陷

基于距离的离群点诊断方法

根据某个距离函数计算数据对象之间的距离

最早是由Knorr和Ng提出来的

他们给出了基于距离的离群点的定义

如果数据集合S中对象至少有p部分

以及对象o的距离大于d

则对象o是一个带参数p和d 的

基于距离的离群点

即 DB

基于距离方法的两种不同策略

采用给定邻域半径

依据点的邻域中包含的

对象多少来判定离群点

如果一个点的邻域内包含的对象

少于整个数据集的一定比例

则标识它为离群点

也就是将没有足够邻居的对象

看成基于距离的离群点

利用k最近邻距离的大小来判定离群点

使用k-最近邻的距离度量一个对象

是否远离大部分点

一个对象的离群程度

由到它的k－最近邻的距离给定

这种方法对k的取值比较敏感

k太小例如1

则少量的邻近离群点

可能导致较低的离群程度

k太大

则点数少于k的簇中所有的对象

可能都成了离群点

定义

点X的离群因子定义为OF1 XK

这里N XK是不包含X的K-最近邻的集合

其数学表示为如下式所示

输入数据集D 最近邻个数k

输出离群点对象列表

一 for all 对象x do

二确定x的k-最近邻集合N(x,k）

三确定x的离群因子 OF1(x,k）

四 end for

五对OF1(x, k）降序排列

确定离群因子大的若干对象

六 return

注意

x的k-最近邻的集合包含的对象数可能超过k

好让我们通过一个应用实例来看一下

在如图所示的二维数据集中

当k=2时P1 P2哪个点具有更高的离群点可能

我们使用欧式距离

如图为点的坐标位置

对P1点进行分析k=2

最近邻的点为P3(5,7） P2(5,2）

distance(P1,P2）与distance(P1, P3）

分别为6.08 1.41

平均距离为OF1(P1,K） =3.745

对P2点进行分析 k=2

最近邻的点为P3 P4

同理有OF1(P2,K）=3.5

因为OF1(P1,K> OF1(P2,K）

因此P1点更有可能是离群点

优点一不必对数据集的相关信息

数据服从哪种统计分布模型

数据类型特点等足够了解

只要给出距离的度量并对数据进行预处理后

就可以找出数据集中的离群点

并且避免了大量的计算

而大量的计算正是使观察到的数据分布

适合某个标准分布

及选择不一致性检验所需要的

二在理论上可以处理任意维任意类型的数据

克服了基于统计的方法

只能较好地处理某种概率分布的

数值型单变量数据集的缺陷

基于距离的方法的缺点

主要是当数据集规模异常大时

计算复杂度很高

其次是检测结果对参数k的选择较敏感

对于不同参数结果有很大的不稳定性

而且在高维数据中应用比较困难

最后是对挖掘出的离群点

不能区分强离群点和弱离群点

好基于距离的离群点诊断

就为大家介绍到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

11.3 基于距离的离群点诊断笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。