当前课程知识点:大数据管理与挖掘 >  第11章 诊断方法 >  11.4 基于密度的离群点挖掘 >  11.4 基于密度的离群点挖掘

返回《大数据管理与挖掘》慕课在线视频课程列表

11.4 基于密度的离群点挖掘在线视频

下一节:11.5 基于聚类的离群点挖掘

返回《大数据管理与挖掘》慕课在线视频列表

11.4 基于密度的离群点挖掘课程教案、知识点、字幕

好 欢迎大家回到第十一章

诊断方法

接下来让我们看一下

基于密度的离群点挖掘

首先让我们看一下理论基础

基于密度的方法就是探测局部密度

通过不同的密度估计策略来检测离群点

所谓密度是指任一点和P点距离小于

给定半径R的邻域空间数据点的个数

Breuning 用局部离群因子LOF

来表示点的孤立程度

离群点就是具有较高 LOF 值的数据对象

也就是说数据是否离群点

不仅仅取决于它与周围数据的距离大小

而且与邻域内的密度状况也有关系

基于密度的离群点检测

与基于邻近度的离群点检测密切相关

因为密度通常用邻近度定义

一种常用的定义密度的方法是

定义密度为到k个最近邻的平均距离的倒数

如果该距离小 则密度高 反之亦然

某个对象的局部邻域密度定义为

如下式所示

还有一个描述对象密度的方法为相对密度

其定义为如下所示

其中N(X,K)是不包含X的K最近邻的集合

N(X,K)的模是该集合的大小

y是一个最近邻

其中基于相对密度的离群点检测方法

通过比较对象的密度与它的邻域中的

对象平均密度来检测离群点

簇内靠近核心点的对象的相对密度接近于 1

而处于簇的边缘或簇的外面的对象的相对较大

定义相对密度为离群因子LOF

具体的基于密度的离群点诊断步骤如下

一 k是最近邻个数

二 forall 对象x do

三 确定x的k 最近邻N(x,k)

四 使用x的最近邻 即N(x,k)中的对象

确定x的密度 density(x,k)

五 endfor

六 forall 对象 x do

七 确定 x 的相对密度relative density(x,k)

并赋值LOF(x,k)

八 endfor

九 对LOF(x,k)降序排列

确定离群点得分高的若干对象

好 让我们看一下应用实例

给定二维数据集可视化的图形如图所示

对象间的距离采用曼哈顿距离计算

一 取k=2

计算点P4 P15 的局部邻域密度density(x,k)

及相对密度relative density(x,k)

哪个点更可能是离群点

二 取k=2

按照基于距离的离群点检测

P4 P15哪个点更有可能是离群点

对于该问题

按照上述方法计算诊断离群点的过程如下

一 对于P4

k最近邻邻域包含两个对象

N(P4,k) = {P5,P8}

N(P5,k) = {P1,P5,P6,P9}

N(P8,k) = {P4,P9,P12}

对于P15 k最近邻邻域包含两个对象

N(P15,k= {P12,P16}

P12 P16 的密度均为1

所以相对点P4 点P15更可能是离群点

二 对于 k=2

P4的k最近邻邻域为N(P4,k)={P5 P8}

k最近邻距离均值为1

P15的k最近邻邻域为

N(P15,k)= {P12 P16}

k最近邻距离均值为1.5

经过比较可以看出

点P15的离群程度要高

优点与缺点

基于相对密度的离群点检测

给出了对象是离群点程度的定量度量

并且即使数据具有不同密度的区域

也能够很好地处理

与基于距离的方法一样

这些方法必然具有时间复杂度

其中m是对象个数

虽然对于低维数据

使用专门的数据结构可以将它降低到Ologm

参数选择也是困难的

虽然标准LOF算法通过观察不同的k值

然后取最大离群点得分来处理该问题

然而

仍然需要选择这些值的上下界

好 基于密度的离群点挖掘

就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

11.4 基于密度的离群点挖掘笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。