当前课程知识点:大数据管理与挖掘 > 第11章 诊断方法 > 11.4 基于密度的离群点挖掘 > 11.4 基于密度的离群点挖掘
好 欢迎大家回到第十一章
诊断方法
接下来让我们看一下
基于密度的离群点挖掘
首先让我们看一下理论基础
基于密度的方法就是探测局部密度
通过不同的密度估计策略来检测离群点
所谓密度是指任一点和P点距离小于
给定半径R的邻域空间数据点的个数
Breuning 用局部离群因子LOF
来表示点的孤立程度
离群点就是具有较高 LOF 值的数据对象
也就是说数据是否离群点
不仅仅取决于它与周围数据的距离大小
而且与邻域内的密度状况也有关系
基于密度的离群点检测
与基于邻近度的离群点检测密切相关
因为密度通常用邻近度定义
一种常用的定义密度的方法是
定义密度为到k个最近邻的平均距离的倒数
如果该距离小 则密度高 反之亦然
某个对象的局部邻域密度定义为
如下式所示
还有一个描述对象密度的方法为相对密度
其定义为如下所示
其中N(X,K)是不包含X的K最近邻的集合
N(X,K)的模是该集合的大小
y是一个最近邻
其中基于相对密度的离群点检测方法
通过比较对象的密度与它的邻域中的
对象平均密度来检测离群点
簇内靠近核心点的对象的相对密度接近于 1
而处于簇的边缘或簇的外面的对象的相对较大
定义相对密度为离群因子LOF
具体的基于密度的离群点诊断步骤如下
一 k是最近邻个数
二 forall 对象x do
三 确定x的k 最近邻N(x,k)
四 使用x的最近邻 即N(x,k)中的对象
确定x的密度 density(x,k)
五 endfor
六 forall 对象 x do
七 确定 x 的相对密度relative density(x,k)
并赋值LOF(x,k)
八 endfor
九 对LOF(x,k)降序排列
确定离群点得分高的若干对象
好 让我们看一下应用实例
给定二维数据集可视化的图形如图所示
对象间的距离采用曼哈顿距离计算
一 取k=2
计算点P4 P15 的局部邻域密度density(x,k)
及相对密度relative density(x,k)
哪个点更可能是离群点
二 取k=2
按照基于距离的离群点检测
P4 P15哪个点更有可能是离群点
对于该问题
按照上述方法计算诊断离群点的过程如下
一 对于P4
k最近邻邻域包含两个对象
N(P4,k) = {P5,P8}
N(P5,k) = {P1,P5,P6,P9}
N(P8,k) = {P4,P9,P12}
对于P15 k最近邻邻域包含两个对象
N(P15,k= {P12,P16}
P12 P16 的密度均为1
所以相对点P4 点P15更可能是离群点
二 对于 k=2
P4的k最近邻邻域为N(P4,k)={P5 P8}
k最近邻距离均值为1
P15的k最近邻邻域为
N(P15,k)= {P12 P16}
k最近邻距离均值为1.5
经过比较可以看出
点P15的离群程度要高
优点与缺点
基于相对密度的离群点检测
给出了对象是离群点程度的定量度量
并且即使数据具有不同密度的区域
也能够很好地处理
与基于距离的方法一样
这些方法必然具有时间复杂度
其中m是对象个数
虽然对于低维数据
使用专门的数据结构可以将它降低到Ologm
参数选择也是困难的
虽然标准LOF算法通过观察不同的k值
然后取最大离群点得分来处理该问题
然而
仍然需要选择这些值的上下界
好 基于密度的离群点挖掘
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论