当前课程知识点:数据挖掘 >  第9章 离群点检测 >  9.1 离群点定义与类型 >  9.1 离群点定义与类型

返回《数据挖掘》慕课在线视频课程列表

9.1 离群点定义与类型在线视频

下一节:9.1 离群点定义与类型

返回《数据挖掘》慕课在线视频列表

9.1 离群点定义与类型课程教案、知识点、字幕

离群点检测在很多现实环境中

都有很强的应用价值

如网络入侵检测

工业损毁检测

网络监视异常

医疗处理和欺诈检测等

离群点是指全局或局部范围内

偏离一般水平的观测对象

比如在审查信用卡交易记录时

发现某条记录的购物地点

和购买的商品的种类数量与真正的

卡主和其他顾客有很大不同

这种交易模式的显著改变值得注意

很有可能发生了

信用卡被盗或欺诈现象

类似于信用卡欺诈检测中

识别显著不同于正常情况的交易

离群点检测

或称为异常检测

就是找出不同于预期对象行为的过程

离群点的本质仍然是数据对象

只是与其他数据对象有显著差别

又被称为异常值

假设使用某个统计过程来

产生数据对象集合

如图所示

大部分对象都大致符合

同一种数据产生机制

然而区域O中的对象明显不同

不太可能与大部分数据对象

符合同一种分布

因此在该数据集中

O中的对象是离群点

离群点与噪声数据不同

噪声是指被观测数据的

随机误差或方差

观测值是真实数据与噪声的叠加

离群点属于观测值

既有可能是真实数据产生的

也有可能是噪声带来的

一般情况下

噪声并不是异常分析中的研究对象

比如在对某公司员工的工资

进行建模分析时

一个普通员工

因为突出贡献赢得额外奖金

那么该员工会产生

某些类似于方差或随机误差的噪声

但这种情况不该被看作离群点

因为该员工工资为合法所得

许多数据分析和数据挖掘任务

在离群点检测之前往往需要删除噪声

离群点产生的原因多种多样

主要原因如下

一 计算的误差或者操作的错误所致

例如

某人年龄为-999岁

明显是由误操作导致的离群点

二 数据本身的可变性或弹性所致

例如

一个公司中CEO的工资

肯定明显高于其他普通员工的工资

于是CEO成为了由于数据本身

可变性所导致的离群点

因此

在离群点检测时

关键是要找到

导致离群点产生的原因

通常做法是

在正常数据上做各种假设

然后证明检测到的离群点

显著违反了这些假设

离群点一般分为全局离群点

条件离群点和集体离群点

一 全局离群点

一个数据对象明显地

偏离数据集中绝大多数对象时

该数据对象就是全局离群点

全局离群点是最简单的一类离群点

大部分离群点检测方法

都针对全局离群点实施检测

再次考虑前图中区域O中的点

它们显著偏离数据集的其余部分

因此属于全局离群点

全局离群点的检测关键

在于根据具体应用环境

找到一个合适的偏离度量

度量选择不同

检测方法的划分也不同

全局离群点检测在

许多应用中都很重要且使用频繁

比如

在公司账目审计过程中

不遵守常规流程

或不符合常规交易数目的记录

可能被视为全局离群点

应该搁置等待进一步严格审查

二 条件离群点

与全局离群点不同

当且仅当在某种特定情境下

一个数据对象显著偏离数据集中

其他对象时

该数据对象才称为条件离群点

比如今天办公室温度是20摄氏度

这个值是否异常

取决于时间和地点

如果是天津的春天或秋天

则这是正常的

如果是天津的夏天或冬天

这就是一个离群点

而如果室内温度靠空调调节

则在任何季节都能算作正常值

条件离群点特别依赖于选定的情境

所以在检测过程中

条件必须作为问题定义的

一部分加以说明

由此

条件离群点检测中

数据对象的属性被划分为

条件属性和行为属性

条件属性是指

数据对象的属性中

定义情境的那些属性

行为属性是指

数据对象属性里

定义对象特征的那些属性

用来评估对象

关于它所处的情境是否是离群点

上述温度例子中

条件属性是时间和地点

行为属性是温度

条件属性的意义会影响

条件离群点检测的质量

因此条件属性作为

背景知识的一部分

多数由领域专家确定

事实上

在许多应用中

想通过足够的信息来收集

或确定高质量的条件属性

都并非易事

局部离群点是条件离群点的一种

局部离群点是基于密度的

离群点检测方法中提到的概念

如果数据集中的一个对象的密度

显著地偏离它所在局部区域的密度

该对象就是一个局部离群点

当条件离群点

检测的条件属性集为空时

等价于全局离群点检测

也就是说

全局离群点检测

使用了整个数据集作为条件

条件离群点分析的灵活性比较强

使得用户能在

不同的情境下考察离群点

这符合各种应用中具体的多样化需求

比如

在信用卡欺诈检测中

也可以考虑不同情境下的离群点

如果这位顾客

属于具有低信用度额度的顾客群

则这种行为可能不能算做离群点

然而如果该顾客属于高收入群

并且余额常常超过信用额度

那么这种行为会被看作离群点

这种离群点会带来商机

提高此类顾客的信用额度

也许会带来新的收益

三 集体离群点

当数据集中的一些数据对象

集体显著偏离整个数据集时

该集合形成的子集形成集体离群点

集体离群点中的个体数据对象

可能不是离群点

如图所示

黑色对象形成的集合

是一个集体离群点

因为它们的密度远远高于

数据集中其他对象

然而

每个黑色对象个体

对于整个数据集并非离群点

不同于全局或条件离群点检测

在集体离群点检测过程中

考虑个体数据对象的行为时

还要考虑对象集体的行为

所以

检测集体离群点需要一些

关于对象之间联系的背景知识

如对象之间的距离或相似性测量方法

集体离群点检测的应用也很广泛

例如一个物流管理业务

如果一个订单出现发货延误

可能不被视为离群点

因为统计表明

延误经常发生不足为怪

但是 如果某天有100个订单

集体延误

则必须引起注意

这100个订单整体形成一个离群点

需要整体考察这些订单

弄清延迟发货的问题所在

又例如

两个当事人之间的股票交易是正常的

但是

短期内相同股票

在一小群人之间大量交易就是异常

被视为集体离群点

以上每种类型的离群点

都有可能在同一数据集中出现

同时

一个数据对象

可能同属于多种类型的离群点

不同的离群点

会出现在不同的具体应用环境中

出于不同的目的

需要检测不同类型的离群点

全局离群点的检测手段最简单

条件离群点的检测过程中

需要相关背景知识来确定情境属性

集体离群点检测需要

背景信息对数据对象之间的联系建模

以便找出离群点的群组

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

9.1 离群点定义与类型笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。