当前课程知识点:大数据管理与挖掘 >  第11章 诊断方法 >  11.1 离群点诊断概要 >  11.1 离群点诊断概要

返回《大数据管理与挖掘》慕课在线视频课程列表

11.1 离群点诊断概要在线视频

下一节:11.2 基于统计的离群点诊断

返回《大数据管理与挖掘》慕课在线视频列表

11.1 离群点诊断概要课程教案、知识点、字幕

同学们大家好

我是来自

西安工程大学管理学院的李老师

今天我为大家介绍第11章 诊断方法

首先让我们看一下

11.1 离群点诊断概要

离群点诊断方法

离群点诊断方法简称诊断方法

是数据挖掘领域中的一项重要的挖掘技术

其目标是发现数据集中行为异常的少量的数据对象

这些数据对象称为离群点或孤立点

离群点通常在数据预处理过程中

被认为是噪声或异常而得到清理

许多挖掘算法

比如聚类方法也都试图降低离群点的影响

甚至完全排除它们

然而由于离群点既有可能是噪声信息

也有可能是有用信息

随意删除离群数据可能导致有用信息的丢失

所以通过离群点诊断

发现和利用在离群点中的有用信息

具有非常重要的意义

接下来让我们看一下离群点诊断的定义

离群点诊断或称离群点挖掘可以描述为

给出n个数据点或对象的集合

以及预期的离群点的数目k

发现与剩余的数据相比是显著差异的

异常的或不一致的前k个对象

因此

离群点诊断可以看作

是在给定的数据集合中定义离群点

并找到一个有效的方法来挖掘出这样的离群点

离群点是指数值中远离数值的

一般水平的极端大值和极端小值

因此也称为歧异值

有时也称为野值

形成离群点的主要原因有以下几个方面

首先可能是采样中的误差

如记录的偏误

工作人员出现笔误 计算错误等

都有可能产生极端大值或者极端小值

其次可能是被研究现象本身

由于受各种偶然非正常的因素影响而引起的

例如在人口死亡序列中

由于某年发生了地震

使该年度死亡人数剧增形成离群点

在股票价格序列中

由于受某项政策出台或某种谣传的剌激

都会出现极增极减现象 变现为离群点

让我们看一下离群点诊断的作用

离群点挖掘在实际生活中的典型应用

包括金融欺诈网络入侵检测和气象预测等

一基于离群点检测的网络入侵检测

离群点挖掘主要用于网络入侵的异常检测

在异常检测中

离群点意味着网络入侵和攻击

离群点挖掘的主要任务是

在网络数据流和主机数据流中挖掘出

与一般数据模式有较大偏离的数据模式

用于更新已经建立的知识规则库

二离群点检测在金融活动中的应用

金融机构在洗钱活动中

处于极其重要的地位

基于离群点检测算法的思路

要判别一个金融账户交易行为是否正常

应从两个角度上判断

一是纵向上

与自身以往历史行为模式比较

二是横向上

与其他账户之间作比较分析

从而发现此账户是否存在洗钱活动

在横向上

可以采取先聚类分析

然后用离群点探测的方法

在纵向上

判断账户的即时交易行为

是否符合其一贯的交易模式

三基于离群点检测的异常客户行为分析

客户行为分析是客户关系管理

重要研究内容之一

它是将客户购买信息

按不同购买行为特征分成若干类别

对具有某一类型为特征的用户

分析其基本信息

并找出客户行为和客户基本特征

两者之间的若干潜在关系

客户异常行为分析就是

从客户购买记录中

利用离群点检测方法

对客户购买行为进行检测

找出其异常变化点

分析产生异常变化的原因

并采取相应的营销策略

好 让我们看一下离群点诊断的方法分类

目前

人们已经提出了大量关于离群点挖掘的算法

这些算法大致上可以分为如下几类

基于统计学或模型的方法

基于距离或邻近度的方法

基于密度的方法和基于聚类的方法

这些方法一般称为经典的离群点挖掘方法

近年来

有不少学者从关联规则

模糊集和人工智能等其他方面出发

提出了一些新的离群点挖掘算法

比较典型的有基于关联的方法

基于模糊集的方法

基于人工神经网络的方法

基于遗传算法或克隆选择的方法等

好 离群点诊断概要就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

11.1 离群点诊断概要笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。