当前课程知识点:大数据管理与挖掘 > 第11章 诊断方法 > 11.2 基于统计的离群点诊断 > 11.2 基于统计的离群点诊断
好欢迎大家回到第十一章
诊断方法
接下来让我们看一下
基于统计的离群点诊断
首先让我们看一下理论基础
基于统计的离群点诊断的基本思想
是基于这样的事实
符合正态分布的对象
出现在分布尾部的机会很小
例如
对象落在距均值3个标准差的
区域以外的概率仅有0.0027
通常如果x是属性值
则lxl≥c的概率随c增加而迅速减小
设定α的值
下表中显示当分布为N(0,1)时
c的某些样本值和对应的α值
从下表中可以看出
离群值超过4个标准差的值
出现的可能性是万分之一
基于统计的方法需要使用标准统计分布
如标准正态分布
来拟合数据点
然后根据概率分布模型
采用不一致性检验来确立离群点
所以基于统计的离群点诊断方法
要求事先知道数据集的统计分布
分布参数如均值和方差
预期的离群点数目和离群点类型等
基于分布的方法的优点主要是易于理解
实现起来也比较方便
并且对数据分布满足某种概率分布的
数值型单维数据集较为有效
但在多数情况下数据分布是未知的
也就很难建立某种确定的概率分布模型
其次 在实际中往往要求
在多维空间中发现离群点
而绝大多数的统计检验 是针对单个属性的
因此当没有特定的检验时
基于分布的方法不能确保发现所有的异常
或者观测到的分布不能恰当地
被任何标准的分布来拟合
好 让我们看一下基础算法
一 求出样本均值X和样本标准差S
根据给定的显著水平ɑ和样本容量n
查表求出g0
二 计算
使得下式成立
三 若有
则认为数据中无异常数据
否则认为XK是异常数据
将之从数据中剔除
重复步骤一二三
直到数据中无异常数据为止
好 让我们通过一个应用实例来看一下
设儿童上学的具体年龄
总体服从正态分布
所给的数据集是某地区随机选取的
开始上学的20名儿童的年龄
具体的年龄数据如下
根据统计方法诊断离群点的步骤
可以编写出matlab程序
这样当数据变多后
也很容易用该程序进行离群点诊断
一数据准备
二绘制上下限
三识别并显示离群点
同时程序还产生如图所示的
基于统计方法的离群点诊断结果
从图中可以看出
数据样本距离均值的程度
上下限和被诊断出的离群点
好 让我们看一下优点与缺点
离群点诊断的统计学方法具有坚实的基础
建立在标准的统计学技术
如分布参数的估计之上
当存在充分的数据和所用的检验类型时
诊断离群点非常有效
对于多元数据
很难同时对多维数据使用
基于统计的离群点诊断方法
通常还需要按照单个变量的方法进行诊断
好
基于统计的群点诊断就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论