当前课程知识点：寻据而来-药学数据统计 > 第二章试验数据的误差分析 > 2.3 发现异常值 > 2.3 发现异常值

返回《寻据而来-药学数据统计》慕课在线视频课程列表

2.3 发现异常值在线视频

下一节:2.4 误差是可以传递的

返回《寻据而来-药学数据统计》慕课在线视频列表

2.3 发现异常值课程教案、知识点、字幕

同学们

大家好

今天我们介绍异常值判别

在整理试验数据时

有时会发现一组数据中某些数据异常地大或者异常地小

会怀疑这些数据可能记录上有过失

这类数据我们称为异常值或者离群值

它们往往是由于过失误差引起的

一般发现数据异常按照下列步骤处理

第一步

试验过程中

若发现异常数据

应停止试验

分析原因

改进试验方法

及时纠正错误

第二步

试验结束后

在分析试验结果时

如发现异常数据

则应先找出产生异常数据的原因

再对其进行取舍

若不清楚产生异常值的确切原因

则应对异常值进行统计学处理

并对数据的取舍说明原因

步骤三

充分重视异常值的考察

实验数据出现异常值

若不给予适当处理

往往可以造成系统的误差

通过异常数据的分析

可以改进试验方法

有时甚至意外获得新试验方法的线索

对于异常值取舍一定要慎重

一般不能随意抛弃和修改

异常数据检测以及排除时

主要有两种方法

物理判别法和统计判别法

物理判别法

人们对客观事物已有的认识

判别由于外界干扰

人为误差等原因造成实测数据值偏离正常结果

在实验过程中随时判断

随时剔除

统计判别法

给定一个置信概率

并确定一个置信限

凡超过此限的误差

就认为它不属于随机误差范围

将其视为异常值剔除

当物理识别不易判断时

一般采用统计识别法

常用的统计检验可疑数据的统计方法

有拉依达（Pauta）检验法

格拉布斯（Grubbs）检验法

狄克逊（Dixon）检验法

肖维勒（Chauvenet）检验法

奈尔（Nair）检验法以及t检验法

下面介绍拉依达检验法

狄克逊检验法

和格拉布斯检验法

我们首先看

拉依达检验法

如果可疑数据x与试验数据的算术平均值

它的绝对偏差大于2倍或3倍的样本标准差S

我们就可以将可疑数据从该组试验值中剔除

至于选择2倍的标准差

还是3倍的标准差

与显著水平α有关

2S相当于显著水平α=0.05

3S相当于显著水平α=0.01

值得注意的是

当我们样本容量小于10的时候

若用3倍的标准差作界限

异常数据无法剔除

当我们的样本数据小于5的时候

若用2倍的标准差作界限

异常数据无法剔除

下面我们看一个例子

获得了一组分析测试数据

共11个数据

前10个数据波动不大

而第11个0.167与前10个数据相比似乎有点偏大

问其中最大数据0.167是否应被舍去

我们的显著水平选择0.01（α=0.01）

首先

我们计算该组数据的平均值为0.140

得到平均值为0.140

标准差为0.0112

2倍标准差的值为0.0224

3倍标准差的值为0.0336

计算0.167与平均值0.140之差的绝对值为0.027

是小于3倍标准差的值

故按照拉依达检验法

当显著水平α=0.01时

0.167不应被舍去

拉依达检验法

方法简单

无须查表

用起来方便

第二种方法

叫狄克逊检验法

狄克逊单侧情形检验的基本步骤是这样

首先我们把n个试验数据

按从小到大的顺序排列

得到n个有序数列

如果有异常值存在

必然出现在两端

此异常值不是X1就是Xn

注意

狄克逊检验每次只检验两个可疑值

第二步

我们就按照表格列出了计算公式

可以计算出检验高端异常值统计量D

和检验低端异常值统计量D

D和D’

计算结果都与试验次数n和可疑对象有关

第三步对于给定的显著性水平α

在狄克逊检验法单侧临界值表中查出对应n和α的临界值

第四步检验高端值时

当计算出检验高端异常值D大于临界值时

判断数据中的最大值为异常值

检验低端值时

当计算出检验低端异常值D‘大于临界值时

判断数据中的最小值为异常值

否则

判断没有异常值

下面

我们使用狄克逊检验判定上面例题中最大数据

0.167是否应被舍去

检验水平α=0.05

那么按照我们题目给的意思

样本容量是11个

从小到大的顺序排列

最小值为0.128

最大值为0.167

若应用狄克逊单侧情形检验0.167

按照表格提供的公式计算高端异常值D为0.579

等于0.579

取显著水平a为0.05

自由度为11

查单侧临界值表得临界值为0.502

小于高端异常值D

0.579

所以判断0.1 67应该被剔除

狄克逊检验法无需计算平均值和标准差

所以计算量较小

上面介绍的两种检验法各有其特点

当试验数据较多时

使用拉依达检验法最简单

但当试验数据较少时

拉依达建研发不能应用

狄克逊检验法能适用于试验数据较少时的检验

但是总的来说

还是试验数据越多

可疑数据被错误剔除的可能性越小

准确性越高

在一些标准中

常推荐格拉布斯检验法和狄克逊检验法来检验可疑数据

最后我们介绍

格拉布斯检验法

格拉布斯单侧情形检验的基本步骤如下

第一步

首先将n个试验数据按从小到大的顺序排列

得到n个有序数列

如果有异常值存在

必然出现在两端

此异常值不是X1就是Xn

注意

格拉布斯检验每次只检验一个可疑值

第二步

计算测量值的平均数与方差

根据公式计算统计量T

第三步

对于给定的显著性水平α

在格鲁布斯判别表中查出对应n和α的临界值

第四步

当计算出统计量T大于临界值时

判断数据为异常值

我们来通过例题熟悉格拉布斯检验的过程

我们看一个例子

对一种高分子化合物的特性黏度进行6次测定

得到6个数据

其中

0.686远高于其他测定值

可能是异常值

首先检查了计算有无错误

样品是否异常

黏度计是否洁净等

均未找到0.686过高的实际原因

那么现在我们就用

格鲁布斯异常值检验判别0.686是否为异常值

首先

我们计算测量值的平均数与方差

计算统计量T为1.90

取显著水平为0.05

样本容量为6

查表可知临界值为1.89

统计量T的1.90大于临界值1.89

所以

有95%的可信度

认为0.686应该舍弃

这节课就讲到这里

同学们再见

寻据而来-药学数据统计课程列表：

第一章数据分析概论

-1.1 数据需要分析吗

--1.1 数据需要分析吗

-1.2 课程纲要及参考源

--1.2课程纲要及参考源

-1.3 数据分析的对象和任务

--1.3数据分析的对象和任务

-1.4 从数据中获取信息

--1.4从数据中获取信息

-第一章习题

第二章试验数据的误差分析

-2.1 误差可以避免吗

--2.1 误差可以避免吗

-2.2 误差检验

--2.2 误差检验

-2.3 发现异常值

--2.3 发现异常值

-2.4 误差是可以传递的

--2.4 误差是可以传递的

-2.5 数据的正态性检验

--2.5 数据的正态性检验

-2.6 统计助手---软件工具的介绍

--2.6 统计助手---软件工具的介绍

-第二章习题

第三章试验样本的均值比较

-3.1 各组间的差异可以衡量吗

--3.1 各组间的差异可以衡量吗

-3.2 对照标准值比较差异

--3.2 对照标准值比较差异

-3.3 两组数据的差异性比较

--3.3 两组数据的差异性比较

-3.4 两组配对数据差异性比较

--3.4 两组配对数据差异性比较

-3.5 同环境下多组数据对比

--3.5 同环境下多组数据对比

-第三章习题

第四章试验数据的回归分析

-4.1 有因就有果吗

--4.1 有因就有果吗

-4.2 相关与回归方程的建立与检验

--4.2相关与回归方程的建立与检验

-4.3 多元回归及可信赖检验

--4.3多元回归及可信性检验

-4.4 应当避免的数据坑

--4.4应当避免的数据坑

-第四章习题

第五章试验设计

-5.1 实验需要设计吗

--5.1试验需要设计吗

-5.2 两因素的方差分析

--5.2两因素的方差分析

-5.3 全因子设计实验

--5.3全因子试验设计

-5.4 部分因子设计实验

--5.4部分因子试验设计

-5.5 响应曲面实验设计

--5.5响应曲面试验设计

-5.6 正交试验设计

--5.6正交试验设计

-5.7 均匀设计实验

--5.7均匀试验设计

-5.8 无附加约束的混料实验设计

--5.8无附加约束的混料试验设计

-5.9 有附加约束的混料设计

--5.9有附加约束的混料试验设计

-5.10 均匀混料实验设计

--5.10均匀混料试验设计

-第五章习题

第六章聚类分析和判别分析

-6.1 聚类分析

--6.1 聚类分析

-6.2 判别分析

--6.2 判别分析

-第六章习题

专题1：透过数据看中药质量提升

-7.1 麻辛石甘汤与新冠疫情

--7.1麻辛石甘汤与新冠疫情

-7.2 中药注射剂再评价

--7.2 中药注射剂再评价

专题2：数据发现的启示--幸存者偏差

-7.3 幸存者偏差

--7.3 幸存者偏差

●课程思政--新冠肺炎疫情

-数理统计--新冠肺炎疫情讨论

●课程参考资料及视频

-课程参考资料

2.3 发现异常值笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。