当前课程知识点:寻据而来-药学数据统计 > 第二章 试验数据的误差分析 > 2.3 发现异常值 > 2.3 发现异常值
同学们
大家好
今天我们介绍异常值判别
在整理试验数据时
有时会发现一组数据中某些数据异常地大或者异常地小
会怀疑这些数据可能记录上有过失
这类数据我们称为异常值或者离群值
它们往往是由于过失误差引起的
一般发现数据异常按照下列步骤处理
第一步
试验过程中
若发现异常数据
应停止试验
分析原因
改进试验方法
及时纠正错误
第二步
试验结束后
在分析试验结果时
如发现异常数据
则应先找出产生异常数据的原因
再对其进行取舍
若不清楚产生异常值的确切原因
则应对异常值进行统计学处理
并对数据的取舍说明原因
步骤三
充分重视异常值的考察
实验数据出现异常值
若不给予适当处理
往往可以造成系统的误差
通过异常数据的分析
可以改进试验方法
有时甚至意外获得新试验方法的线索
对于异常值取舍一定要慎重
一般不能随意抛弃和修改
异常数据检测以及排除时
主要有两种方法
物理判别法和统计判别法
物理判别法
人们对客观事物已有的认识
判别由于外界干扰
人为误差等原因造成实测数据值偏离正常结果
在实验过程中随时判断
随时剔除
统计判别法
给定一个置信概率
并确定一个置信限
凡超过此限的误差
就认为它不属于随机误差范围
将其视为异常值剔除
当物理识别不易判断时
一般采用统计识别法
常用的统计检验可疑数据的统计方法
有拉依达(Pauta)检验法
格拉布斯(Grubbs)检验法
狄克逊(Dixon)检验法
肖维勒(Chauvenet)检验法
奈尔(Nair)检验法以及t检验法
下面介绍拉依达检验法
狄克逊检验法
和格拉布斯检验法
我们首先看
拉依达检验法
如果可疑数据x与试验数据的算术平均值
它的绝对偏差大于2倍或3倍的样本标准差S
我们就可以将可疑数据从该组试验值中剔除
至于选择2倍的标准差
还是3倍的标准差
与显著水平α有关
2S相当于显著水平α=0.05
3S相当于显著水平α=0.01
值得注意的是
当我们样本容量小于10的时候
若用3倍的标准差作界限
异常数据无法剔除
当我们的样本数据小于5的时候
若用2倍的标准差作界限
异常数据无法剔除
下面我们看一个例子
获得了一组分析测试数据
共11个数据
前10个数据波动不大
而第11个0.167与前10个数据相比似乎有点偏大
问其中最大数据0.167是否应被舍去
我们的显著水平选择0.01(α=0.01)
首先
我们计算该组数据的平均值为0.140
得到平均值为0.140
标准差为0.0112
2倍标准差的值为0.0224
3倍标准差的值为0.0336
计算0.167与平均值0.140之差的绝对值为0.027
是小于3倍标准差的值
故按照拉依达检验法
当显著水平α=0.01时
0.167不应被舍去
拉依达检验法
方法简单
无须查表
用起来方便
第二种方法
叫狄克逊检验法
狄克逊单侧情形检验的基本步骤是这样
首先我们把n个试验数据
按从小到大的顺序排列
得到n个有序数列
如果有异常值存在
必然出现在两端
此异常值不是X1就是Xn
注意
狄克逊检验每次只检验两个可疑值
第二步
我们就按照表格列出了计算公式
可以计算出检验高端异常值统计量D
和检验低端异常值统计量D
D和D’
计算结果都与试验次数n和可疑对象有关
第三步对于给定的显著性水平α
在狄克逊检验法单侧临界值表中查出对应n和α的临界值
第四步检验高端值时
当计算出检验高端异常值D大于临界值时
判断数据中的最大值为异常值
检验低端值时
当计算出检验低端异常值D‘大于临界值时
判断数据中的最小值为异常值
否则
判断没有异常值
下面
我们使用狄克逊检验判定上面例题中最大数据
0.167是否应被舍去
检验水平α=0.05
那么按照我们题目给的意思
样本容量是11个
从小到大的顺序排列
最小值为0.128
最大值为0.167
若应用狄克逊单侧情形检验0.167
按照表格提供的公式计算高端异常值D为0.579
等于0.579
取显著水平a为0.05
自由度为11
查单侧临界值表得临界值为0.502
小于高端异常值D
0.579
所以判断0.1 67应该被剔除
狄克逊检验法无需计算平均值和标准差
所以计算量较小
上面介绍的两种检验法各有其特点
当试验数据较多时
使用拉依达检验法最简单
但当试验数据较少时
拉依达建研发不能应用
狄克逊检验法能适用于试验数据较少时的检验
但是总的来说
还是试验数据越多
可疑数据被错误剔除的可能性越小
准确性越高
在一些标准中
常推荐格拉布斯检验法和狄克逊检验法来检验可疑数据
最后我们介绍
格拉布斯检验法
格拉布斯单侧情形检验的基本步骤如下
第一步
首先将n个试验数据按从小到大的顺序排列
得到n个有序数列
如果有异常值存在
必然出现在两端
此异常值不是X1就是Xn
注意
格拉布斯检验每次只检验一个可疑值
第二步
计算测量值的平均数与方差
根据公式计算统计量T
第三步
对于给定的显著性水平α
在格鲁布斯判别表中查出对应n和α的临界值
第四步
当计算出统计量T大于临界值时
判断数据为异常值
我们来通过例题熟悉格拉布斯检验的过程
我们看一个例子
对一种高分子化合物的特性黏度进行6次测定
得到6个数据
其中
0.686远高于其他测定值
可能是异常值
首先检查了计算有无错误
样品是否异常
黏度计是否洁净等
均未找到0.686过高的实际原因
那么现在我们就用
格鲁布斯异常值检验判别0.686是否为异常值
首先
我们计算测量值的平均数与方差
计算统计量T为1.90
取显著水平为0.05
样本容量为6
查表可知临界值为1.89
统计量T的1.90大于临界值1.89
所以
有95%的可信度
认为0.686应该舍弃
这节课就讲到这里
同学们再见
-1.1 数据需要分析吗
-1.2 课程纲要及参考源
-1.3 数据分析的对象和任务
-1.4 从数据中获取信息
-第一章习题
-2.1 误差可以避免吗
-2.2 误差检验
--2.2 误差检验
-2.3 发现异常值
-2.4 误差是可以传递的
-2.5 数据的正态性检验
-2.6 统计助手---软件工具的介绍
-第二章习题
-3.1 各组间的差异可以衡量吗
-3.2 对照标准值比较差异
-3.3 两组数据的差异性比较
-3.4 两组配对数据差异性比较
-3.5 同环境下多组数据对比
-第三章习题
-4.1 有因就有果吗
-4.2 相关与回归方程的建立与检验
-4.3 多元回归及可信赖检验
-4.4 应当避免的数据坑
-第四章习题
-5.1 实验需要设计吗
-5.2 两因素的方差分析
-5.3 全因子设计实验
-5.4 部分因子设计实验
-5.5 响应曲面实验设计
-5.6 正交试验设计
-5.7 均匀设计实验
-5.8 无附加约束的混料实验设计
-5.9 有附加约束的混料设计
-5.10 均匀混料实验设计
-第五章习题
-6.1 聚类分析
--6.1 聚类分析
-6.2 判别分析
--6.2 判别分析
-第六章习题
-7.1 麻辛石甘汤与新冠疫情
-7.2 中药注射剂再评价
-7.3 幸存者偏差