当前课程知识点:数据挖掘 > 第2章 数据 > 2.2 数据的基本统计描述 > 2.2.2 数据分散度量
下面介绍数据的分散度量
先来介绍极差
极差又称全距
是集合中最大值与最小值之间的差距
即最大值减最小值后所得数据
例如 在此数据集合中
极差为最大值100
减最小值33等于67
分位数是取自数据分布的
每隔一定间隔上的点
把数据划分成基本上大小相等的
连贯集合
假设属性X的数据以数值递增序排列
然后挑选某些数据点
以便把数据分布划分成大小相等的
连贯集
这些数据点称做分位数
如图所示
给定数据分布的第k个q-分位数的值为x
使得小于x的数据值最多为k/q
而大于x的数据值最多为(q-k)/q
其中k是整数
使得0小于k小于q
这里有q-1个q-分位数
四分位数中的3个数据点
Q1 Q2 Q3
把数据分布划分成4个相等的部分
使得每部分表示数据分布的四分之一
这3个数据点通常被称为四分位数
如图所示
在四分位数图中
Q1称为较小四分位数
即下四分位数
等于该样本中所有数值
由小到大排列后第25%的数字
Q2称为中位数
等于该样本中所有数值
由小到大排列后第50%的数字
Q3称为较大四分位数
即上四分位数
等于该样本中所有数值
由小到大排列后第75%的数字
Q1和Q3之间的距离是
分散的一种简单度量
它给出被数据的中间一半
所覆盖的范围
该距离称为四分位数极差(IQR)
如公式所示
IQR=Q3-Q1
确定四分位数的位置方法如下
Q1的位置= (n+1)/4=(n+1) × 0.25
Q2的位置=2*(n+1)/4= (n+1) × 0.5
Q3的位置= 3*(n+1)/4=(n+1) × 0.75
其中n表示项数
下面通过例子介绍
四分位数极差的计算方法
例如
由8人组成的旅游小团队年龄如下
17 19 22 24 25 28 34 37
已按递增次序排列
求其年龄的四分位极差
首先计算Q1与Q3的位置
Q1的位置=(n+1)/4
此处n=8
因此
Q1的位置=(8+1)/4=2.25
Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75
即Q1与Q3的位置分别为
第2.25位和第6.75位
然后确定Q1与Q3的数值
Q1=第二个位置上的值19
加上第三个位置和第二个位置的
数之间的距离
也就是(22-19)*0.25=19.75
Q3=第六个位置上的值28
加上第七个位置和第六个位置的
数之间的距离
也就是(34-28)*0.75=32.5
即第2.25位和第6.75位
对应年龄分别为
19.75岁和32.5岁
最后计算四分位极差
IQR=Q3-Q1=32.5-19.75=12.75
因此四分位数极差为 12.75
另一种确定四分位数位置的方法是
基于n-1基础的
如公式所示
Q1的位置=1+(n-1) × 0.25
Q2的位置=1+(n-1) × 0.5
Q3的位置=1+(n-1) × 0.75
其中n表示项数
两种方法均可计算Q1和Q3的位置
方差又称为样本方差
是衡量随机变量
或一组数据离散程度的度量
即随机变量对于平均值的偏离程度
每个样本值与全体样本值的
平均数之差的平方值的平均数
方差用来计算每一个变量
与总体均数之间的差异
设 数值属性X的N个观测值为
x1,x2,…,xN,
总体方差的计算如公式所示
实际工作中
总体均数难以得到时
应用样本统计量代替总体参数
经校正后
样本方差计算公式如公式所示
即具有n-1的自由度
标准差σ是方差σ2的平方根
低标准差意味着数据观测趋向于
非常靠近均值
高标准差则表示数据散布在
一个大的值域中
例如
有如下学生考试成绩
计算均值得到x平均=72
此时
N=10
利用总体方差计算公式
等于平方的均值减去均值的平方
方差为
σ^2等于1/10乘以所有项的平方和
再减去平均数的平方等于442.8
标准差为方差的平方根
对442.8求平方根约等于21.04
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2