当前课程知识点:数据挖掘 >  第2章 数据 >  2.2 数据的基本统计描述 >  2.2.2 数据分散度量

返回《数据挖掘》慕课在线视频课程列表

2.2.2 数据分散度量在线视频

下一节:2.2.3 数据的图形显示

返回《数据挖掘》慕课在线视频列表

2.2.2 数据分散度量课程教案、知识点、字幕

下面介绍数据的分散度量

先来介绍极差

极差又称全距

是集合中最大值与最小值之间的差距

即最大值减最小值后所得数据

例如 在此数据集合中

极差为最大值100

减最小值33等于67

分位数是取自数据分布的

每隔一定间隔上的点

把数据划分成基本上大小相等的

连贯集合

假设属性X的数据以数值递增序排列

然后挑选某些数据点

以便把数据分布划分成大小相等的

连贯集

这些数据点称做分位数

如图所示

给定数据分布的第k个q-分位数的值为x

使得小于x的数据值最多为k/q

而大于x的数据值最多为(q-k)/q

其中k是整数

使得0小于k小于q

这里有q-1个q-分位数

四分位数中的3个数据点

Q1 Q2 Q3

把数据分布划分成4个相等的部分

使得每部分表示数据分布的四分之一

这3个数据点通常被称为四分位数

如图所示

在四分位数图中

Q1称为较小四分位数

即下四分位数

等于该样本中所有数值

由小到大排列后第25%的数字

Q2称为中位数

等于该样本中所有数值

由小到大排列后第50%的数字

Q3称为较大四分位数

即上四分位数

等于该样本中所有数值

由小到大排列后第75%的数字

Q1和Q3之间的距离是

分散的一种简单度量

它给出被数据的中间一半

所覆盖的范围

该距离称为四分位数极差(IQR)

如公式所示

IQR=Q3-Q1

确定四分位数的位置方法如下

Q1的位置= (n+1)/4=(n+1) × 0.25

Q2的位置=2*(n+1)/4= (n+1) × 0.5

Q3的位置= 3*(n+1)/4=(n+1) × 0.75

其中n表示项数

下面通过例子介绍

四分位数极差的计算方法

例如

由8人组成的旅游小团队年龄如下

17 19 22 24 25 28 34 37

已按递增次序排列

求其年龄的四分位极差

首先计算Q1与Q3的位置

Q1的位置=(n+1)/4

此处n=8

因此

Q1的位置=(8+1)/4=2.25

Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75

即Q1与Q3的位置分别为

第2.25位和第6.75位

然后确定Q1与Q3的数值

Q1=第二个位置上的值19

加上第三个位置和第二个位置的

数之间的距离

也就是(22-19)*0.25=19.75

Q3=第六个位置上的值28

加上第七个位置和第六个位置的

数之间的距离

也就是(34-28)*0.75=32.5

即第2.25位和第6.75位

对应年龄分别为

19.75岁和32.5岁

最后计算四分位极差

IQR=Q3-Q1=32.5-19.75=12.75

因此四分位数极差为 12.75

另一种确定四分位数位置的方法是

基于n-1基础的

如公式所示

Q1的位置=1+(n-1) × 0.25

Q2的位置=1+(n-1) × 0.5

Q3的位置=1+(n-1) × 0.75

其中n表示项数

两种方法均可计算Q1和Q3的位置

方差又称为样本方差

是衡量随机变量

或一组数据离散程度的度量

即随机变量对于平均值的偏离程度

每个样本值与全体样本值的

平均数之差的平方值的平均数

方差用来计算每一个变量

与总体均数之间的差异

设 数值属性X的N个观测值为

x1,x2,…,xN,

总体方差的计算如公式所示

实际工作中

总体均数难以得到时

应用样本统计量代替总体参数

经校正后

样本方差计算公式如公式所示

即具有n-1的自由度

标准差σ是方差σ2的平方根

低标准差意味着数据观测趋向于

非常靠近均值

高标准差则表示数据散布在

一个大的值域中

例如

有如下学生考试成绩

计算均值得到x平均=72

此时

N=10

利用总体方差计算公式

等于平方的均值减去均值的平方

方差为

σ^2等于1/10乘以所有项的平方和

再减去平均数的平方等于442.8

标准差为方差的平方根

对442.8求平方根约等于21.04

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

2.2.2 数据分散度量笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。