3.5 数据变换与数据离散化慕课视频播放-数据挖掘-MOOC慕课视频教程-柠檬大学

数据变换是将数据转换为

适合于数据挖掘的形式

数据变换主要有以下几种方法

1 平滑

即去掉数据中的噪声

将连续的数据离散化

可以通过分箱回归聚类等方法实现

2 聚类

即对数据进行汇总和聚集

可以通过聚集函数

如求平均值

求个数

求和

求最小值和最大值等实现

如

每天销售额（数据）

可以进行聚集操作

以获得每月或每年的总额

也可用来构造数据立方体

3 数据泛化

即使用概念分层

用更抽象或更高层次的概念

来取代低层次或数据层的数据对象

如街道属性

可以泛化到更高层次的概念

如城市国家

同样

对于数值型的属性

如年龄属性

可以映射到更高层次的概念

如青年中年和老年

4 规范化

把属性数据按比例缩放

使之落入一个特定的小区间

如将数据规范化到0.0～1.0之间

5 属性构造

通过已知的属性构建出新的属性

然后放入属性集中

有助于挖掘过程

6 离散化

数值属性的原始值

用区间标签或概念标签替换

如数值属性年龄的原始值

可以用区间标签

如0～10 11～20

或概念标签

如青年中年老年替换

数据泛化

即概念分层的生成

概念分层定义了一组

由低层概念到高层概念集的映射

允许在各种抽象级别上处理数据

从而在多个抽象层上发现知识

可以用较高层概念替换低层次的概念

以此来减少取值个数

虽然一些细节数据在泛化过程中消失了

但这样所获得的

泛化数据或许更易于理解更有意义

另外

在消减后的数据集上

进行信息处理显然效率更高

概念分层结构可以用树来表示

树的每个节点代表一个概念

例如

根据每个属性的不同值的个数

产生概念分层

服装类的级别可以分为男装和女装

然后接下去可以分为上装和下装

如图所示

规范化是将数据按比例进行缩放

使之落入一个特定的区域

以消除数值型属性

因大小不一而造成的挖掘结果的偏差

如将工资收入属性映射到

[-1.0, 1.0]的范围内

在正式进行数据挖掘之前

尤其使用基于对象距离的挖掘算法时

必须进行数据的规格化

如对于一个顾客信息数据库中

年龄属性或工资属性

由于工资属性的取值

比年龄属性的取值要大得多

若不进行规格化处理

基于工资属性的距离计算值

将远远超过基于年龄属性的计算值

这就意味着工资属性的作用

在整个数据对象的距离计算中

被错误放大了

常用的规范化方法有

小数定标规范化

最小最大规范化

以及零-均值规范化

即z-score规范化

小数定标规范化是

通过移动属性值的小数点的位置

进行规范化

通俗的说就是将属性值除以10的j次幂

使其值落在-1到1的范围内

属性A的值vˇi被规范化vˇi‘

其计算如公式所示

v∨i‘等于vˇi除以10的j次方

其中j是使vˇi‘的绝对值

的最大值小于1的最小整数

例小数定标规范化

设某属性A的最大值为917

最小值为-986

请按小数定标规范化

从而使属性值缩小到[-1,1]的范围内

题中属性的最大绝对值为986

显然只要将属性中的值分别除以1000

就满足vˇi‘的绝对值的最大值小于1

这时-986规范化后为-0.986

而917被规范化为0.917

达到了将属性值缩小到

特定闭区间[-1,1]的目标

最小—最大规范化

是假定minA和maxA

分别为属性A的最小和最大值

则通过下面公式

将A的值映射到闭区间[a, b]中的vˇi

如公式所示

其中

vˇi表示对象i的原属性值

vˇi‘表示规范化的属性值

a为规范化后的最小值

b为规范化后的最大值

例如

假定某公司员工的最大年龄为52岁

最小年龄为21岁

请将年龄映射到闭区间[0.0,1.0]的范围内

根据最小-最大值规范化

44岁将变换为

44-21除以52-21乘以1.0-0加上0

约等于0.742

z-score规范化（零均值规范化）

是将属性A的值根据其平均值和标准差

进行规范化

常用于属性最大值与最小值未知

或使用最小最大规范化方法

会出现异常数据的情况

z-score规范化如公式所示

其中表示对象vˇi的原属性值

vˇi‘表示规范化的属性值

A平均表示属性A的平均值

西格玛A表示属性A的标准差

例如

某公司员工年龄的平均值和标准差

分别为25岁和11岁

请根据z-score规范化

将44岁这个数据规范化

规范化计算为为 (44-25）/11≈1.727

需要注意的是

规范化将原来的数据改变很多

特别是上述的后两种方法

有必要保留规范化参数

如平均值和标准差

如果使用z-score规范化时

以便将来的数据可以用一致的方式规范化

属性构造

即利用已有属性集构造出新的属性

并加入到现有属性集中

以帮助挖掘更深层次的模式知识

提高挖掘结果的准确性

如根据宽高属性

可以构造一个新属性面积

离散化

连续变量的离散化

就是将具体性的问题

抽象为概括性的问题

即是将它取值的连续区间

划分为小的区间

再将每个小区间重新定义为

一个唯一的取值

例如

学生考试成绩可以划分两个区间

[0，60)为不及格

[60，100]为及格

60是两个区间的分界点

称为断点

断点就是小区间的划分点

区间的一部分数据小于断点值

另一部分数据则大于等于断点值

选取断点的方法不同

从而产生了不同的离散化方法

数据离散化的基本方法主要有

分箱法和直方图分析法

对连续变量进行离散化处理

一般经过以下步骤

1 对此变量进行排序

2 选择某个点作为候选断点

根据给定的要求

判断此断点是否满足要求

3 若候选断点满足离散化的要求

则对数据集进行分裂或合并

再选择下一个候选断点

4 重复步骤2和3

如果满足停止准则

则不再进行离散化过程

从而得到最终的离散结果

分箱的方法是基于箱的指定个数

自顶向下的分裂技术

在离散化的过程中不使用类信息

属于无监督的离散化方法

分箱的步骤如下

首先排序数据

并将它们分到等深（等宽）的箱中

然后可以按箱的平均值

或中值或者边界值等进行平滑

按箱的平均值平滑

是指箱中每一个值被箱中的平均值替换

按箱的中值平滑

是指箱中的每一个值被箱中的中值替换

按箱的边界平滑

是指箱中的最大和最小值被视为箱边界

箱中的每一个值被最近的边界值替换

① 等深分箱

按记录数进行分箱

每箱具有相同的记录数

每箱的记录数称为箱的权重

也称箱子的深度

例分箱法

某公司存储员工信息的数据库里

表示收入的字段“income”

排序后的值

如下

单位人民币元

请按照等深分箱法分箱

设定权重即箱子深度为4

分箱后

箱1为900 1000 1300 1600

箱2依次为 1600 1900 2000 2400

箱3和箱4的数据如下

用平均值平滑结果为

箱1用箱1的平均值1200平滑

箱2用其平均值1975平滑

箱3用其平均值3025平滑

箱4用其平均值4625平滑

②等宽分箱

是在整个属性值的区间上平均分布

即每个箱的区间范围设定为一个常量

称为箱子的宽度

上例中设定区间范围

即箱子宽度为1000元人民币

按等宽分箱法分箱后

箱1为

900 1000 1300 1600 1600 1900

即箱子的宽度为【900,1900】

箱2为

2000 2400 2600 2900 3000

即箱子的宽度为【2000,3000】

箱3和箱4的数据如下

用平均值平滑结果为

箱1用其平均值1383平滑

箱2用其平均值2580平滑

箱3用其平均值4067平滑

箱4用其平均值4950平滑

直方图也可以用于数据离散化

它能够递归的用于每一部分

可以自动产生多级概念分层

直到满足用户需求的层次水平后结束

例如

某数据集的分布直方图如图所示

被划分成了范围相等的区间

如79~99，99~119

以此类推

直到159~179

这就产生了多级概念分层

3.5 数据变换与数据离散化在线视频

3.5 数据变换与数据离散化课程教案、知识点、字幕

数据挖掘课程列表：

第1章概述

第2章数据

第3章数据预处理

第4章数据仓库和OLAP

第5章回归分析

第6章频繁模式

第7章分类

第8章聚类

第9章离群点检测

3.5 数据变换与数据离散化笔记与讨论

也许你还感兴趣的课程:

3.5 数据变换与数据离散化在线视频

3.5 数据变换与数据离散化课程教案、知识点、字幕

数据挖掘课程列表：

第1章 概述

第2章 数据

第3章 数据预处理

第4章 数据仓库和OLAP

第5章 回归分析

第6章 频繁模式

第7章 分类

第8章 聚类

第9章 离群点检测