当前课程知识点：数据挖掘 > 第3章数据预处理 > 3.4 数据归约 > 3.4 数据规约

返回《数据挖掘》慕课在线视频课程列表

3.4 数据规约在线视频

下一节:数据归约

返回《数据挖掘》慕课在线视频列表

3.4 数据规约课程教案、知识点、字幕

对大规模数据库内容进行复杂的数据分析

常需要消耗大量的时间

使得这样的分析变得不现实和不可行

数据归约是指在对挖掘任务

和数据自身内容理解的基础上

通过删除列删除行和减少列中值的数量

删掉不必要的数据以保留原始数据的特征

从而在尽可能保持数据原貌的前提下

最大限度地精简数据量

数据归约技术可以得到数据集的归约表示

虽然小

但仍大致保持原数据的完整性

在归约后的数据集上挖掘将更有效

并产生相同（或几乎相同）的分析结果

数据归约的标准主要有两个

首先

用于数据归约的时间

不应当超过或“抵消”

在归约后的数据集上挖掘节省的时间

其次

归约得到的数据比原数据小得多

但可以产生相同或几乎相同的分析结果

数据归约的策略主要有

①数量归约

通过直方图聚类

和数据立方体聚集等非参数方法

使用替代的较小的数据

表示形式替换原数据

②属性子集选择

检测并删除不相关弱相关或冗余的属性

③抽样

使用比数据小得多的随机样本

来表示大型的数据集

④回归和对数线性模型

对数据建模

使之拟合到一条直线

主要用来近似给定的数据

⑤维度归约

通过小波变换主成分分析

等特征变换方式减少特征数目

直方图是一种常见的数据归约的形式

属性X的直方图

将X的数据分布划分为不相交的子集或桶

通常情况下

子集或桶表示给定属性的一个连续区间

单值桶表示每个桶

只代表单个属性值/频率对

单值桶对于存放那些高频率的

离群点非常有效

划分桶和属性值的方法有两种

①等宽

在等宽直方图中

每个桶的宽度区间是一致的

②等频（或等深）

在等频直方图中

每个桶的频率粗略地计为常数

即每个桶大致包含

相同个数的邻近数据样本

例

用直方图表示数据

已知某人在不同时刻下

所量血压值如下

使用等宽直方图表示数据

如图所示

由于需要继续压缩数据

所以一般都是使用桶

来表示某个属性的一个连续值域

数据立方体是一类多维矩阵

可以使用户从多个角度探索和分析数据集

它的数据是已经处理过的

并且聚合成了立方形式

数据立方体的基本概念有

①方体

是指不同层创建的数据立方体

②基本方体

是指最低抽象层创建的立方体

③顶点方体

是指最高层抽象的立方体

④方体的格

是指每一个数据立方体

这是一个从商品时间

和城市三个维度表示的销售数据的立方体

其中每一个白色立方体表示了某个城市

某个月份销售某种商品的销售额

浅绿色的立方体是对时间维度的汇总

如最右上边的立方体

表示了北京地区四个月电视的销售总额

它是白色立方体的上一层抽象

浅橙色的立方体是对商品维度的汇总

如最左上边的立方体表示了

北京地区1月份三种商品的销售总额

它是白色立方体的上一层抽象

深绿色的立方体是对时间

和城市两个维度的汇总

如最右边的立方体表示了

三个城市四个月电视的销售总额

它是浅绿色立方体的上一层抽象

深橙色的立方体是对

商品和城市两个维度的汇总

如最左边的立方体表示了

三个城市1月份三种商品的销售总额

它是浅橙色立方体的上一层抽象

灰色的立方体是

对时间和城市两个维度的汇总

如最上边的立方体表示了

北京地区四个月三种商品的销售总额

它是浅橙色立方体

及浅绿色立方体的上一层抽象

蓝色立方体是对时间

商品和城市三个维度的汇总

即三个城市四个月份

三种商品的销售综合

它是最高层的抽象

数据立方体的抽象层次

可以用立方体的格表示

其中的点表示了

上图中的每个小立方体的层次概念

立方体最底层是最详细的数据

称为基本立方体

最上面一层是所有维度的汇总

称为顶立方体

中间层是对不同维度的抽象

属性子集选择

是从一组已知属性集合中

通过删除不相关

或冗余的属性（或维）来减少数据量

属性子集选择主要是为了找出最小属性集

使得所选的最小属性集

可以像原来的全部属性集一样

用来正确区分数据集中的每个数据对象

这样可以提高数据处理的效率

简化学习模型

并使得模型更易于理解

属性子集选择的基本启发式方法包括

逐步向前选择逐步向后删除

逐步向前选择和逐步向后删除的组合

以及决策树归纳

如表所示

①逐步向前选择

从空的属性集作为开始

首先确定原属性集中最好的属性

如表所示

首先选择最好属性假设为Xˇ1

将它添加到归约后的属性集中

然后继续迭代

每次都从原属性集剩下的属性中

寻找最好的属性

并添加到归约后的属性集中

如表所示

依次选择出属性Xˇ4 和 Xˇ6

最终得到归约后的属性集

{Xˇ1， Xˇ4，Xˇ6}

②逐步向后删除

从原属性集开始

删除在原属性集中最差的属性

如表所示

首先删除最差属性

假设为属性Xˇ2

然后依次迭代

如表所示

依次删除属性 Xˇ3和 Xˇ5

最终得到归约后的属性集

{Xˇ1，Xˇ4，Xˇ6}

③决策树归纳

使用给定的数据构造决策树

假设不出现在树中的属性都是不相关的

决策树中每个非叶子节点

代表了一个属性上的测试

每个分支对应一个测试的结果

每个叶子节点代表了一个类预测

如表所示

对于属性X1 的测试

结果为“是”的

对应Class1的类预测结果

结果为“否”的

对应Class2的类预测结果

在每个结点上

算法选择“最好”的属性

将数据划分成类

出现在树中的属性

形成归约后的属性子集

以上这些方法的结束条件都可以是不同的

最终都通过一个度量阈值

来确定何时结束属性子集的选择过程

也可以使用这些属性创造某些新属性

这就是属性构造

例如

已知属性“radius”（半径）

可以计算出“area”（面积）

这对于发现数据属性间

联系的缺少信息是有用的

抽样在统计中主要是在

数据的事先调查和数据分析里使用

抽样是非常常用的方法

用于选择数据子集

然后分析出结果

但是

抽样在统计学与数据挖掘中的

使用目的是不同的

统计学使用抽样

主要是因为得到数据集太费时费力

数据挖掘使用抽样

主要是因为处理这些数据

太耗费时间并且代价太大

使用抽样在某种情况下会压缩数据量

有效抽样的理论是

假设有代表性的样本集

那么样本集和全部的数据集

被使用且得到的结论是一样的

例如

假设对数据对象的均值感兴趣

并且样本的均值近似于数据集的均值

则样本是有代表性的

但是抽样是一个过程

特定的样本的代表性不是不变的

所以最好选择一个确保以很高的概率

得到有代表性的样本的抽样方案

抽样的效果决定于

样本的大小和抽样的方法

取样有以下几种方法

不放回简单随机取样

放回简单随机取样

聚类取样

分层取样

假定大型数据集D包含N个元组

无放回的简单随机抽样方法

是从N个元组中随机抽取出n个元组

以构成抽样数据子集

其中每一数据行被选中的概率为1／N

有放回的简单随机抽样方法

与无放回简单随机抽样方法类似

也是从N个元组中每次抽取一个元组

但是抽中的元组接着放回原来数据集D中

以构成抽样数据子集

这种方法可能会产生相同的元组

此图是无放回简单随机取样

和放回简单随机取样的示意图

可以看出

放回的简单随机取样

有可能取到相同的数据

聚类采样

即先聚类后取样

首先将大数据集D

划分为M个互不相交的聚类

然后再从M个类中的数据对象

分别进行随机抽取

可最终获得聚类采样的数据子集

如图所示

分层抽样

即先分层后取样

当总体由不同的类型的对象组成

且每种类型的对象数量差别很大时使用

首先将大数据集D划分为互不相交的层

然后对每一层简单随机选样

得到D的分层选样

如

根据顾客的年龄组进行分层

然后再在每个年龄组中进行随机选样

从而确保了最终获得

分层采样数据子集中的

年龄分布具有代表性

数据挖掘课程列表：

第1章概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章作业1

-第1章作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论（研究生班级）

第2章数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章作业1

-第2章作业2

-关于属性类型的讨论

-关于数据属性的讨论（研究生班级）

第3章数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

-3.3 数据集成

--3.3 数据集成

-3.4 数据归约

--3.4 数据规约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章作业1

-第3章作业2

-关于建立数据集的讨论（研究生班级）

-关于数据预处理的讨论（研究生班级）

-关于建立数据集的讨论（本科生班级）

-关于数据预处理的讨论（本科生班级）

第4章数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章作业1

-第4章作业2

-关于数据仓库和数据预处理的讨论（本科生班级）

-关于数据仓库价值的讨论（本科生班级）

-关于数据库与数据仓库的讨论（研究生班级）

第5章回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章作业1

-第5章作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论（研究生班级）

-回归分析的优缺点（研究生班级）

第6章频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章作业1

-第6章作业2

-关于Apriori算法的讨论（本科生班级）

-关于Apriori算法的讨论（研究生班级）

第7章分类

-7.1 分类概述

--7.1 分类概述

-7.2 决策树

--7.2 决策树（上）

--7.2 决策树（中）

--7.2 决策树（下）

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络（上）

--7.5 神经网络（下）

-7.6 分类模型的评估

--7.6 分类模型的评估（上）

--7.6 分类模型的评估（下）

--分类模型的评估

-第7章第一部分作业2（研究生班级）

-第7章第二部分作业2

-第7章第二部分作业1

-关于分类算法的讨论（本科生班级）

-关于分类算法的讨论（研究生班级）

-关于神经网络的讨论（研究生班级）

第8章聚类

-8.1 聚类概述

--8.1 聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类（一）

--8.2 基于划分的聚类（二）

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章作业1

-第8章作业2

-关于基于划分和基于层次的聚类的讨论（本科生班级）

-关于聚类的讨论（本科生班级）

-关于聚类算法的讨论（研究生班级）

-关于聚类与数据挖掘的讨论（研究生班级）

第9章离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测（一）

--9.2 离群点检测（二）

--离群点检测

-第9章作业1

-第9章作业2

-关于离群点检测的讨论（研究生班级）

3.4 数据规约笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。