当前课程知识点:数据挖掘 >  第3章 数据预处理 >  3.1 数据存在的问题 >  3.1 数据存在的问题

返回《数据挖掘》慕课在线视频课程列表

3.1 数据存在的问题在线视频

下一节:数据存在的问题

返回《数据挖掘》慕课在线视频列表

3.1 数据存在的问题课程教案、知识点、字幕

数据预处理是数据挖掘中的

重要一环

而且必不可少

要更有效地挖掘出知识

就必须为它提供干净 准确

简洁的数据

然而实际应用系统中

收集到的原始数据

往往会存在一定的问题

现实世界中的数据常常是不完整

不一致的脏数据

无法直接进行数据挖掘

或挖掘结果无法令人满意

为了提高数据挖掘的质量

就需要使用数据预处理技术

数据预处理有多种方法

数据清理 数据集成

数据变换 数据归约等

这些数据预处理技术

在数据挖掘之前使用

可以大大提高数据挖掘模式的质量

降低实际挖掘所需要的时间

原始数据存在哪些问题呢

首先是数据的不一致性

原始数据是从各个实际应用系统

如多种数据库 多种文件系统中获取的

由于各应用系统的数据

缺乏统一的标准和定义

数据结构也有较大的差异

因此各系统间的数据

存在较大的不一致性

共享问题严重

往往不能直接拿来使用

例如

某数据库中两个不同的表

可能都会有重量这个属性

但是一个以kg为单位

一个是以g为单位

这样的数据就会有较大的杂乱性

再如

学生数据库中学生的学号

这个字段名称

在有的表中为学号

有的表中为编号

这样的使用也会引起混乱

其次是噪声数据

噪声数据是指数据中

存在着错误或异常

即偏离期望值

如 血压和身高为0就是明显的错误

收集数据的时候难以得到精确的数据

主要原因如

收集数据的设备可能出现故障

或数据输入时可能出现错误

或数据传输过程中可能出现错误

或存储介质有可能出现损坏等

这些情况都可能导致噪声数据的出现

由于实际系统设计时可能存在的缺陷

以及使用过程中

人为因素所造成的影响

数据记录中可能会出现

有些数据属性的值丢失

或不确定的情况

还可能缺少必需的数据而造成

数据不完整

产生缺失值主要原因有

有些属性的内容有时没有

如销售事务数据中的

顾客信息 家庭收入等

或有些数据当时被认为是不必要的

或由于误解或检测设备失灵

导致相关数据没有记录下来

或与其它记录内容不一致而被删除

或忽略了历史数据或对数据的修改

另外实际使用的系统中

可能存在大量的模糊信息

有些数据甚至还具有一定的随机性

现实世界中的数据

大多都存在数据不一致

噪声数据以及缺失值等问题

但是数据挖掘需要的

都必须是高质量的数据

即数据挖掘所处理的数据

必须具有准确性

完整性 一致性等性质

另外

时效性 可信性

和可解释性也会影响数据的质量

准确性是指数据记录的信息

是否存在异常或错误

完整性是指数据信息是否存在

缺失的情况

数据缺失的情况

可能是整个数据记录缺失

也可能是数据中

某个字段信息的记录缺失

一致性是指数据是否遵循了

统一的规范

数据集合是否保持了统一的格式

数据质量的一致性主要体现在

数据记录的规范和数据是否符合逻辑

时效性是指某些数据是否能及时更新

更新时间越短

则时效性越强

可信性是指用户信赖的数据的数量

用户信赖的数据越多

则可信性越好

可解释性是指

数据自身是否易于人们理解

数据自身越容易被人们理解

则可解释性越高

数据预处理主要包括数据清理

数据集成 数据归约和数据变换

数据清理又称为数据清洗

是通过填写缺失的值

光滑噪声数据

识别或删除离群点等方法

去除源数据中的噪声数据和无关数据

并且处理遗漏的数据和清洗脏数据

纠正数据的不一致

这其中要考虑时间顺序

和数据变化等情况

当需要分析挖掘的数据来自

多个数据源的时候

就需要集成多个数据库

数据立方体或文件

即数据集成

来自多个不同数据源的数据

可能会存在

数据的不一致性和冗余问题

代表同一概念的属性的属性名

在不同数据库中可能会不同

例如 在某个数据库中的

商品名称的属性名为product_name

它在另一个数据库中却是brand_name

数据的不一致也可能出现在属性值中

例如

同一个商品在第一个数据库中的

商品名取值为sofa

在另一个数据库中值为couch

在第三个数据库可能还会有其他的值

数据归约又称为数据消减

就是指对数据集进行简化表示

大量的冗余数据会降低知识发现过程的

性能或使之陷入混乱

因此

在数据预处理中不仅要进行数据清理

还必须采取措施

避免数据集成后数据的冗余

这样既能降低数据集的规模

又可以不损害数据挖掘的结果

数据归约后

数据比原来小得多

但是可以得到几乎相同的分析结果

数据变换又称为数据转换

是将数据从一种表现形式变为

另一种表现形式的过程

它包括了数据的规范化

数据离散化和概念分层

可以使数据的挖掘

在多个抽象层上进行

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

3.1 数据存在的问题笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。