当前课程知识点:数据挖掘 >  第1章 概述 >  1.2 分析与挖掘的数据类型 >  1.2 分析与挖掘的数据类型

返回《数据挖掘》慕课在线视频课程列表

1.2 分析与挖掘的数据类型在线视频

下一节: 1.2 分析与挖掘的数据类型

返回《数据挖掘》慕课在线视频列表

1.2 分析与挖掘的数据类型课程教案、知识点、字幕

数据分析与数据挖掘是一种通用的技术

可以应用于各种不同类型的数据

只要数据中包含一定的实际价值

都可以被分析和挖掘

下面介绍几种主要的数据类型

数据库系统(DataBase System,DBS)

由一组内部相关的数据(称作数据库)

和用于管理这些数据的程序组成

通过软件程序

对数据进行高效的存储和管理

关系数据库是

目前较为成熟使用的数据库形式

关系数据库是基于

关系数据库模型的数据库

是数据表的集合

其中每个表都有一个唯一的名字

每个表格包含一个或多个

用列表示的数据属性

每行包含一个数据实体

被唯一的关键字标识

并被一组属性描述

关系数据库中的数据

可以通过数据库查询进行访问

数据库查询使用关系查询语言

如SQL结构化查询语言

一个给定的查询语句

通过数据库软件程序的处理

被转换成一系列关系操作

如选择 投影 连接等等

例如

可以通过关系查询来获得

“苹果的销售量是多少”

“哪种商品销售量最高”

或“哪种商品的总收入最高”等数据

当对关系数据库进行数据挖掘时

可以通过进一步的分析和挖掘

发现更有意义的模式

如 不同年龄段的顾客

对商品的喜好程度

哪些商品的销售量与月份相关

哪些商品通常会同时出现在一张订单中

以及商品包装和口味的变化

对销售量有什么影响等

通常来说

这些问题是商家更加关注的

数据仓库常用于

有多个单独管理的数据源

需要对所有数据源进行分析时

需要构造数据仓库

数据仓库是一个

面向主题的 集成的 时变的

非易失的数据集合

支持管理者决策过程

数据仓库使用特有的数据存储架构

对数据进行系统的分析整理

此图描述了数据仓库构造和使用的过程

数据仓库通过数据清理

数据变换 数据集成 数据装入

和定期数据刷新来构造

课程第4章

会详细介绍数据仓库的相关知识

数据库的数据组织是面向任务的

而数据仓库中的数据

则是按照主题进行组织的

主题是指决策者进行决策时

所关心的重点内容

例如

连锁超市的总经理

不会关心某个超市每天卖出了几个苹果

他关心的是每个地区

每种商品的销售数据的总和

此时商品销售即为主题

通常

数据仓库使用数据立方体的

多维数据结构建模

其中每个维度包含

模式中的一个或一组属性

而每个单元保存对应的属性值

数据立方体可以从多个维度观察数据

为决策者提供整体的信息

联机分析处理

是数据仓库系统的主要应用

用于支持复杂的分析操作

允许在不同的汇总级别对数据进行汇总

关于数据仓库 联机分析处理技术等

将在第4章进行更加详细地介绍

数据仓库对数据的分析

提供了强大的支持

但进行更加深入的分析

依然需要数据挖掘工具的帮助

数据仓库中的数据

经过联机分析处理和数据挖掘

挖掘出有用的信息

形成知识库和模式库

这些知识提供给决策者进行决策

事务数据库的每个记录代表一个事务

比如一个车次的订票

顾客的一个订单等等

通常来说

一个事务由一个唯一的标识号

和一组描述事务的项组成

有时也需要一些附加信息

来表示事务的其他信息

如对商品的描述等

此表是商品销售的事务表

一个事务记录了

某一次商品销售中销售的商品编号

通过这样的事务数据表

可以发现多个项在一个事务中同时出现

这在现实中有重要的意义

比如 购买了牛奶的顾客

很可能会同时购买面包

通过这些事务数据

决策者可以做出相应的促销策略

如将面包和牛奶放置在相近的位置

以期销售更多的商品

在一个数据集中

如果数据对象的所有属性

都是具有相同性质的数值型数据

那么这个数据集就可以用矩阵表示

此表是鸢尾花数据集的部分数据示例

该数据集由三种不同类型的鸢尾花组成

其中每种类型具有50个样本

表中每一行代表一个数据对象

可以看作是多维空间中的一个点

每一列代表数据对象的一种属性

m个数据对象和n个属性

构成一个m行n列的数据矩阵

通过将每个数据对象映射到

多维空间中的点(或向量)

可以根据数据对象的空间位置关系

来进行分类和聚类操作

空间上距离相近的两个数据对象

被认为是同一个类型

而空间上距离较远的两个数据对象

是不同的类型

一个典型的应用是对文档的分类

根据不同文档

出现某些关键词的频率不同

可以将文档划分为不同的类型

此表为文档-关键词矩阵

其中表格中的数据

为关键词在文档中出现的次数

根据表中的数据可以看出

文档1和文档2具有相同的类型

文档3和文档4具有相同的类型

如果考虑到词的具体含义

则前两个文档偏向于介绍数据挖掘

而后两篇文档则介绍的很可能是算法

实际应用中会采用数据挖掘的方法

进行分析和挖掘

图和网状结构通常用来表达

不同结点之间的联系

比如人际关系网

网站之间的相互链接关系等

例如

通过分析微博上人脉关系

可以得到不同群体的喜好

以及哪些人被关注的程度很高

对热点话题起主导作用

图和网状数据往往包含着重要的信息

但其结构复杂

对数据分析和数据挖掘

提出了较高的要求

一个典型的应用就是

搜索引擎对网站页面链接关系的分析

此图表示了网页的链接关系

其中每个结点代表一个网页

有向边表示网页间的链接关系

一般来说

被指向的次数越多的网页

其重要程度越高

被指向次数较少的网页

其重要程度较低

搜索引擎通过分析海量的网页链接关系

找出重要程度更高的网页反馈给用户

得到更好的搜索结果

著名的网页排名算法PageRank

就是通过分析网页之间的链接关系

来给出网页的重要程度

除了上述提到的关系数据库数据

数据仓库数据 事务数据 数据矩阵

以及图和网状数据以外

还有许多不同形式的其他数据

如与时间相关的序列数据

(如不同时刻的气温

股票市场的历史交易数据等

数据流数据

如监控中的视频数据流等

多媒体数据

如视频 音频 文本和图像数据等

这些不同形式和结构的数据

给数据分析和数据挖掘

带来了新的挑战

这些类型的数据中也包含着各种知识

例如

可以通过挖掘股票市场的

历史交易数据

发现股票的趋势

制定合理的投资策略

通过挖掘地铁站

不同时间段的客流量数据

并根据挖掘结果来安排

列车的首末班时间

以及两辆列车之间的时间间隔

通过挖掘不同时间段

车辆流量信息

并根据得到的结果

调整交通指示灯的时间

达到更高的运输效率

通过挖掘与“数据挖掘”领域

相关的文献

可以了解该领域

在不同的历史时期

关注的热点问题的演变

通过挖掘在线销售平台上

顾客发表的评论

可以根据不同顾客的意见

来提供更好的服务

分析和挖掘这些类型的数据

可能需要更复杂的机制

但它们也为数据挖掘提出了

具有挑战性和现实意义的问题

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

1.2 分析与挖掘的数据类型笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。