当前课程知识点:数据挖掘 >  第4章 数据仓库和OLAP >  4.1 数据仓库基本概念 >  4.1 数据仓库基本概念

返回《数据挖掘》慕课在线视频课程列表

4.1 数据仓库基本概念在线视频

下一节:数据仓库基本概念

返回《数据挖掘》慕课在线视频列表

4.1 数据仓库基本概念课程教案、知识点、字幕

信息管理系统的广泛应用

使得各行业积累了

大量有重要潜在价值的历史数据

从而激发起

对数据分析功能的更高要求

数据仓库由此得以快速发展

构造数据仓库的过程

可以看作挖掘多维数据的预处理过程

本章主要介绍

数据仓库的基本概念

数据仓库的设计和实现问题

联机分析处理(OLAP)

数据立方体

(用于数据仓库和OLAP

以及OLAP操作的多维数据模型)

以及数据泛化

元数据模型等问题

数据仓库概念始于上世纪80年代中期

首次出现是在被誉为

“数据仓库之父”

Bill Inmon

的《建立数据仓库》一书中

随着人们对大型数据库系统的研究

管理 维护等方面的

深刻认识和不断完善

在总结 丰富 集中多行业

企业信息的经验后

为数据仓库给出了更为精确的定义

即数据仓库是一个

面向主题的 集成的

时变的 非易失的数据集合

用于支持管理者决策过程

数据仓库的特征主要有四个

面向主题的

集成的

时变的

非易失的

所谓面向主题

是指围绕重要的主题组织数据

例如要分析客户情况

产品情况及销售额

那么客户 产品都可以作为主题

关注的是决策者进行数据建模与分析

不关注日常操作及事务处理

通过排除对决策无用的数据

为特定主题提供简单且简洁的视图

集成性是指数据仓库是

基于集成多个异构的数据源进行构建

如 关系数据库 一般文件

联机事务处理记录等

应用数据清理及数据集成技术

确保不同数据源中的命名约定

编码结构 属性度量等方面的一致性

例如 宾馆价格中的

货币种类 税额 是否含早餐等等

当数据被移入数据仓库时将会被转换

数据仓库的时变性特点

是指数据仓库涵盖的时间范围

要显著长于业务操作系统数据

业务操作数据库数据常常是实时数据

而数据仓库数据要从

历史角度提供信息

其数据常常保存到过去的5-10年

数据仓库中的每个关键结构

都隐式或显式地包括时间元素

但是业务数据库中的关键结构

既可包括也可以不包括“时间元素”

数据仓库的非易失性

是指数据仓库将业务环境中的

数据转换并在物理上分离存储

在数据仓库环境下

不存在业务上的数据更新

不需要事务处理

恢复及并发控制机制

只需要两种数据访问操作

数据初始装入和数据访问

当数据存放到数据仓库中以后

用户是不需要

且不能修改数据仓库中的数据的

数据仓库是一个环境

为了高效地把操作型历史数据

集成到统一的环境中

并提供决策型数据访问与挖掘

它通常采用一种三层体系结构

如图所示

包括数据源

数据存储

OLAP引擎

查询与报表工具

第一层为底层

数据仓库服务器

包括数据源和数据存储

使用一些后端工具和实用程序

对其他外部数据源的数据

进行提取 清理 变换 装入和刷新

将高质量的数据更新到数据仓库

数据集市 也叫数据市场

是一个从操作的数据和其他的

为某个特殊的专业人员团体服务

的数据源中收集数据的仓库

是数据仓库的子集

图中的数据存储代表的

就是底层的功能

(2)中间层 OLAP服务器

联机分析处理(OLAP)

是数据仓库系统

前端分析服务的分析工具

能快速汇总大量数据

并进行高效查询分析

为分析人员提供决策支持

使用OLAP相关模型

将多维数据上的操作映射为

标准的关系操作

或者直接实现多维数据操作

OLAP操作可以与

关联 分类 预测 聚类等

数据挖掘功能结合

以加强多维数据挖掘

图中的OLAP引擎就是中间层的实现

(3)顶层 前端客户层

包括数据挖掘工具

如趋势分析 预测等

数据分析工具和查询与报告工具

用于知识发现相关工作人员

如经理 主管 分析人员等

直接操作获取知识

图中的前端工具为该层的实现

数据模型是数据仓库建设的基础

一个完整 灵活 稳定的数据模型

对数据仓库项目的成功

有着重要的作用

①数据模型是整个系统

建设过程的导航图

可以给出路径规划

②有利于数据的整合

③排除数据描述的不一致性

④可以消除数据仓库中的冗余数据

数据仓库设计过程中涉及到

如下三级数据模型

(1)概念模型

对现实世界中问题域内的事物的描述

不是对软件设计的描述

(2)逻辑模型

对概念模型中的主题进行细化

定义实体与实体之间的关系

以及实体的属性

(3)物理模型

依照逻辑模型

在数据库中建表 索引等

为了满足高性能的需求

数据仓库可以增加冗余

隐藏表之间的约束等反第三范式操作

粒度影响数据仓库中数据量的大小

粒度是设计数据仓库的一个

重要的设计问题

粒度是指数据仓库的数据单位中

保存数据的细化或综合程度的级别

也是对数据仓库中的

数据综合程度高低的一个度量

它既影响数据仓库中的数据量的多少

也影响数据仓库所能实现的查询类型

粒度越小

细节程度越高

综合程度越低

查询类型越多

粒度越大

综合程度越高

查询的效率也越高

在数据仓库中可将

小粒度的数据存储在低速存储器上

大粒度的数据存储在高速存储器上

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

4.1 数据仓库基本概念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。