当前课程知识点:数据挖掘 >  第4章 数据仓库和OLAP >  4.2 数据仓库设计 >  4.2 数据仓库设计

返回《数据挖掘》慕课在线视频课程列表

4.2 数据仓库设计在线视频

下一节:数据仓库设计

返回《数据挖掘》慕课在线视频列表

4.2 数据仓库设计课程教案、知识点、字幕

数据仓库的

面向主题的

集成的

不可更新等特点

决定了其设计方法区别于传统的

联机事务处理数据库的设计

数据仓库的设计是由数据驱动的

而且需要不断地循环 反馈

使数据仓库系统不断地完善

模型设计原则遵循

“自顶向下、逐步细化”原则

设计方案需要充分考虑

系统的健壮性和可扩展性

并提前做好相应的准备工作

减少因以后的修改

或完善系统所造成的代价和开销

数据仓库的设计

大体上分为以下3个步骤

数据仓库的概念模型设计

逻辑模型设计和物理模型设计

概念模型设计的目的

是对数据仓库涉及的实体

和客观的实体进行抽象 分析

并在此基础上构建一个相对稳固的模型

在设计概念模型的时候

需要充分了解业务及其主要关系

最终形成一个

能够充分刻画对象的

主题和关系的模型

概念模型为全局工作服务

集成了全方位的数据

而形成一个统一的概念蓝图

概念模型需要完成的工作

有以下几个方面

①界定系统边界

即全方位了解任务和环境

充分理解需求

绘制大致的系统边界

即数据仓库系统设计的需求分析

②确定主要的主题域

完成对一些属性

主题域公共码

以及主题域之间的联系的描述工作

其中的属性能够清楚充分地代表主题

③细分具体内容及确定分析维度

维元素对应的是分析角度

通常是一些离散型的数据

度量对应的是指标

实际使用中要根据指标的存储和查询

使用的频度来判断

分析指标属于维元素还是维属性

概念模型的设计最常用的策略

是自底向上的方法

即自顶向下地进行需求分析

然后再自底向上地设计概念结构

它主要有以下两个步骤

①抽象数据并设计局部视图

②集成局部视图

得到全局的概念结构

多维数据的表示和存储

是数据仓库设计的核心

数据仓库的多维数据模型

是简洁 面向主题的

这样可以更加直观地

展示数据组织形式

同时也利于数据的访问

多维数据模型主要分为

星型模型

雪花模型

事实星座模型

星型模型是比较常用的模型范式

是一种使用关系数据库

实现多维分析空间的模型

主要由一个主题事实表

和一组维表构成

事实表规模较大

包含大量的数据并且不含冗余

维表 也可以被称为维度表

是事实表的附属表

每一维都会有一个附属表

围绕在事实表周围

星型模型的命名来源于

维表围绕在中心的事实表的表现形式

一个典型的星型模型包括

一个事实表和一组

逻辑上围绕这个事实表的维表

事实表是星型模型的核心

事实表由主键和度量数据组成

星型模型中各维表主键的组合

构成事实表的主键

事实表中所存放的数据

是大量跟主题密切相关的

用户最关心的度量数据

维度是观察事实

分析主题的角度

维表的集合是构建

数据仓库数据模式的关键

维表通过主键与事实表相连

用户依赖维表中的维度属性

从事实表中获取支持决策的数据

例如

有一产品销售中心

每天都有不同的销售商

将成千上万种商品销售到不同的地方

现在为了方便中心管理

需要建立一个关于产品销售的数据仓库

以便更好地管理与统计中心的经营状况

可以使用星型模型

设计产品销售数据仓库

包含一个销售事实表和四个维度表

维度是指从哪些角度

去观察和考量产品销售情况

此例中分别从时间

销售商 产品和地区

四个维度来度量销售情况

每个维只用一个表标识

这个表包含一系列的属性

这些维表是直接与中心事实表相关联的

如图所示

事实表中包含四个维的关键字

以便与其他维相互联系

四个维度表关键字的组合

构成了销售事实表的主键

同时也是外键

事实表中还包括有关产品销售

所关心的度量数据——销售额

在某些情况下

星型模型在设计完成后

需要对维度实体进行更加深入

详细地分析

这就需要设计数据仓库的雪花模型

雪花模型是对星型模型的扩展

和延伸以及标准化

同时对星型模型的维表进行规范化

具体的做法是

在星型模型的维表的基础上

进一步分解出类别维表

产品销售数据仓库的雪花模型

和星型模型基本相同

不同的是维表

雪花模型在星型模型的基础上

对维表进行了规范化

产生了新的类别维表

如图所示

产品维表包含类型维表

以对产品维表进行细化

消费地点维表包含城市维表

以对消费地点按照城市类别进行细化

雪花模型在一定程度上

会节省存储空间

但由于对数据仓库的不同表

的联接操作时查询速度较慢

因此会影响查询效率

造成系统性能的下降

在实际应用中

雪花模型并没有星型模型

使用的那么广泛

当遇到较为复杂的应用时

可能需要多个事实表共享一个维表

此时星型模型和雪花模型

就无法满足要求

而事实星座模型则可以很好地

解决复杂应用的模型设计

事实星座模型可以视为

星型模型的集合

故也被称为星系模型

在产品销售数据仓库星型模型

建立的基础上添加货运事实表

这个事实表和销售事实表

共享时间维表和地区维表以及产品维表

如图所示

概念模型设计完成之后

要想真正地将设计的模型实现出来

需要一个衔接的环节

一方面

该环节可以将需求充分地体现出来

另一方面

该环节可以为实现数据仓库

起到指导的作用

这一环节就是数据仓库的

逻辑模型设计

数据仓库的逻辑模型设计

是在概念模型设计中

确定的几个基本的主题域的基础上

进一步地完善和详细化设计

扩展主题域

数据仓库的逻辑模型

把业务需求用规范化的模型

和关系进行表示

奠定数据仓库的物理设计的基础

因此数据仓库的逻辑模型设计

是数据仓库设计的核心基础

逻辑模型是系统分析设计人员

对数据存储的观点

是对概念数据模型

进一步地分解和细化

逻辑模型的设计

是数据仓库实施中最重要的一步

因为它直接反映了业务部分的

实际需求和业务规则

同时对物理模型设计

和实现具有指导作用

它通过实体和实体之间的关系

勾勒出整个系统的数据蓝图和规划

逻辑模型设计主要有以下几个步骤

首先 分析主题域

确定要装载到数据仓库的主题

其次 粒度层次划分

通过估计数据量

和所需的存储设备确定粒度划分方案

然后 确定数据分隔策略

将逻辑上整体的数据分割成较小的

可以独立管理的物理单元进行存储

最后 定义关系模式

概念设计阶段时基本的主题已经确定

逻辑模型设计阶段要将

主题划分成多个表以及确定表的结构

逻辑模型设计的关键

是细化主题划分并建立维度模型

主要的工作是

进行事实表模型设计和维表模型设计

事实表的设计一般是

对概念模型中的几个主题域

进行进一步地分析

事实表一般包含两个部分

一部分是键部分

这部分通常是由

事实表的主键和维表的外键组成

另一部分是所需度量的数值指标

这些指标具有数值化和可加等特性

对数据仓库的星型模型

进行事实表模型设计

需要把主题 公共键 属性组

列出来进行分析

如表所示

在一般的产品销售中

常常分析的主题

包括产品 销售商 销售等

找出每个主题的主键

可以根据主题属性的性质

分类相关信息

如产品的固有信息

可以包含产品代码 产品名称

产品类型等

与采购信息相关的属性

可以有产品代码

供应商代码

采购日期等

与库存信息相关的属性

有产品代码 库房号

库存量 入库时间等

事实表模型设计

根据前例的星型模型

主题域是销售

其主键为销售代码

可以将销售主题的

属性分为固有信息和销售信息

其中固有信息可以包括

销售代码 销售地址等

销售信息有

销售代码

产品代码

销售价格

销售时间等

在前例中

根据星型模型

以及通过分析主题

得到相应的事实表如表所示

其中主键是销售代码

时间键

产品代码

销售商代码

地区代码是外键

用来与维表相联系

销售额是事实表的度量

在建立事实表的基础上

要想进一步分析

还需要有维表的支持

维表的作用就是为用户提供

主题的更加详细的具体的信息

要设计出维表同样需要

进行维度的详细信息的分析

比如说可以按照时间维度进行分析

也可以按照产品维度进行分析

还可以按照客户维度进行分析

这样可以从多个不同的角度进行分析

获得的决策更加完善

对前例中星型模型中

维表的模型设计如表所示

完成数据仓库的概念模型

和逻辑模型的设计之后

下一步就是数据仓库物理模型的设计

这个阶段需要在充分了解数据

和硬件配置的基础上

确定数据的存储结构

索引策略

数据存放位置等信息

数据仓库的存储结构设计

要充分考虑所选择的存储结构

是否适合数据的需要

还要考虑存储时间和

存储空间的利用率

此表显示了销售事实表

存储结构关系模型

包括字段名

是否主外键

数据类型等

由于数据仓库是只读环境

大多数情况进行的是查询操作

当数据量非常大的时候

查询效率会变得低下

通过索引的构建

可以提高查询的效率

和数据库的性能

和数据库的性能

常见的构建索引的方法

有B树索引 位图索引和簇索引

在建立索引时

需要注意以下几个通用的原则

1 索引和加载

当存在大量的索引时

向数据仓库中加载数据速度会非常慢

可以在加载前先删除索引

完成后再建索引

2 建立大表索引

当表太大时不能建立太多索引

如果必须建立多个索引

建议将大表分成小表再建立多个索引

3 只读索引

在数据检索过程中

索引记录是首先读入的

然后再读入对应的数据

也就是说在检索过程中

索引是只能被读取而不能被修改的

4 选择索引的列

分析最常用的查询

哪几列经常用来限定查询

那么这几列就是建立索引的候选列

5 分阶段的方法

一开始只为每个表的

主键和外键建立索引

然后监视系统性能

特别是长时间运行的查询

根据监视结果再增加索引

相同主题的数据

不需要存放在相同的存储介质

根据数据的使用频率

和数据的重要程度以及时间响应要求

将不同数据存放在不同的存储设备上

例如可以将对响应时间

要求较高的数据存放在高速存储设备上

此外还要考虑是否进行冗余存储

是否进行合并

是否建立数据序列等

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

4.2 数据仓库设计笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。