当前课程知识点:数据挖掘 >  第4章 数据仓库和OLAP >  4.5 元数据模型 >  4.5 元数据模型

返回《数据挖掘》慕课在线视频课程列表

4.5 元数据模型在线视频

下一节:元数据模型

返回《数据挖掘》慕课在线视频列表

4.5 元数据模型课程教案、知识点、字幕

元数据(Metadata)

又称中介数据、中继数据

是描述数据的数据

是描述数据属性的信息

用来支持

如指示存储位置

历史数据

资源查找

文件记录等功能

元数据存储对

数据结构

数据模型

数据模型和数据仓库的关系

操作数据的历史记录等内容进行记录

数据仓库的元数据主要目标是

为数据资源提供指南作用

在整个数据仓库的设计和运行过程中

起着非常重要的作用

是数据仓库的核心

元数据包括以下内容

数据仓库结构的描述

即模式、视图、维、分层结构

导出数据的定义

数据集市的位置及内容

操作数据源

即数据血统

也就是迁移数据的历史

和它使用的变换序列

数据流通

包括主动的、档案的或者净化的

和管理信息

如仓库使用的统计量

错误报告和审计跟踪等

用于汇总的算法

由操作环境到数据仓库的映射

关于系统性能的数据

如数据仓库模式、视图和导出数据的定义

商务数据

如商务术语和定义

数据拥有者信息

收费策略等

例如

前节中的产品销售数据仓库中的

销售主题的元数据

如表所示

销售主题元数据给出了

主题的名称

描述、目的、联系人

维度、对应的事实表

以及度量值等

销售事实表元数据如表所示

此处给出了部分内容

销售事实表元数据包括

销售事实表的名称

描述、目的、使用状况、存档规则

存档状况、更新规则、更新状况等

还可以包含

数据质量要求及确认

数据准确性要求

数据粒度

表键

数据来源

加载周期

加载状况

加载规则等等

除了事实表元数据

元数据库还包括

每个维度表的元数据

以及每个属性的元数据等等信息

根据使用情况的不同

元数据可以分为

业务元数据和技术元数据

业务元数据是

用来和终端的商业模型

或者前端工具建立映射关系

经常用于开发决策工具

业务元数据

从业务角度

对数据仓库的数据进行描述

即使不了解技术的

业务人员也能读懂数据

业务元数据主要包括

访问数据的原则和数据的来源

系统提供的分析方法和报表信息

使用者的术语所表达的

数据模型、对象名和属性名

元数据为业务用户提供了

很大的支持

为决策分析人员提供了

访问数据仓库信息的路线图

技术元数据是为了

从环境中

向数据仓库进行转化而建立的

包括数据属性、数据项

以及在数据仓库中的转换

技术元数据描述了

关于数据仓库技术细节

主要用于

开发、管理和维护数据仓库

主要包含的信息有

描述数据仓库的结构

比如数据仓库的

模式、层次、视图、维度等

汇总所用的方法

包括

数据粒度、主题汇聚、聚合、汇总等

由操作环境到数据仓库的映射

主要包括

源数据以及内容

数据分割

数据清洗

转换规则等

业务系统

数据仓库和数据集市的体系结构

根据元数据的状态

又可以把元数据分为

静态元数据和动态元数据两种

静态元数据主要包括

业务规则、类别、索引

来源、生成时间、数据类型等

动态元数据主要包括

数据质量、统计信息、状态

处理、存储位置、存储大小、引用处等

元数据在数据仓库管理人员看来

是包含了所有的内容和过程的知识库

在使用者看来是数据仓库的信息地图

正因为如此重要的作用

使得元数据存在于数据仓库建设的

整个过程中

元数据可以进行数据质量的校验和保证

也可以审查数据问题

跟踪不正确的数据

还可以帮助数据分析人员

有效的使用数据仓库环境

有效的使用数据仓库环境

此外

由于数据仓库的数据存放的时间较长

数据仓库的结构也有可能会发生变化

元数据模型可以跟踪这一变化过程

在数据仓库中元数据模型的主要作用有

数据仓库内容的描述

元数据描述了数据仓库中

有什么数据及数据间的关系

它们是用户使用和

系统管理数据仓库的基础

定义抽取和转化

元数据可以用来生成源代码

以完成数据的转换工作

即完成由操作型数据

转换生成以特殊形式存放的

面向主题的数据仓库数据

元数据中的抽取表映射

和抽取域映射定义了

进行实际抽取转换工作的过程

基于商业事件的抽取调度

抽取调度是指

什么时间

进行从源数据到数据仓库的抽取工作

元数据必须对数据的抽取安排加以说明

数据质量保证

元数据必须提供一个机制

即针对特定应用

并根据用户确立的数据容忍程度

来提醒用户是否采用该数据进行决策

元数据

在整个数据仓库开发和使用过程中的作用

如图所示

通过原始业务数据

以及通过提取获得的元数据源

可以用于

数据转换

数据存储

主题区以及用户的分析

元数据可以对数据仓库中的

数据的内容和来源进行详细地解释说明

这样用户就可以根据主题

利用元数据来查询数据仓库的内容

元数据也可以提供查询信息

当元数据的查询

包含用户所要查询的内容的时候

查询就可以实现复用

这样就不需要进行多次查询

元数据的使用人员主要分为

技术人员

业务人员

和高级使用人员

这三种人员对元数据的使用

并不相同

但都要通过

元数据来进行相应的查询和操作

技术人员

可以通过元数据进行

数据仓库的管理和维护

技术人员

需要理解数据仓库中的数据抽取

数据转换和封装到数据仓库的过程

技术元数据可以让技术人员

更好地、更精确地

进行数据仓库的后续开发

由于业务人员不熟悉技术

但是具备资深的业务背景

业务人员

常常从数据仓库中获取自己想要的信息

业务人员

往往通过元数据

来确定数据仓库中数据的信息

对于大多数业务人员来说

实现自己的查询操作和报表

都需要使用元数据

高级使用人员

懂技术而且懂业务

这些用户理解业务数据

同时还能以正常的方式

访问数据仓库系统

对业务报表也很熟悉

他们更多的是关心数据是如何发生变化

以及数据如何转换

并进而加载到数据仓库的

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

4.5 元数据模型笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。