当前课程知识点：数据挖掘 > 第3章数据预处理 > 3.3 数据集成 > 3.3 数据集成

返回《数据挖掘》慕课在线视频课程列表

3.3 数据集成在线视频

下一节:数据集成

返回《数据挖掘》慕课在线视频列表

3.3 数据集成课程教案、知识点、字幕

数据集成

主要是在数据分析任务中

把不同来源、格式、特点和性质的数据

合理地集中并合并起来

从而为数据挖掘提供完整的数据源

这些数据源包括

多个数据库

数据立方体或一般文件

然后存放在一个

一致的数据存储中

有助于减少结果数据集的

冗余和不一致

可以提高

在这之后的挖掘过程的

准确性和速度

它需要统一原始数据中的

所有矛盾之处

如字段的

同名异义

异名同义

单位不统一

字长不一致等

集成过程中需要注意两个问题

集成的过程中涉及的

实体识别问题及冗余问题

首先是

集成的过程中涉及的实体识别问题

这个问题主要是来自

多个信息源的现实世界产生的

“匹配”问题

需要整合不同数据源中的元数据

以便进行实体识别

例如

一个数据库中的“brand”

和另一个数据库的“product”

虽然名称不同

但指的是同一实体

通常

数据库和数据仓库中的元数据

即关于数据的数据

可以帮助避免模式集成中的错误

冗余问题是指

同一属性在不同数据库

或同一数据库的不同数据表中

会有不同的字段名

如student_id

和student_num

在不同的数据表中都表示学号

但名称使用不同

或一个属性可以由另外的属性导出

如

一个顾客数据表中的平均月收入属性

可以根据月收入属性计算出来

有些数据冗余

可以通过相关性分析来检测

对于数值属性

可以使用相关系数和协方差

进行相关性分析

对于标称数据

可以使用卡方检验进行相关性分析

首先介绍数值属性的相关系数

相关系数是

最早由统计学家卡尔·皮尔逊

设计的统计指标

是研究变量之间线性相关程度的量

是用以反映变量之间

相关关系密切程度的统计指标

由于研究对象的不同

相关系数有多种定义方式

较为常用的是皮尔逊相关系数

属性X和Y的相关度

使用皮尔逊相关系数

rˇX,Y来表示

如公式所示

式中的m代表的是元组的个数

xˇi是元组i在属性X上的值

yˇi是元组i在属性Y上的值

X 平均表示X的均值

Y 平均表示Y的均值

σˇx表示X的标准差

σˇY表示Y的标准差

表示每个元组中X的值乘以Y的值

且rˇXY的取值范围为

-1≤rˇX,Y≤1

如果rˇX,Y>0

则X和Y是正相关的

也就是说

X值随Y值的变大而变大

如果 rˇ(X,Y)的值较大

数据可以作为冗余而被删除

如果rˇX,Y=0

则X和Y是独立的且互不相关

如果rˇX,Y<0

则X和Y是负相关的

也就是说

X值随Y值的减小而变大

即

一个字段随着另一个字段的减少而增多

例

数值属性的相关性分析

如表所示

已知体重与血压的12个样本数据

试判断其相关性

计算体重和血压的均值和标准差值

如表所示

通过公式rˇX,Y

计算相关系数

等于-0.112

由于rˇX,Y<0

可知体重和血压是负相关的

需要注意的是

相关性不代表因果关系

假设X和Y具有相关性

不能代表X导致Y或者Y导致X

下面介绍数值属性的协方差

在概率论和统计学中

协方差用于衡量两个变量的总体误差

而方差是协方差中

两个变量相同的一种特殊情况

协方差也可以评估两个变量的相互关系

设有两个属性X和Y

以及有m次观测值的集合

xˇ1,yˇ1

xˇ2,yˇ2

一直到xˇm,yˇm

X与Y之间的协方差定义如公式所示

式中的m代表的是元组的个数

E(X)和E(Y)分别为X和Y的期望

即均值

当Cov(X,Y)>0时

表明X与Y正相关

当Cov(X,Y)<0时

表明X与Y负相关

当Cov(X,Y)=0时

表明X与Y不相关

如果两个变量的变化趋势一致

也就是说

如果其中一个大于自身的期望值时

另外一个也大于自身的期望值

那么两个变量之间的协方差就是正值

如果两个变量的变化趋势相反

即其中一个变量大于自身的期望值时

另外一个却小于自身的期望值

那么两个变量之间的协方差就是负值

如果X与Y是统计独立的

那么二者之间的协方差就是0

因为两个独立的随机变量满足

E[XY]=E[X]E[Y]

但是

反过来并不成立

即如果X与Y的协方差为0

二者并不一定是统计独立的

假设属性X和Y是相互独立的

即它们不具有相关性

有

E(XY)=E(X)E(Y)

协方差的公式为

但是

它的逆命题是不成立的

例

数值属性的协方差计算

求上例中血压是否会随着体重一起变化

设血压为X

体重为Y

首先计算血压和体重的期望

如式所示

X的期望值等于63.83

以此类推

相同计算

体重的期望值为118.33

然后计算协方差

如公式所示

协方差等于相关系数乘以血压的标准差

再乘以体重的标准差

等于-28.10

其中标准差采用样本标准差计算

对于标称数据

两个属性X和Y之间的相关关系

可以通过卡方检验发现

卡方检验值

即卡方统计量是指数据的分布

与所选择的预期

或假设分布之间的差异的度量

在1900年由英国统计学家pearson提出

是用于卡方检验中的一个统计量

它可用于检验类别变量之间的

独立性或确定关联性

原假设为两个类别变量是相互独立的

如果与卡方统计量相关联的概率值p值

小于选定的检验显著水平α

检验将拒绝两个变量彼此独立的原假设

独立性检验一般采用

表格的形式记录观察结果的计数资料

这种表格称为列联表

假设属性X有n个不同值

分别为xˇ1,xˇ2,⋯,xˇn

Y有r个不同值

分别为yˇ1,yˇ2,⋯,yˇr

n乘r列联表如表所示

列联表是用X的n个值作为列联表的列

用Y的r个值作为列联表的行

使用(xˇi,yˇj)表示一个联合事件

属性X的值为xˇi

属性Y的值为yˇj

即(X=xˇi,Y=yˇj)

每个单元都是(xˇi,yˇj)的

联合事件

oˇij是联合事件

(xˇi,yˇj)的观测频度

即实际计数

独立性检验的步骤如下

首先进行统计假设

Hˇ0

属性X和属性Y之间是独立的

即假设Hˇ1为

属性X和属性Y之间是相关的

第二步在假设无关的条件下

应用其独立同分布特点

计算出每个单元格的期望概率值

期望频数的计算

如公式所示

第三步自由度的确定

如公式所示

df=(r-1)×(n-1)

第四步 Pearson 卡方统计量的计算

如公式所示

其中

oˇij是联合事件(xˇi,yˇi)的观测频度（即实际计数）

而eˇij是(xˇi,yˇj)的期望频度

即观测频数减去期望频数的差的平方

除以期望频数后的和

其中

eˇij也可以通过下式计算

卡方检验就是统计样本的实际观测值

与理论推断值之间的偏离程度

实际观测值与理论推断值之间的偏离程度

决定卡方值的大小

卡方值越大

越不符合

卡方值越小

偏差越小

越趋于符合

若两个值完全相等时

卡方值就为0

表明理论值完全符合

第五步统计推断

χ^2>临界值

具有自由度df和显著水平α

拒绝假设H0

χ^2

接受假设H0

临界值需根据自由度和显著水平

查卡方检验临界值表获得

卡方分布本身是连续型分布

但是在分类资料的统计分析中

显然频数只能以整数形式出现

因此计算出的统计量是非连续的

只有当样本量比较充足时

才可以忽略两者间的差异

否则将可能导致较大的偏差

具体而言

一般认为

对于卡方检验中的每一个单元格

要求其最小期望频数均大于1

且至少有4／5的单元格期望频数大于5

此时使用卡方分布计算出的

概率值才是准确的

如果数据不符合要求

可以采用确切概率法进行概率的计算

即要求每个单元格中的期望频数

eˇij均大于1

或eˇij大于1小于5的单元格数

不超过总单元格数的1/5

当有eˇij<1

或eˇij大于1小于5的单元格较多时

可采用

并行并列

删行删列

增大样本含量的办法

使其符合行×列表

卡方检验的应用条件

例

对从事两种工种的某一年龄段

男性患某种疾病的情况进行调查

如下表所示

分析患某种疾病与从事工种是否相关

第一步统计假设

Hˇ0

假设某一年龄段

男性患某种疾病与从事工种不相关

第二步期望频数的计算

计算结果如表所示

期望频数在表中单元格的括号中

如

eˇ11等于从事工种一的总人数

乘以患病总人数

除以总人数

等于346.36

以此计算eˇ12

eˇ21 eˇ22

第三步自由度的确定

df=（2-1）*（2-1）=1

此处r=2 n=2

第四步卡方统计量的计算

如式所示

用每个观察频数

减去期望频数的差的平方除以期望频数

然后求和

卡方值是25.204

第五步统计判断

查询卡方检查临界值表

假设取显著水平α=0.05

自由度为1的临界值为3.84

卡方值25.204>3.84

因此拒绝假设H0

说明某一年龄段

男性患某种疾病与从事工种是相关的

或通过概率取判断

卡方值25.204>10.83

说明P<0.005

说明假设H0成立的概率P<0.005

也说明这两者是相关的

两个独立样本比较可以分为以下3种情况

1.所有的期望频数

eˇij≥5

并且总样本量m≥40

用Pearson卡方进行检验

2.如果期望频数eˇij＜5

但eˇij≥1

并且m≥40

用连续性校正的卡方进行检验

如公式所示

即

3.如果有期望频数eˇij＜1

或m＜40

则用精确概率检验

数据挖掘课程列表：

第1章概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章作业1

-第1章作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论（研究生班级）

第2章数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章作业1

-第2章作业2

-关于属性类型的讨论

-关于数据属性的讨论（研究生班级）

第3章数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

-3.3 数据集成

--3.3 数据集成

-3.4 数据归约

--3.4 数据规约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章作业1

-第3章作业2

-关于建立数据集的讨论（研究生班级）

-关于数据预处理的讨论（研究生班级）

-关于建立数据集的讨论（本科生班级）

-关于数据预处理的讨论（本科生班级）

第4章数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章作业1

-第4章作业2

-关于数据仓库和数据预处理的讨论（本科生班级）

-关于数据仓库价值的讨论（本科生班级）

-关于数据库与数据仓库的讨论（研究生班级）

第5章回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章作业1

-第5章作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论（研究生班级）

-回归分析的优缺点（研究生班级）

第6章频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章作业1

-第6章作业2

-关于Apriori算法的讨论（本科生班级）

-关于Apriori算法的讨论（研究生班级）

第7章分类

-7.1 分类概述

--7.1 分类概述

-7.2 决策树

--7.2 决策树（上）

--7.2 决策树（中）

--7.2 决策树（下）

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络（上）

--7.5 神经网络（下）

-7.6 分类模型的评估

--7.6 分类模型的评估（上）

--7.6 分类模型的评估（下）

--分类模型的评估

-第7章第一部分作业2（研究生班级）

-第7章第二部分作业2

-第7章第二部分作业1

-关于分类算法的讨论（本科生班级）

-关于分类算法的讨论（研究生班级）

-关于神经网络的讨论（研究生班级）

第8章聚类

-8.1 聚类概述

--8.1 聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类（一）

--8.2 基于划分的聚类（二）

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章作业1

-第8章作业2

-关于基于划分和基于层次的聚类的讨论（本科生班级）

-关于聚类的讨论（本科生班级）

-关于聚类算法的讨论（研究生班级）

-关于聚类与数据挖掘的讨论（研究生班级）

第9章离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测（一）

--9.2 离群点检测（二）

--离群点检测

-第9章作业1

-第9章作业2

-关于离群点检测的讨论（研究生班级）

3.3 数据集成笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。