当前课程知识点:数据挖掘 > 第3章 数据预处理 > 3.3 数据集成 > 3.3 数据集成
数据集成
主要是在数据分析任务中
把不同来源、格式、特点和性质的数据
合理地集中并合并起来
从而为数据挖掘提供完整的数据源
这些数据源包括
多个数据库
数据立方体或一般文件
然后存放在一个
一致的数据存储中
有助于减少结果数据集的
冗余和不一致
可以提高
在这之后的挖掘过程的
准确性和速度
它需要统一原始数据中的
所有矛盾之处
如字段的
同名异义
异名同义
单位不统一
字长不一致等
集成过程中需要注意两个问题
集成的过程中涉及的
实体识别问题及冗余问题
首先是
集成的过程中涉及的实体识别问题
这个问题主要是来自
多个信息源的现实世界产生的
“匹配”问题
需要整合不同数据源中的元数据
以便进行实体识别
例如
一个数据库中的“brand”
和另一个数据库的“product”
虽然名称不同
但指的是同一实体
通常
数据库和数据仓库中的元数据
即关于数据的数据
可以帮助避免模式集成中的错误
冗余问题是指
同一属性在不同数据库
或同一数据库的不同数据表中
会有不同的字段名
如student_id
和student_num
在不同的数据表中都表示学号
但名称使用不同
或一个属性可以由另外的属性导出
如
一个顾客数据表中的平均月收入属性
可以根据月收入属性计算出来
有些数据冗余
可以通过相关性分析来检测
对于数值属性
可以使用相关系数和协方差
进行相关性分析
对于标称数据
可以使用卡方检验进行相关性分析
首先介绍数值属性的相关系数
相关系数是
最早由统计学家卡尔·皮尔逊
设计的统计指标
是研究变量之间线性相关程度的量
是用以反映变量之间
相关关系密切程度的统计指标
由于研究对象的不同
相关系数有多种定义方式
较为常用的是皮尔逊相关系数
属性X和Y的相关度
使用皮尔逊相关系数
rˇX,Y来表示
如公式所示
式中的m代表的是元组的个数
xˇi是元组i在属性X上的值
yˇi是元组i在属性Y上的值
X 平均表示X的均值
Y 平均表示Y的均值
σˇx表示X的标准差
σˇY表示Y的标准差
表示每个元组中X的值乘以Y的值
且rˇXY的取值范围为
-1≤rˇX,Y≤1
如果rˇX,Y>0
则X和Y是正相关的
也就是说
X值随Y值的变大而变大
如果 rˇ(X,Y)的值较大
数据可以作为冗余而被删除
如果rˇX,Y=0
则X和Y是独立的且互不相关
如果rˇX,Y<0
则X和Y是负相关的
也就是说
X值随Y值的减小而变大
即
一个字段随着另一个字段的减少而增多
例
数值属性的相关性分析
如表所示
已知体重与血压的12个样本数据
试判断其相关性
计算体重和血压的均值和标准差值
如表所示
通过公式rˇX,Y
计算相关系数
等于-0.112
由于rˇX,Y<0
可知体重和血压是负相关的
需要注意的是
相关性不代表因果关系
假设X和Y具有相关性
不能代表X导致Y或者Y导致X
下面介绍数值属性的协方差
在概率论和统计学中
协方差用于衡量两个变量的总体误差
而方差是协方差中
两个变量相同的一种特殊情况
协方差也可以评估两个变量的相互关系
设有两个属性X和Y
以及有m次观测值的集合
xˇ1,yˇ1
xˇ2,yˇ2
一直到xˇm,yˇm
X与Y之间的协方差定义如公式所示
式中的m代表的是元组的个数
E(X)和E(Y)分别为X和Y的期望
即均值
当Cov(X,Y)>0时
表明X与Y正相关
当Cov(X,Y)<0时
表明X与Y负相关
当Cov(X,Y)=0时
表明X与Y不相关
如果两个变量的变化趋势一致
也就是说
如果其中一个大于自身的期望值时
另外一个也大于自身的期望值
那么两个变量之间的协方差就是正值
如果两个变量的变化趋势相反
即其中一个变量大于自身的期望值时
另外一个却小于自身的期望值
那么两个变量之间的协方差就是负值
如果X与Y是统计独立的
那么二者之间的协方差就是0
因为两个独立的随机变量满足
E[XY]=E[X]E[Y]
但是
反过来并不成立
即如果X与Y的协方差为0
二者并不一定是统计独立的
假设属性X和Y是相互独立的
即它们不具有相关性
有
E(XY)=E(X)E(Y)
协方差的公式为
但是
它的逆命题是不成立的
例
数值属性的协方差计算
求上例中血压是否会随着体重一起变化
设血压为X
体重为Y
首先计算血压和体重的期望
如式所示
X的期望值等于63.83
以此类推
相同计算
体重的期望值为118.33
然后计算协方差
如公式所示
协方差等于相关系数乘以血压的标准差
再乘以体重的标准差
等于-28.10
其中标准差采用样本标准差计算
对于标称数据
两个属性X和Y之间的相关关系
可以通过卡方检验发现
卡方检验值
即卡方统计量是指数据的分布
与所选择的预期
或假设分布之间的差异的度量
在1900年由英国统计学家pearson提出
是用于卡方检验中的一个统计量
它可用于检验类别变量之间的
独立性或确定关联性
原假设为两个类别变量是相互独立的
如果与卡方统计量相关联的概率值p值
小于选定的检验显著水平α
检验将拒绝两个变量彼此独立的原假设
独立性检验一般采用
表格的形式记录观察结果的计数资料
这种表格称为列联表
假设属性X有n个不同值
分别为xˇ1,xˇ2,⋯,xˇn
Y有r个不同值
分别为yˇ1,yˇ2,⋯,yˇr
n乘r列联表如表所示
列联表是用X的n个值作为列联表的列
用Y的r个值作为列联表的行
使用(xˇi,yˇj)表示一个联合事件
属性X的值为xˇi
属性Y的值为yˇj
即(X=xˇi,Y=yˇj)
每个单元都是(xˇi,yˇj)的
联合事件
oˇij是联合事件
(xˇi,yˇj)的观测频度
即实际计数
独立性检验的步骤如下
首先进行统计假设
Hˇ0
属性X和属性Y之间是独立的
即假设Hˇ1为
属性X和属性Y之间是相关的
第二步在假设无关的条件下
应用其独立同分布特点
计算出每个单元格的期望概率值
期望频数的计算
如公式所示
第三步 自由度的确定
如公式所示
df=(r-1)×(n-1)
第四步 Pearson 卡方统计量的计算
如公式所示
其中
oˇij是联合事件(xˇi,yˇi)的观测频度(即实际计数)
而eˇij是(xˇi,yˇj)的期望频度
即观测频数减去期望频数的差的平方
除以期望频数后的和
其中
eˇij也可以通过下式计算
卡方检验就是统计样本的实际观测值
与理论推断值之间的偏离程度
实际观测值与理论推断值之间的偏离程度
决定卡方值的大小
卡方值越大
越不符合
卡方值越小
偏差越小
越趋于符合
若两个值完全相等时
卡方值就为0
表明理论值完全符合
第五步 统计推断
χ^2>临界值
具有自由度df和显著水平α
拒绝假设H0
χ^2
接受假设H0
临界值需根据自由度和显著水平
查卡方检验临界值表获得
卡方分布本身是连续型分布
但是在分类资料的统计分析中
显然频数只能以整数形式出现
因此计算出的统计量是非连续的
只有当样本量比较充足时
才可以忽略两者间的差异
否则将可能导致较大的偏差
具体而言
一般认为
对于卡方检验中的每一个单元格
要求其最小期望频数均大于1
且至少有4/5的单元格期望频数大于5
此时使用卡方分布计算出的
概率值才是准确的
如果数据不符合要求
可以采用确切概率法进行概率的计算
即要求每个单元格中的期望频数
eˇij均大于1
或eˇij大于1小于5的单元格数
不超过总单元格数的1/5
当有eˇij<1
或eˇij大于1小于5的单元格较多时
可采用
并行并列
删行删列
增大样本含量的办法
使其符合行×列表
卡方检验的应用条件
例
对从事两种工种的某一年龄段
男性患某种疾病的情况进行调查
如下表所示
分析患某种疾病与从事工种是否相关
第一步 统计假设
Hˇ0
假设某一年龄段
男性患某种疾病与从事工种不相关
第二步 期望频数的计算
计算结果如表所示
期望频数在表中单元格的括号中
如
eˇ11等于从事工种一的总人数
乘以患病总人数
除以总人数
等于346.36
以此计算eˇ12
eˇ21 eˇ22
第三步 自由度的确定
df=(2-1)*(2-1)=1
此处r=2 n=2
第四步 卡方统计量的计算
如式所示
用每个观察频数
减去期望频数的差的平方除以期望频数
然后求和
卡方值是25.204
第五步 统计判断
查询卡方检查临界值表
假设取显著水平α=0.05
自由度为1的临界值为3.84
卡方值25.204>3.84
因此拒绝假设H0
说明某一年龄段
男性患某种疾病与从事工种是相关的
或通过概率取判断
卡方值25.204>10.83
说明P<0.005
说明假设H0成立的概率P<0.005
也说明这两者是相关的
两个独立样本比较可以分为以下3种情况
1.所有的期望频数
eˇij≥5
并且总样本量m≥40
用Pearson卡方进行检验
2.如果期望频数eˇij<5
但eˇij≥1
并且m≥40
用连续性校正的卡方进行检验
如公式所示
即
3.如果有期望频数eˇij<1
或m<40
则用精确概率检验
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2