当前课程知识点：大数据管理与挖掘 > 第2章大数据融合 > 2.2 大数据融合的方法论 > 2.2 大数据融合的方法论

返回《大数据管理与挖掘》慕课在线视频课程列表

2.2 大数据融合的方法论在线视频

下一节:2.3 数据融合技术

返回《大数据管理与挖掘》慕课在线视频列表

2.2 大数据融合的方法论课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们继续讲

我们第二章的内容

大数据融合的一些基本方法

在我们整个数据融合过程当中

我们整个融合的模式

我们可以从右上图可以看到

在这个过程当中

我们整个的数据以结构化数据为主

有统一的模式可循

所以呢

我们可以采用一种中介模式的方法

比方说我们经常见到的GAV

LAV这种

自上而下的模式呢

实现整个数据的融合

由此整个的大数据的融合方法

可以从以下几个方面进行解释

第一个就是模式对齐

由于我们数据源的模式存在异构性

所以我们整个数据的模式对齐

可以有效提高整个集成的效率

而模式对齐可以解决两个模式之间

的一致性问题

主要是利用属性名称

类型和值的相似性

以及属性之间的邻接关系

从而寻找源模式与中介模式的对应关系

目前主要采用演化模型

概率模型和深度匹配方法

来解决这个问题

具体而言

演化模型呢

主要是检测模式映射的演化

采用尽力而为

模糊回答的方式

解决了数据多样性和高速性所带来的问题

概率模型将中介模式

按语义表示成各种属性之间的聚类

由此呢

源模式会出现与其有不同程度对应关系的

多个候选中的中介模式

然后呢

根据查询需求为每个候选集的中介模式

分配一个备选概率来确定最佳映射关系

而深度匹配方法

主要面向概念层

基于潜在的语义匹配

而不仅仅依赖于可见的一些属性

接着我给大家讲解记录链接

而记录链接是从数据集中识别和聚合出

现实世界中同一实体的记录

这里面包括实体表象

即对相似度达到一定程度的阈值记录

从而实现聚类操作

也称共指识别

一般采用增量记录链接方法

它可以解决大数据的相互关联

对实体匹配的

局部决策和全局一致性的影响

以及数据更新

可以弥补整个聚类过程当中的一些

错误聚类

相似性一般根据领域知识来设定

匹配规则的度量

也可以采用机器学习训练分类的

这种方式来实现

或者利用编辑距离

或者欧氏距离来进行计算

由于大数据的海量性

所以在相似性计算之前

先根据实体的一个

或多个属性

将输入记录划分为多个块

进行块内比较

提高链接效率

目前主要采用的是

给予MapReduce这种并行式分块方法

和引入Meta-blocking

这种直接优化分块方法

接着我给大家介绍冲突解决方法

这里面冲突解决一般采用识别函数

目前主要采用分值发现

真实性评估

和演化建模三个步骤

真值发现从所有冲突的值中

甄别出正确的值

而真值可以不止一个

但多个真值之间在语义上相同

第二个就是

值的真实性评估采用投票策略

并进行独立性衰减

然后根据值的置信度

值的贝叶斯后验概率等

推理得到真值结果

而实体演化主要面向的是随着时间的变化

看似不相似的实体变得更像一个实体

或者说

把原本表示同一个实体的记录

因某些属性的改变

而变得不太像同一实体的情况

重点是对演化行为的建模

考虑各种数据源质量和值的

多样性因素在内的各种演化建模过程

接着我跟大家介绍认知计算

和人工智能视角上的各种融合

整个过程

我们可以从右图展示这个结构来看出来

首先从文本中识别出实体

实体之间的关系

然后再根据各种关系进行融合

可以看出实体链接它是一个核心

接着我给大家介绍本体对齐

本体是针对特定领域中的概念而言的

对于知识图谱的模式层

是一种概念模块

用来弥补词汇

异构性

和语义歧义的间隙

是知识库中各种主体进行交流的基础

本体对齐主要解决本体不一致性的问题

需要识别本体演化

大概分为本体演化管理

不一致性预防

与处理和对齐模式相挖掘这种关系

而实体链接是识别实体

或者说实体的识别

主要是从文本中识别相似的实体

和消除实体歧义

并将表示同一实体的实体

表象聚类到一起

相似指多个命名实体表象之间

对应一个真实实体

歧义主要指一个实体表象

可对应到多个真实实体之间

一般借助知识库完成关联

而这种关联分为可链接和不可链接两种

不可链接

主要是指知识库中不存在对应实体的情况

否则可视为链接

而可链接关系的核心

是在知识库中找到最优的匹配实体

通过产生候选集对象

并对其排序而得到

接着我给大家介绍KB自适应发展

为了使我们知识库的内容与时俱进

需要对知识图谱进行不断迭代更新

更新的内容包括概念

实体

关系

和属性值

大多是从半结构化数据

或者说从无结构化数据中抽取而得到的

称之为直接知识

也有从现存的知识库

关系数据库

和以半结构为化形式的存储的历史数据中

直接转化而来

这种数据呢

我们称之转化为转化知识

而转化知识知识质量越高

只需要进行冲突检测

消除冗余即可扩充到知识库

直接知识分布比较零散

质量比较低

需要先抽取再进行评估

由此呢

对两种融合方法进行对比分析

第一个就是对应关系

模式对齐与本体对齐的对应关系来讲

它们都是为了提高融合效率而提出的

记录链接

冲突解决

与实体链接的对应关系

它们主要用于解决实体表示歧义

或数据不一致的情况

负责从数据库中识别

和聚类表示现实中的

同一对象的潜在实体

第二个就是它们的共同特点

在这里面

它们缺乏变粒度数据资源的自适应模型

第二个就是我们的融合步骤之间缺乏感应

第三个就是缺乏理解

和揭示数据背后的深层意义

第四个就是数据溯源机制比较缺乏

由此呢

我们探讨大数据融合的一些基本的范式

从我们右图展示的过程来讲

整个数据融合过程

涉及到我们的本体的对齐

本体的各种模型的构建

和我们范式的选择等等

针对我们大数据融合的范式

主要通过双环协同

相互启发

动态演化地逐步探索大数据融合的问题

并且融合过程的每个步骤

都是大数据价值的一次提升过程

其中数据融合和知识融合

不是相互独立而存在的

知识融合过程当中

获取的知识可作为数据融合的参考因素

辅助数据融合

而数据融合

也不仅仅是为知识融合提供集成化的数据

其中的一些基本方法

同样对知识融合有借鉴作用

由此呢

整个双环驱动特点呢

分以下几个方面

第一个就是3个内部反馈

主要包括数据融合内部的实体识别

与冲突的解决

第二个知识融合内部的关联关系

推演与深度知识发现相融合

第三个知识融合内部的知识构建与建模

与普适机理相互凝聚

第二个就是

2个跨界的启发

这包括两个方面

冲突解决与关系推演之间的跨界启发

第二个就是实体识别和深度发现相融合

第三个就是4个全局驱动枢纽

主要包括以下几个方面

用于细化融合并提供接口的知识晶格

用于实现跨媒体

跨领域的知识学习

和跨专业

跨学科的知识复用的迁移学习

和提高可解释性

和可操作性的数据溯源

第四个就是对于大数据驱动演化

海量性和高速性的处理

这是我们第二节的

数据融合的基本方法的介绍

我介绍到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

2.2 大数据融合的方法论笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。