当前课程知识点：大数据管理与挖掘 > 第2章大数据融合 > 2.3 数据融合技术 > 2.3 数据融合技术

返回《大数据管理与挖掘》慕课在线视频课程列表

2.3 数据融合技术在线视频

下一节:2.4 知识融合技术

返回《大数据管理与挖掘》慕课在线视频列表

2.3 数据融合技术课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们这节讲第三节内容

数据融合技术

数据融合需要用动态的方式

统一不同的数据源

将离散的数据转化为统一的知识资源

传统的流线式的融合

不再满足现有的融合需求

而面对新的融合需求

大数据融合显得就更为重要

而整个的数据融合实现步骤

我们可以从以下几个方面可以看到

第一个就是对齐本体

模式

加速融合效率

第二个识别相同实体

链接关联实体

第三个就是甄别真伪

合并冲突数据

并将处理结果反馈给实体识别阶段

提高识别效率

第四个就是动态更新知识库

保持知识的与时俱进

由此呢

我们具体介绍一下

模式和本体的对齐

而模式和本体对齐是大数据融合的前提

用于提高融合效率

重点解决对齐演化引起的不一致性

而大数据的海量性和演化性

导致事后补救的难度比较大

所以呢

需要采取

以防为主

防治结合的这种策略

本体演化关注原子本体的演化和它的描述

本体依赖于实体和合作方式

当领域表示发生演变频繁

或者有新的需求必须要考虑的时候

本体也会频繁和连续地发生变化

并且通常本体发生较大

或构建它的代价过大时

由此呢

在这过程中

本体必须能够适应演化

修改和修进

从而保持本体的一致性

然而

整个过程极具挑战性

因此

它往往很难理解本体变化

这部分所带来的影响

所以

需要对本体进行建模

通常建模沿用OWL

它能够有效地捕捉静态语义

但不能满足本体实体之间的

相互发生变化的一致性检测

因此不足以用于形式化的变化

目前大多研究都是对本体变化的量化

并没有对不一致性进行充分的研究

即便是给出了解决不一致性的

问题的一些方法

也是不一致性发生以后的解决方法

需要执行变化

并使用额外的资源来监测本体的一致性

因此缺乏预防措施来避免不一致性发生

由此呢

我们介绍

第二个内容就是实体链接

实体链接是数据融合的基础

实体链接也称为记录链接

实现步骤包括分块

两两匹配和聚类

典型的就是BDF@C&A

这其中实体链接的实现步骤包括

实体识别

实体消歧

和共指识别

实体识别与两两匹配

共指识别与聚类作用相当

而实体消歧包括

BDF@DB中的冲突解决过程当中

所以将大数据融合当中的

实体链接步骤基本分为

分块

实体识别

和共指识别

它们的不同之处在于如下几个方面

第一个

实体的属性特征

以及所指的语义环境

语境信息

冲突实体的解决结果

和共指识别的结果

都可能对实体识别产生影响

第二个就是

实体之间的语义关联它们比较强

并且存在演化性

而现有的方法

并没有考虑可靠性和更新程度

由此呢

局部决策对与之相关的关系产生了影响

并且直接面向动态数据

演化模型依赖于训练数据集

和演化证据的质量

匹配精度比较高

但时间代价

并不是大数据所能够承受的

第三个呢

需要识别新实体和新关系

这是知识库扩充的必要手段

推演出的新知识

发现的深度知识

以及得到的普适机理

都有可能对实体识别起到启发作用

所以

反馈结果极为重要

大数据中的实体识别

不仅需要与数据融合中的冲突解决

共指识别形成内部反馈机制的迭代优化

还需要与知识融合中的深度知识发现

形成跨环启发

第四个就是复杂关联关系

存在适用范围比较广

准确率等方面还有一定的不足

第五个就是大数据融合面向短文本

跨语言

跨领域的融合迈进

接着我跟大家介绍

冲突解决

那么冲突是我们整个过程当中

它需要解决的一种消歧的一种方法

在这里面

知识结合我们整个演化过程的关系

起到了很大的作用

需要将这种新知识驱动

引入到我们冲突解决过程当中

并保持这种知识的演化行为

所以

冲突解决应该经历真伪鉴别

不确定性综合合并

和演化建模这样一些的步骤

所有的冲突解决都有一个假定前提

而假定模式对齐和冲突解决

都可以在整个模式识别过程当中完成

所以说

冲突解决是大数据融合的必要条件

它的第一要务是消歧

大数据的真实性

和演化性是引发冲突的导火线

如果我们数据本身的新鲜程度和贡献

给特定的查询

这就引发了新鲜度和价值量不同的

多真值问题

需要评估信息的质量

合并不确定性信息

消歧的基本方法

依赖于实际参照数据的可用性

比如数据的标注

参照数据一般来源于维基百科

缺乏领域知识

比方说和针对性

这使得实用性变差

对于其他领域

比如说新闻

仅有一小部分标注性样本可用

所以

采取超跨越的这种消歧策略

对于不确定因素来讲

这主要难点在于针对新鲜度和价值量

不等同的多值问题

需要如何设计质量问题成了关键

接着呢

我给大家介绍

知识库自适应发展

知识库是数据融合的结果

也是大数据融合的中转站

随着数据的产生

信息的传播

会有源源不断的知识扩充到知识库

而知识库通常包含三种知识

即从数据源抽取的直接知识

由现存知识库

关系数据库

和以半结构化数据形式存储的

历史数据直接转化而来的知识

以及知识融合反馈来的深度知识

具体来讲

我们知识库的生命周期分为3个阶段

第1阶段是自适应抽取策略抽取直接知识

构建基本知识库或扩充库

第2阶段

用转化知识和深度知识

通过自动化增量更新扩冲的知识库

第3阶段定位事实和溯源知识库

具体来讲

自适应抽取

首先需要

设定语法

语义的抽取模式

然后采用自调整和反馈调整

这种方式来进行抽取

具体表现为如下两个方面

第一个就是

自调整通常采用模糊本体技术

识别以概率方式

而检测的这种信息的可能性

第二个就是

反馈调整主要是借助抽取结果信息

以及知识融合过程当中的反馈回来的信息

来调整抽取模式

对于更新策略

目前大多采用人工干预的增量更新方法

但是随着知识库的不断积累

依靠人工制定更新策略

或者逐条检测将不能满足需求

所以需要采取自动化

批量更新的方法

这样必须确保自动化更新的过程有效性

而知识库的自适应发展需要动态的方式

统一不同的数据源

这个过程对用户来说就是透明的

而缺乏可解释性和可操作性

并且

大数据的海量性和动态演化过程

而加大了错误恢复的难度

所以需要建立知识库的可溯源机制

对于获取的3种知识

所包含的实体

关系

以及实体属性信息中可能包含大量冗余信息

和错误信息

所以需要通过实体链接技术

和冲突解决技术

对实际和关系进行统一化处理

从而呢以减少数据的冗余

并且直接抽取关系都是扁平化的关系

缺乏层次性和逻辑性

需要对这种概念表达方式

进行统一化处理

并将我们的本体融入到本体库

3种知识中转化知识

属于高质量知识

可以使用现成的转换工具直接进行转换

而直接知识质量比较低

还需要对齐以进行验证和评估

以确保知识库中内容的一致性和准确性

通常采用的方法是

在评估过程当中

以新加入的知识赋予可信度

据此进行知识的过滤和融合

这是我们第三节

数据融合的内容

我讲到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

2.3 数据融合技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。