当前课程知识点：大数据管理与挖掘 > 第2章大数据融合 > 2.5 大数据融合的驱动枢纽 > 2.5 大数据融合的驱动枢纽

返回《大数据管理与挖掘》慕课在线视频课程列表

2.5 大数据融合的驱动枢纽在线视频

下一节:2.6 小结

返回《大数据管理与挖掘》慕课在线视频列表

2.5 大数据融合的驱动枢纽课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们这节讲

大数据融合的驱动枢纽

数据融合与知识融合是一个相互启发

相互协调

相互融合的过程

两者之间需要一个纽带进行衔接

我们把整个衔接纽带叫做智能晶格

数据融合与知识融合

还受一些共同因素的影响

比如动态演化性

海量性和高速性

而这些因素直接影响到融合技术

智能晶格的本质功能是

用于桥接数据融合和知识融合

并对外提供使用接口

它应具备两个功能

一是用于优化知识的结构

方便获取知识库中不同层次

不同粒度的关系数量和知识结构

可以完成有效的数据存储

更新和查询操作

二是对知识库的一种语义关系进行操作

需要具有自适应性

演化性和可溯源性

与知识库相互协调

智能晶格可以认为是一种操作

从数据存储的角度来看

它是知识库的一种物理索引关系

和索引方法

用于实现数据的分层次组织

从数据的呈现上看

它是知识库的不同层次

不同粒度的关系

数量和知识结构的概要

为知识融合提供变粒度的数据资源

接着我给大家介绍迁移学习

而迁移学习是为了解决

跨媒体

跨领域

跨学科

跨行业体系的

大数据融合问题而提出的

它主要针对跨媒体

跨领域知识的学习

和跨学科

跨行业体系的知识的复用

具体来讲

它整个过程包括以下几个方面

第一个就是跨媒体

跨领域的知识学习

跨大数据融合的这种对象

具有多样性

它可以是结构化数据

比如表格列表

非结构化数据

比如文本图象视频

半结构化的社会媒体数据

包括微博博客等数据

也可以是知识

比如规律

模型

机理等

它不仅可以以多种形式并存

而且还会出现在不同领域中

由此出现多类型

跨领域知识的融合现象

针对这种跨领域的多形式数据

进行数据融合

它的过程不是简单的匹配融合

还需要充分考虑各种数据形式的特点

同时需要研究它们之间的差异性

所以

如何实现各种数据的差异性融合

或者说梳理好各种差异性

这是数据融合所面临的一个巨大挑战

第二个就是跨学科

跨行业体系的知识复用

如何将一个行业体系中的知识

进行深度学习

或者说深度的挖掘

进行普适机理的研究

从而以降低成本

以直观快速高效地应用到行业的体系当中

这也是目前研究的一个焦点

一个普遍的想法是

如何出现了类似情境

可以利用已有的结论提出假设

在相同的环境下

设置调整一个或多个变量的因素

观察事态变化以验证假设

而这一过程的核心在于

将可控模型模仿的方法

大数据融合的理论与实际技术相结合

围绕现实中的特定问题

依据大数据融合理论

而得到相关的历史知识

经验

包括规律

性质

机理

现象等

结合特定领域或情境下的知识

通过模拟

仿真的手段

生成相应的可执行方案

可控模型等

大数据融合理论

与实际应用相结合的这种

迁移学习方法

将成为一种大数据时代的

一种发展趋势

接着我给大家解释

数据溯源

大数据融合过程对用户来说是透明的

它缺乏可解释性和可操作性

并且大数据的海量性和动态演化

加大了错误恢复的难度

传统融合方法

在这个方面没有充分的考虑

因此

追溯融合结果的数据

它的来源及其演化过程

以便于时及时发现和更新这种错误

数据溯源的关键在于

数据起源的表示

以及数据演化过程当中的跟踪

这其中

中间过程包括

实体识别和冲突解决过程

知识库自适应发展过程

以及知识推理和知识深层次的发现过程

首先

对整个数据溯源过程进行解释

具体包括以下方面

首先

需要建立知识获取的溯源机制

主要回答每条关联数据

它的来源与它的数据源

是否经过了哪些操作

比如实体关系和属性的抽取

这些数据的溯源对于判定数据的可信性

可靠性非常重要

然后

需要建立实体识别溯源机制

用于跟踪融合结果

由哪些特定的实体产生

最后

建立冲突解决溯源机制

用于处理融合结果中

元组中的每个值

来源于哪些记录的哪个属性

以及通过何种冲突解决方法而得来

接着我为大家介绍

知识推演和深度发现过程中的

知识溯源

这里面

不仅需要面向用户返回系统产生的答案

还需要向用户展示答案的来源和证据

与传统的关系数据库中的溯源问题

基于关系代数的执行过程有所不同

这具体的不同在于

在知识推演和深度知识发现过程当中

多了一个自然语言问题的理解的过程

由此呢

需要统一的推理和发现问题

进行整个过程的知识表达和模型构建

根据该模型给出的溯源的答案

而整个维护机制

需要花费很多时间和空间

由此如何提高溯源的查询性能

同时降低溯源的时间代价

这也是目前亟待解决的问题

接下来我给大家介绍D&2V处理方法

制约传统方法

在大数据中使用的3个主要因素是

大数据的动态演化特性

高速性和海量性

简称D&2V

而知识的动态演化过程

贯穿着整个数据的融合过程当中

其中最为重要的两项工作是

①对动态变化的跟踪

知识演化的建模

对于大数据的特殊性

需要考虑变化的复杂性

比如语义关系等

最好能从中挖掘出概念模型

以及对应的数据的高速性和海量性

②应对动态性给出数据存储

索引所带来的挑战

而动态性是影响大数据融合的关键因素

亟待解决

由此呢

要保证大数据的海量性

和高速性的

已得到了以下的解决思路

(1)我们的近似性计算

采用近似计算替代原来的精确计算方法

(2)简约计算

通过核数据采样等手段

实现模型的简约和算法的快速收敛

达到简约计算

比如

发现全量全模态数据中的核数据进行近似

或者通过采样

实现多重小样本对全量数据的有效近似

(3)分治计算

即通过数据化为零的这种手段

实现计算的约简

达到算法层面的横向扩展

比方说我们可以利用网格计算

MapReduce和参数化的服务

(4)增量计算

针对数据相对于增量远小于

绝对其基数的现象

采用增量计算理论

需要支持流式数据的实时OLAP的分析

这是我们第五节的内容

我介绍到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

2.5 大数据融合的驱动枢纽笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。