当前课程知识点：大数据管理与挖掘 > 第2章大数据融合 > 2.4 知识融合技术 > 2.4 知识融合技术

返回《大数据管理与挖掘》慕课在线视频课程列表

2.4 知识融合技术在线视频

下一节:2.5 大数据融合的驱动枢纽

返回《大数据管理与挖掘》慕课在线视频列表

2.4 知识融合技术课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们继续讲我们第四节内容

知识融合技术

知识融合是将数据融合阶段获得的

笼统的知识

转化为可领会的知识

面向需求提供知识服务

它需要挖掘隐含知识

寻找潜在的知识关联

进而实现知识的深层次的理解

以便更好地解释数据

知识融合的基本步骤

我们可以从以下几个方面

进行展示出来

①对知识进行抽象和建模

为后续知识融合提供方便

②通过对表层知识的推理

理解

得出显性深度知识

如通过多路径关系推理得到间接知识

③通过推理

归纳等方法发现隐式深度知识

比如类比关系等等

④对知识资源

深度知识等进行剖析

解释

归纳出普适的机理

具体从以下几个方面进行介绍

第一个就是知识的抽象与建模

知识抽象与建模

主要根据数据的分布规律

归纳出数据的结构规则

进而抽象出数据之间的关联模式

来表示知识的过程

而知识可以以非结构化的形式

比如XML

JSON

CSV等形式来表示

也可以直接关系来进行表示这样的关系

目前呢

主流表示方式是RDF

这里面通过主语

谓语

宾语三个元组来进行建模和表示

其中主语是实体

谓语是关系

宾语既可以是实体直接

也可以是实体的基本属性

知识图谱

通常建模以RDF图

或者嵌入表示为低维向量空间

这其中的难点在于数据关系以多粒度并存

相互嵌套

复杂关联

面对大数据需要简化这种表达方式

具体来讲

RDF的三元关系

这种关系是以RDF图的形式来表示

RDF的图主要指

由RDF三元组按照关联关系

这种链接形成的一种图

在RDF知识图谱当中

相似的实体很可能相互关联

相邻的节点或者有路径相关的节点

很可能也相似

一般采用局部相似

全局相似

和准局部相似这种方法来讲

具体来讲

局部相似性

计算只依赖于直接关联的实体

不能模拟大范围的依赖关系

而全局相似主要考虑

所有路径上的实体

预测性能比局部相似性比较好

但计算的代价比较高

准局部相似方法

通过路径实体的相似度

和有限长度的随机游走方式

平衡了预测精度和计算复杂度

RDF图既不损失语义关联

又能很好地表示知识

它的一个难点是

需要对RDF图所携带的三种信息

包括描述性属性

语义关系

以及两者兼顾的语义图结构

进行概念描述

而这一步

对后续的知识发现特别重要

由此呢

嵌入式表示

将实体和关系表示为低维向量

并且定义一个评分函数

来确定元组的合理性

主要模型有

双线性模型

多层感知模型

和潜在的距离模型

具体来讲

多层次感知模型参数比较复杂

潜在距离模型将实体和关系表示为

高斯分布

或映射为超平面中的中心点

具体采用嵌入表示方法来进行表示

而这种表示的目的主要在于

为了缓解数据的稀疏性

建立统一的语义表示空间

实现知识迁移

它的挑战在于

缺乏对各种语言单位统一的

语义表示与分析等手段

嵌入表示和图的特征

这里面它们相互互补

前者擅长通过引入新的

潜在变量建模

来进行表示全局关系

并且当元组可以用少量的

隐含量进行解释的时候

它计算效率很高

后者擅长建立局部和准局部的图模性

并且当元组可以由临近实体

或者与其较短路径的实体解释的时候

计算效率比较高

接着我为大家介绍关系推演

关系推演可以看作显式深度知识发现过程

包括二元关系推理

多路径关系推理

和演化性关系推理

具体来讲二元关系推理

主要根据历史知识

预测两个实体之间可能存在的关联关系

或者给定一个实体

或者说一种关系

预测与其对应的实体

这种预测的关键在于实体和关系的表示

而多路径关系推理

它的难点在于组合语义模型的设计

和推理关系的可用性确定

与知识表示形成相互之间密切的关系

而关系演化建模中的关系

可以是属性关系

也可以是语义关系

所以需要对关系变化进行细粒度的分析

此外

还需要考虑深度知识发现过程的反馈结果

而关系推演方面

目前研究的重点是

直接关系

和多路径关系的推理

缺乏对关系之间复杂模式的考虑

比如自动通过元组

人离不开空气

这样的推理模式

推理出鱼离不开水

这样的一种类比关系

而关系推演还可以借助于知识表示

这种方法来进行表示

目前有嵌入式表示和RDF图这种表示方法

嵌入式表示方法存在复杂的表示关系

以及系统可扩展性不能兼容这种问题

采用RDF图表示方法时

传统的图相似性计算

只考虑的是图结构的相似性

典型的如图结构的这种编辑距离

和最小公共子图等

显然

这种量度呢

不能够很好地反映出语义上的相似性

有时候

实现图结构的编辑距离比较大

但是它们的语义比较等价

所以采用RDF图来表示

这时候需要重点考虑语义之间的关系

无论采用哪种表示方法

都需要考虑推理关系

它的可靠性和可信性

当然了在这过程当中还要考虑推理关系

所以说

大数据融合过程是一个

跨领域

跨语言

跨数据源的大融合

不同领域

语境和数据源之间的数据

也可能是关联的

所以说

关系推理也不应该限定在单一知识库内

而应该是跨领域

跨语言

跨数据源的知识推理

这才是大数据融合的一个

主要的一个方面

由此呢

关系推演的结果

对数据融合

深度知识发现

和普适机理形成的关系至关重要

应该将推理结果扩充到知识库

这样做是具有挑战性的

首先

推理结果准确性低

冗余度高

将其加入知识库之前

通常需要进行可证明性检测

和冲突检测

来避免知识库中知识的矛盾和冗余性

其次

这样做会导致融合的规模不断增加

所以需要合理的控制融合规模

保证融合结果的可用性

接着我为大家介绍

深度知识发现

深度知识包括高阶多元关系

和隐含语义关系

深度知识发现

对知识融合过程非常重要

尤其是隐式深度知识发现

它通常包括以下3个方面

可以从以下图看出来

在这里面

① 关系型深度知识

比方说类比关系

上下位关系

因果关系

正负相关关系

和频繁关系等等

② 数据分布型深度知识

它包括知识服从某些数据的分布

比如高斯分布

幂函数分布和长尾分布等等

这里面我们可以举个例子

当我们关注少于105的社交网络数据节点时

分布通常服从指数分布这种规律

③ 性质型深度知识

包括知识具有某种特性

比如局部封闭世界

长城记忆和无标度等等

常见的比如知识图谱中

建模过程当中

涉及到的假定满足局部的封闭世界等

深度知识

通常通过领域理论

运用数学

物理学等工具

进行物理建模和理论建模

解析

逻辑

甚至公式推演和证明等等

比如采用统计分析和深度学习的方法

可以进行挖掘

这里包括以下几个方面内容

第一个就是统计分析用于发现微观规律

待检验的一些深度知识

对它们进行推理

而深度学习呢

可以用于对推理建模和进行验证

第二个就是

深度学习根源于类神经网络模型

一般步骤为设定好类神经网络架构

制定出学习目标

开始进行学习

深度知识发现

它的难点在于

有记忆力的深度学习模型的构建过程

由此在整个实际应用过程当中

知识库的构建

为保证知识库应用的有效性

通常仅保留与业务相关的相关知识

而放弃与其发现的深度知识

但是发现的深度知识

对关系推演具有很好的参考价值

对数据融合具有启发作用

所以有必要将获得的深度知识

融入到知识库当中

接着我给大家介绍

普适机理的剖析和归纳

目前

知识融合依然缺乏对知识资源中

存在关系的普适化

为此

我们首先从理性和直觉中

建立问题的模型

通过对数据呈现的关系进行概括性描述

或者归纳性学习

从而得到普适模型

然后将模型与数据结合

提供适当的泛化能力

比如

Google大脑

可以通过深度学习

无监督地辨别任何猫

由此人的智力能够透过现象看到本质

只有发现大数据中

呈现出的各种普遍现象

它们背后所存在的一些原理

从而揭示

客观世界中的一些现实性

比如

网络在宏观上具有幂分布现象

它们背后的普适原理是

增长和择优机制

在复杂网络中的自组织演化

可以将其作为知识建模

深度知识发现和关系推演的一个参考因素

从而提高融合的有效性

具体的普适机理的实验过程

可以从以下四个方面

进行看出来

(1)采用统计

物理方法

从大量的实例当中收集和组织经验事实

发现规律

剖析内在原理

归纳宏观现象

提出普适性假设

(2)利用领域理论

比如运用数学

物理等工具

进行理论建模

形成可测试的推论

(3)通过仿真模拟的方法进行验证推论

评估假设和模型

如果

假设和机理

不能够很好地解释实验中出现的各种现象

则需要进一步的修正假设和模型

直到整个过程可以很好的解释性为止

(4)提出规律性

进一步接受实证数据的检验

直至整个过程得到认可为止

这是我们第四节的内容

我讲到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

2.4 知识融合技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。