当前课程知识点:大数据管理与挖掘 > 第2章 大数据融合 > 2.4 知识融合技术 > 2.4 知识融合技术
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
我们继续讲我们第四节内容
知识融合技术
知识融合是将数据融合阶段获得的
笼统的知识
转化为可领会的知识
面向需求提供知识服务
它需要挖掘隐含知识
寻找潜在的知识关联
进而实现知识的深层次的理解
以便更好地解释数据
知识融合的基本步骤
我们可以从以下几个方面
进行展示出来
①对知识进行抽象和建模
为后续知识融合提供方便
②通过对表层知识的推理
理解
得出显性深度知识
如通过多路径关系推理得到间接知识
③通过推理
归纳等方法发现隐式深度知识
比如类比关系等等
④对知识资源
深度知识等进行剖析
解释
归纳出普适的机理
具体从以下几个方面进行介绍
第一个就是知识的抽象与建模
知识抽象与建模
主要根据数据的分布规律
归纳出数据的结构规则
进而抽象出数据之间的关联模式
来表示知识的过程
而知识可以以非结构化的形式
比如XML
JSON
CSV等形式来表示
也可以直接关系来进行表示这样的关系
目前呢
主流表示方式是RDF
这里面通过主语
谓语
宾语三个元组来进行建模和表示
其中主语是实体
谓语是关系
宾语既可以是实体直接
也可以是实体的基本属性
知识图谱
通常建模以RDF图
或者嵌入表示为低维向量空间
这其中的难点在于数据关系以多粒度并存
相互嵌套
复杂关联
面对大数据需要简化这种表达方式
具体来讲
RDF的三元关系
这种关系是以RDF图的形式来表示
RDF的图主要指
由RDF三元组按照关联关系
这种链接形成的一种图
在RDF知识图谱当中
相似的实体很可能相互关联
相邻的节点或者有路径相关的节点
很可能也相似
一般采用局部相似
全局相似
和准局部相似这种方法来讲
具体来讲
局部相似性
计算只依赖于直接关联的实体
不能模拟大范围的依赖关系
而全局相似主要考虑
所有路径上的实体
预测性能比局部相似性比较好
但计算的代价比较高
准局部相似方法
通过路径实体的相似度
和有限长度的随机游走方式
平衡了预测精度和计算复杂度
RDF图既不损失语义关联
又能很好地表示知识
它的一个难点是
需要对RDF图所携带的三种信息
包括描述性属性
语义关系
以及两者兼顾的语义图结构
进行概念描述
而这一步
对后续的知识发现特别重要
由此呢
嵌入式表示
将实体和关系表示为低维向量
并且定义一个评分函数
来确定元组的合理性
主要模型有
双线性模型
多层感知模型
和潜在的距离模型
具体来讲
多层次感知模型参数比较复杂
潜在距离模型将实体和关系表示为
高斯分布
或映射为超平面中的中心点
具体采用嵌入表示方法来进行表示
而这种表示的目的主要在于
为了缓解数据的稀疏性
建立统一的语义表示空间
实现知识迁移
它的挑战在于
缺乏对各种语言单位统一的
语义表示与分析等手段
嵌入表示和图的特征
这里面它们相互互补
前者擅长通过引入新的
潜在变量建模
来进行表示全局关系
并且当元组可以用少量的
隐含量进行解释的时候
它计算效率很高
后者擅长建立局部和准局部的图模性
并且当元组可以由临近实体
或者与其较短路径的实体解释的时候
计算效率比较高
接着我为大家介绍关系推演
关系推演可以看作显式深度知识发现过程
包括二元关系推理
多路径关系推理
和演化性关系推理
具体来讲二元关系推理
主要根据历史知识
预测两个实体之间可能存在的关联关系
或者给定一个实体
或者说一种关系
预测与其对应的实体
这种预测的关键在于实体和关系的表示
而多路径关系推理
它的难点在于组合语义模型的设计
和推理关系的可用性确定
与知识表示形成相互之间密切的关系
而关系演化建模中的关系
可以是属性关系
也可以是语义关系
所以需要对关系变化进行细粒度的分析
此外
还需要考虑深度知识发现过程的反馈结果
而关系推演方面
目前研究的重点是
直接关系
和多路径关系的推理
缺乏对关系之间复杂模式的考虑
比如自动通过元组
人离不开空气
这样的推理模式
推理出鱼离不开水
这样的一种类比关系
而关系推演还可以借助于知识表示
这种方法来进行表示
目前有嵌入式表示和RDF图这种表示方法
嵌入式表示方法存在复杂的表示关系
以及系统可扩展性不能兼容这种问题
采用RDF图表示方法时
传统的图相似性计算
只考虑的是图结构的相似性
典型的如图结构的这种编辑距离
和最小公共子图等
显然
这种量度呢
不能够很好地反映出语义上的相似性
有时候
实现图结构的编辑距离比较大
但是它们的语义比较等价
所以采用RDF图来表示
这时候需要重点考虑语义之间的关系
无论采用哪种表示方法
都需要考虑推理关系
它的可靠性和可信性
当然了在这过程当中还要考虑推理关系
所以说
大数据融合过程是一个
跨领域
跨语言
跨数据源的大融合
不同领域
语境和数据源之间的数据
也可能是关联的
所以说
关系推理也不应该限定在单一知识库内
而应该是跨领域
跨语言
跨数据源的知识推理
这才是大数据融合的一个
主要的一个方面
由此呢
关系推演的结果
对数据融合
深度知识发现
和普适机理形成的关系至关重要
应该将推理结果扩充到知识库
这样做是具有挑战性的
首先
推理结果准确性低
冗余度高
将其加入知识库之前
通常需要进行可证明性检测
和冲突检测
来避免知识库中知识的矛盾和冗余性
其次
这样做会导致融合的规模不断增加
所以需要合理的控制融合规模
保证融合结果的可用性
接着我为大家介绍
深度知识发现
深度知识包括高阶多元关系
和隐含语义关系
深度知识发现
对知识融合过程非常重要
尤其是隐式深度知识发现
它通常包括以下3个方面
可以从以下图看出来
在这里面
① 关系型深度知识
比方说类比关系
上下位关系
因果关系
正 负相关关系
和频繁关系等等
② 数据分布型深度知识
它包括知识服从某些数据的分布
比如高斯分布
幂函数分布和长尾分布等等
这里面我们可以举个例子
当我们关注少于105的社交网络数据节点时
分布通常服从指数分布这种规律
③ 性质型深度知识
包括知识具有某种特性
比如局部封闭世界
长城记忆和无标度等等
常见的比如知识图谱中
建模过程当中
涉及到的假定满足局部的封闭世界等
深度知识
通常通过领域理论
运用数学
物理学等工具
进行物理建模和理论建模
解析
逻辑
甚至公式推演和证明等等
比如采用统计分析和深度学习的方法
可以进行挖掘
这里包括以下几个方面内容
第一个就是统计分析用于发现微观规律
待检验的一些深度知识
对它们进行推理
而深度学习呢
可以用于对推理建模和进行验证
第二个就是
深度学习根源于类神经网络模型
一般步骤为设定好类神经网络架构
制定出学习目标
开始进行学习
深度知识发现
它的难点在于
有记忆力的深度学习模型的构建过程
由此在整个实际应用过程当中
知识库的构建
为保证知识库应用的有效性
通常仅保留与业务相关的相关知识
而放弃与其发现的深度知识
但是发现的深度知识
对关系推演具有很好的参考价值
对数据融合具有启发作用
所以有必要将获得的深度知识
融入到知识库当中
接着我给大家介绍
普适机理的剖析和归纳
目前
知识融合依然缺乏对知识资源中
存在关系的普适化
为此
我们首先从理性和直觉中
建立问题的模型
通过对数据呈现的关系进行概括性描述
或者归纳性学习
从而得到普适模型
然后将模型与数据结合
提供适当的泛化能力
比如
Google大脑
可以通过深度学习
无监督地辨别任何猫
由此人的智力能够透过现象看到本质
只有发现大数据中
呈现出的各种普遍现象
它们背后所存在的一些原理
从而揭示
客观世界中的一些现实性
比如
网络在宏观上具有幂分布现象
它们背后的普适原理是
增长和择优机制
在复杂网络中的自组织演化
可以将其作为知识建模
深度知识发现和关系推演的一个参考因素
从而提高融合的有效性
具体的普适机理的实验过程
可以从以下四个方面
进行看出来
(1)采用统计
物理方法
从大量的实例当中收集和组织经验事实
发现规律
剖析内在原理
归纳宏观现象
提出普适性假设
(2)利用领域理论
比如运用数学
物理等工具
进行理论建模
形成可测试的推论
(3)通过仿真模拟的方法进行验证推论
评估假设和模型
如果
假设和机理
不能够很好地解释实验中出现的各种现象
则需要进一步的修正假设和模型
直到整个过程可以很好的解释性为止
(4)提出规律性
进一步接受实证数据的检验
直至整个过程得到认可为止
这是我们第四节的内容
我讲到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论