当前课程知识点:大数据管理与挖掘 > 第2章 大数据融合 > 2.3 数据融合技术 > 2.3 数据融合技术
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
我们这节讲第三节内容
数据融合技术
数据融合需要用动态的方式
统一不同的数据源
将离散的数据转化为统一的知识资源
传统的流线式的融合
不再满足现有的融合需求
而面对新的融合需求
大数据融合显得就更为重要
而整个的数据融合实现步骤
我们可以从以下几个方面可以看到
第一个就是对齐本体
模式
加速融合效率
第二个识别相同实体
链接关联实体
第三个就是甄别真伪
合并冲突数据
并将处理结果反馈给实体识别阶段
提高识别效率
第四个就是动态更新知识库
保持知识的与时俱进
由此呢
我们具体介绍一下
模式和本体的对齐
而模式和本体对齐是大数据融合的前提
用于提高融合效率
重点解决对齐演化引起的不一致性
而大数据的海量性和演化性
导致事后补救的难度比较大
所以呢
需要采取
以防为主
防治结合的这种策略
本体演化关注原子本体的演化和它的描述
本体依赖于实体和合作方式
当领域表示发生演变频繁
或者有新的需求必须要考虑的时候
本体也会频繁和连续地发生变化
并且通常本体发生较大
或构建它的代价过大时
由此呢
在这过程中
本体必须能够适应演化
修改和修进
从而保持本体的一致性
然而
整个过程极具挑战性
因此
它往往很难理解本体变化
这部分所带来的影响
所以
需要对本体进行建模
通常建模沿用OWL
它能够有效地捕捉静态语义
但不能满足本体实体之间的
相互发生变化的一致性检测
因此不足以用于形式化的变化
目前大多研究都是对本体变化的量化
并没有对不一致性进行充分的研究
即便是给出了解决不一致性的
问题的一些方法
也是不一致性发生以后的解决方法
需要执行变化
并使用额外的资源来监测本体的一致性
因此缺乏预防措施来避免不一致性发生
由此呢
我们介绍
第二个内容就是实体链接
实体链接是数据融合的基础
实体链接也称为记录链接
实现步骤包括分块
两两匹配和聚类
典型的就是BDF@C&A
这其中实体链接的实现步骤包括
实体识别
实体消歧
和共指识别
实体识别与两两匹配
共指识别与聚类作用相当
而实体消歧包括
BDF@DB中的冲突解决过程当中
所以将大数据融合当中的
实体链接步骤基本分为
分块
实体识别
和共指识别
它们的不同之处在于如下几个方面
第一个
实体的属性特征
以及所指的语义环境
语境信息
冲突实体的解决结果
和共指识别的结果
都可能对实体识别产生影响
第二个就是
实体之间的语义关联它们比较强
并且存在演化性
而现有的方法
并没有考虑可靠性和更新程度
由此呢
局部决策对与之相关的关系产生了影响
并且直接面向动态数据
演化模型依赖于训练数据集
和演化证据的质量
匹配精度比较高
但时间代价
并不是大数据所能够承受的
第三个呢
需要识别新实体和新关系
这是知识库扩充的必要手段
推演出的新知识
发现的深度知识
以及得到的普适机理
都有可能对实体识别起到启发作用
所以
反馈结果极为重要
大数据中的实体识别
不仅需要与数据融合中的冲突解决
共指识别形成内部反馈机制的迭代优化
还需要与知识融合中的深度知识发现
形成跨环启发
第四个就是复杂关联关系
存在适用范围比较广
准确率等方面还有一定的不足
第五个就是大数据融合面向短文本
跨语言
跨领域的融合迈进
接着我跟大家介绍
冲突解决
那么冲突是我们整个过程当中
它需要解决的一种消歧的一种方法
在这里面
知识结合我们整个演化过程的关系
起到了很大的作用
需要将这种新知识驱动
引入到我们冲突解决过程当中
并保持这种知识的演化行为
所以
冲突解决应该经历真伪鉴别
不确定性综合合并
和演化建模这样一些的步骤
所有的冲突解决都有一个假定前提
而假定模式对齐和冲突解决
都可以在整个模式识别过程当中完成
所以说
冲突解决是大数据融合的必要条件
它的第一要务是消歧
大数据的真实性
和演化性是引发冲突的导火线
如果我们数据本身的新鲜程度和贡献
给特定的查询
这就引发了新鲜度和价值量不同的
多真值问题
需要评估信息的质量
合并不确定性信息
消歧的基本方法
依赖于实际参照数据的可用性
比如数据的标注
参照数据一般来源于维基百科
缺乏领域知识
比方说和针对性
这使得实用性变差
对于其他领域
比如说新闻
仅有一小部分标注性样本可用
所以
采取超跨越的这种消歧策略
对于不确定因素来讲
这主要难点在于针对新鲜度和价值量
不等同的多值问题
需要如何设计质量问题成了关键
接着呢
我给大家介绍
知识库自适应发展
知识库是数据融合的结果
也是大数据融合的中转站
随着数据的产生
信息的传播
会有源源不断的知识扩充到知识库
而知识库通常包含三种知识
即从数据源抽取的直接知识
由现存知识库
关系数据库
和以半结构化数据形式存储的
历史数据直接转化而来的知识
以及知识融合反馈来的深度知识
具体来讲
我们知识库的生命周期分为3个阶段
第1阶段是自适应抽取策略抽取直接知识
构建基本知识库或扩充库
第2阶段
用转化知识和深度知识
通过自动化增量更新扩冲的知识库
第3阶段定位事实和溯源知识库
具体来讲
自适应抽取
首先需要
设定语法
语义的抽取模式
然后采用自调整和反馈调整
这种方式来进行抽取
具体表现为如下两个方面
第一个就是
自调整通常采用模糊本体技术
识别以概率方式
而检测的这种信息的可能性
第二个就是
反馈调整主要是借助抽取结果信息
以及知识融合过程当中的反馈回来的信息
来调整抽取模式
对于更新策略
目前大多采用人工干预的增量更新方法
但是随着知识库的不断积累
依靠人工制定更新策略
或者逐条检测将不能满足需求
所以需要采取自动化
批量更新的方法
这样必须确保自动化更新的过程有效性
而知识库的自适应发展需要动态的方式
统一不同的数据源
这个过程对用户来说就是透明的
而缺乏可解释性和可操作性
并且
大数据的海量性和动态演化过程
而加大了错误恢复的难度
所以需要建立知识库的可溯源机制
对于获取的3种知识
所包含的实体
关系
以及实体属性信息中可能包含大量冗余信息
和错误信息
所以需要通过实体链接技术
和冲突解决技术
对实际和关系进行统一化处理
从而呢以减少数据的冗余
并且直接抽取关系都是扁平化的关系
缺乏层次性和逻辑性
需要对这种概念表达方式
进行统一化处理
并将我们的本体融入到本体库
3种知识中转化知识
属于高质量知识
可以使用现成的转换工具直接进行转换
而直接知识质量比较低
还需要对齐以进行验证和评估
以确保知识库中内容的一致性和准确性
通常采用的方法是
在评估过程当中
以新加入的知识赋予可信度
据此进行知识的过滤和融合
这是我们第三节
数据融合的内容
我讲到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论