当前课程知识点:大数据管理与挖掘 > 第2章 大数据融合 > 2.2 大数据融合的方法论 > 2.2 大数据融合的方法论
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
我们继续讲
我们第二章的内容
大数据融合的一些基本方法
在我们整个数据融合过程当中
我们整个融合的模式
我们可以从右上图可以看到
在这个过程当中
我们整个的数据以结构化数据为主
有统一的模式可循
所以呢
我们可以采用一种中介模式的方法
比方说我们经常见到的GAV
LAV这种
自上而下的模式呢
实现整个数据的融合
由此整个的大数据的融合方法
可以从以下几个方面进行解释
第一个就是模式对齐
由于我们数据源的模式存在异构性
所以我们整个数据的模式对齐
可以有效提高整个集成的效率
而模式对齐可以解决两个模式之间
的一致性问题
主要是利用属性名称
类型和值的相似性
以及属性之间的邻接关系
从而寻找源模式与中介模式的对应关系
目前主要采用演化模型
概率模型和深度匹配方法
来解决这个问题
具体而言
演化模型呢
主要是检测模式映射的演化
采用尽力而为
模糊回答的方式
解决了数据多样性和高速性所带来的问题
概率模型将中介模式
按语义表示成各种属性之间的聚类
由此呢
源模式会出现与其有不同程度对应关系的
多个候选中的中介模式
然后呢
根据查询需求为每个候选集的中介模式
分配一个备选概率来确定最佳映射关系
而深度匹配方法
主要面向概念层
基于潜在的语义匹配
而不仅仅依赖于可见的一些属性
接着我给大家讲解记录链接
而记录链接是从数据集中识别和聚合出
现实世界中同一实体的记录
这里面包括实体表象
即对相似度达到一定程度的阈值记录
从而实现聚类操作
也称共指识别
一般采用增量记录链接方法
它可以解决大数据的相互关联
对实体匹配的
局部决策和全局一致性的影响
以及数据更新
可以弥补整个聚类过程当中的一些
错误聚类
相似性一般根据领域知识来设定
匹配规则的度量
也可以采用机器学习训练分类的
这种方式来实现
或者利用编辑距离
或者欧氏距离来进行计算
由于大数据的海量性
所以在相似性计算之前
先根据实体的一个
或多个属性
将输入记录划分为多个块
进行块内比较
提高链接效率
目前主要采用的是
给予MapReduce这种并行式分块方法
和引入Meta-blocking
这种直接优化分块方法
接着我给大家介绍冲突解决方法
这里面冲突解决一般采用识别函数
目前主要采用分值发现
真实性评估
和演化建模三个步骤
真值发现从所有冲突的值中
甄别出正确的值
而真值可以不止一个
但多个真值之间在语义上相同
第二个就是
值的真实性评估采用投票策略
并进行独立性衰减
然后根据值的置信度
值的贝叶斯后验概率等
推理得到真值结果
而实体演化主要面向的是随着时间的变化
看似不相似的实体变得更像一个实体
或者说
把原本表示同一个实体的记录
因某些属性的改变
而变得不太像同一实体的情况
重点是对演化行为的建模
考虑各种数据源质量和值的
多样性因素在内的各种演化建模过程
接着我跟大家介绍认知计算
和人工智能视角上的各种融合
整个过程
我们可以从右图展示这个结构来看出来
首先从文本中识别出实体
实体之间的关系
然后再根据各种关系进行融合
可以看出实体链接它是一个核心
接着我给大家介绍本体对齐
本体是针对特定领域中的概念而言的
对于知识图谱的模式层
是一种概念模块
用来弥补词汇
异构性
和语义歧义的间隙
是知识库中各种主体进行交流的基础
本体对齐主要解决本体不一致性的问题
需要识别本体演化
大概分为本体演化管理
不一致性预防
与处理和对齐模式相挖掘这种关系
而实体链接是识别实体
或者说实体的识别
主要是从文本中识别相似的实体
和消除实体歧义
并将表示同一实体的实体
表象聚类到一起
相似指多个命名实体表象之间
对应一个真实实体
歧义主要指一个实体表象
可对应到多个真实实体之间
一般借助知识库完成关联
而这种关联分为可链接和不可链接两种
不可链接
主要是指知识库中不存在对应实体的情况
否则可视为链接
而可链接关系的核心
是在知识库中找到最优的匹配实体
通过产生候选集对象
并对其排序而得到
接着我给大家介绍KB自适应发展
为了使我们知识库的内容与时俱进
需要对知识图谱进行不断迭代更新
更新的内容包括概念
实体
关系
和属性值
大多是从半结构化数据
或者说从无结构化数据中抽取而得到的
称之为直接知识
也有从现存的知识库
关系数据库
和以半结构为化形式的存储的历史数据中
直接转化而来
这种数据呢
我们称之转化为转化知识
而转化知识知识质量越高
只需要进行冲突检测
消除冗余即可扩充到知识库
直接知识分布比较零散
质量比较低
需要先抽取再进行评估
由此呢
对两种融合方法进行对比分析
第一个就是对应关系
模式对齐与本体对齐的对应关系来讲
它们都是为了提高融合效率而提出的
记录链接
冲突解决
与实体链接的对应关系
它们主要用于解决实体表示歧义
或数据不一致的情况
负责从数据库中识别
和聚类表示现实中的
同一对象的潜在实体
第二个就是它们的共同特点
在这里面
它们缺乏变粒度数据资源的自适应模型
第二个就是我们的融合步骤之间缺乏感应
第三个就是缺乏理解
和揭示数据背后的深层意义
第四个就是数据溯源机制比较缺乏
由此呢
我们探讨大数据融合的一些基本的范式
从我们右图展示的过程来讲
整个数据融合过程
涉及到我们的本体的对齐
本体的各种模型的构建
和我们范式的选择等等
针对我们大数据融合的范式
主要通过双环协同
相互启发
动态演化地逐步探索大数据融合的问题
并且融合过程的每个步骤
都是大数据价值的一次提升过程
其中数据融合和知识融合
不是相互独立而存在的
知识融合过程当中
获取的知识可作为数据融合的参考因素
辅助数据融合
而数据融合
也不仅仅是为知识融合提供集成化的数据
其中的一些基本方法
同样对知识融合有借鉴作用
由此呢
整个双环驱动特点呢
分以下几个方面
第一个就是3个内部反馈
主要包括数据融合内部的实体识别
与冲突的解决
第二个知识融合内部的关联关系
推演与深度知识发现相融合
第三个知识融合内部的知识构建与建模
与普适机理相互凝聚
第二个就是
2个跨界的启发
这包括两个方面
冲突解决与关系推演之间的跨界启发
第二个就是实体识别和深度发现相融合
第三个就是4个全局驱动枢纽
主要包括以下几个方面
用于细化融合并提供接口的知识晶格
用于实现跨媒体
跨领域的知识学习
和跨专业
跨学科的知识复用的迁移学习
和提高可解释性
和可操作性的数据溯源
第四个就是对于大数据驱动演化
海量性和高速性的处理
这是我们第二节的
数据融合的基本方法的介绍
我介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论