当前课程知识点:大数据管理与挖掘 > 第3章 大数据存储 > 3.2 基于新型存储的大数据管理 > 3.2 基于新型存储的大数据管理
欢迎回到大数据存储这一章节
接下来我们介绍
基于新型存储的大数据管理
首先我们看存储管理
大数据存储通常采用
分布式异构存储策略
异构存储系统的特点在于
采用了所谓的日志缓存
日志缓存技术将主数据放置在
性能最好的存储系统上
而将副本以及数据更新日志
放置在成本较低的存储上
既降低了成本
又保证了性能
大数据管理中的索引设计
主要考虑高扩展性
高性能并能够有效支持非主键查询
和多维查询等不同类型查询
主要索引结构有二级索引
双层索引
按照空间目标排序的索引等
二级索引由局部索引和全局索引构成
局部索引只负责该节点上的数据索引
全局索引则依据局部索引构建
双层索引主要适用于
非键值列的快速查询
索引表由原数据表中的键值
和索引列的组合构成
目前二级索引中的局部索引
均基于磁盘特性进行设计
闪存数据库索引设计的目标在于
不仅要在闪存介质上
实现索引的高查询性能
而且还要根据闪存的物理性能
减少索引更新维护带来的性能代价
如频繁擦除等
目前提出的闪存索引结构
大都采用了传统的树形结构
并以减少对闪存的随机写为主要目的
采用的方法往往是延迟更新
或者合并更新等
大数据索引技术还需要
在存储结构感知能力方面进行新的研究
对于适合分层混合存储的
超大规模数据索引结构
也需要进行重新设计
目前针对大数据的查询处理和优化
主要集中在基于MapReduce框架的
查询处理研究上
查询执行的研究主要集中在
基于MapReduce的连接算法
传统的基于MapReduce的连接算法
无法发挥闪存 相变存储器的最佳性能
需要避免在新型存储上的大量写操作
对查询执行效率的影响
在大规模分布式数据库中
查询优化工作主要集中在
MapReduce执行计划选择
以及负载均衡等方面
随着闪存
PCM等新型存储介质
在大数据存储系统中的应用
存储系统异构性将日益凸显
将给MapReduce任务调度带来新的挑战
在查询处理的动态负载均衡方面
目前主要考虑了存储用量推荐
数据的读写频率等因素
在面向新型存储的查询处理算法方面
目前在基于闪存的连接算法上研究较多
其出发点是
避免在闪存上执行大量随机写操作
同时尽量发挥闪存的随机读性能
事务处理中
大数据处理与存储融合的新型架构
同样为事务处理与优化带来新的机遇
除了可以采用PCM来提高日志操作速度
采用硬件事务内存
加速事务处理等方法外
还可以考虑利用存储芯片内部的
处理单元来加速并发事务处理中的
串行操作
通过重新设计事务和日志管理算法
使得锁操作中的临界区
能够直接在内存片上处理器
或者专用加速器上执行
从而大大提高并发事务处理的效率
当前主流的大数据分析平台
如Hadoop MapReduce和Spark等
都是面向传统的通用处理器
DRAM架构的计算机系统而设计的
为了发挥处理和存储融合的新型架构优势
需要重新设计相应的大数据平台
以MapReduce为例
Map阶段高带宽需求的特性
要求运算尽可能放在
内存片上处理器中进行
再如Spark
由于其内存计算特性
对内存带宽有较大的需求
可以考虑重新设计架构使其能够
更有效地使用内存片上处理器
同时由于Spark具有良好的数据局部性
可以考虑将热数据放在内存芯片的DRAM层上
好
基于新型存储的大数据管理
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论