当前课程知识点:大数据管理与挖掘 > 第3章 大数据存储 > 3.1 大数据存储与管理方法 > 3.1 大数据存储与管理方法
同学们 大家好
我是来自
西安工程大学管理学院的李老师
今天我为大家讲述
大数据存储这一章节
首先我们来看
3.1 大数据存储与管理方法
存储级主存
与磁盘介质相比
闪存它具有传输速率高
延迟低 能耗低
噪声低 抗震等优良特性
PCM兼具速度快 耐用
非挥发性和高密度性等多种优势
其读写数据和恢复数据的速度是
现在应用最广泛的
非挥发性存储技术闪存的100倍
近年来
PCM的芯片工艺和存储容量
有了快速发展
PCM等存储级主存技术具有非易失
存储速度快 易实现高密度等技术特点
在高速与海量存储方面具有巨大的潜能
已被认为是下一代非易失存储技术的
最佳解决方案之一
从图上我们可以看到
这是基于SCM的存储体系架构
由CPU与主存控制器和外存控制器等
相互连接
通过外存控制器是通过IU控制器
实现交互
该架构一方面利用DRAM和PCM等SCM
可让CPU直接控制主存控制器
通过硬件管理的方式
实现CPU存取和字节存取
另一方面利用传统的I/O控制器
控制SSD和HDD等外存设备
通过软件管理的方式
实现进程存取和页式存取
与此同时
可进一步设计
新的分布式多节点存储技术
将大数据存取集中在DRAM和PCM上
充分发挥DRAM和PCM的高性能
以及PCM的随机存取和非易失优点
而且可以利用分布式多节点存储的优势
建立具有高扩展性的大数据存储系统
闪存 PCM等新型存储介质的引入
使得大数据存储架构有了多种选择
但由于新型存储介质在价格 寿命等方面
与传统的磁盘相比不具优势
因此目前主流的观点是
在大数据存储系统中
同时使用新型存储介质和传统存储介质
由此产生了多种
基于新型存储的大数据存储架构
如基于PCM的主存架构
基于闪存的主存扩展架构
以及基于多存储介质的分层存储架构等
由于PCM存储密度高
容量大 耗电低
而且访问速度接近内存
因此工业界和学术界都开展了
将PCM作为主存系统的研究
与闪存相比
PCM存取延迟更短
而且可以直接按位存取
因此能够被CPU直接存取
更适合作为DRAM的扩展
与DRAM相比
PCM具有非易失性特点
因此适合存储文件等静态数据
在利用PCM代替DRAM方面
目前的研究重点主要集中在
利用DRAM减少对PCM的写操作
以及负载均衡等项目
对于利用DRAM来减少对PCM写操作的方法
研究者往往借助DRAM缓存
来延迟对PCM的写操作
从而达到减少PCM写次数的目的
负载均衡思想是通过增加一层地址映射
将PCM的写操作
均匀地分配给所有的存储单元
以尽可能地达到PCM的最大的使用寿命
在针对大数据存储的集群架构中
负载均衡主要通过
适合PCM的数据划分算法实现
虽然大数据应用中
涉及的原始数据量非常大
但真正有价值的数据
以及应用每次需要存取的数据量
仍是有限的
因此我们可以利用PCM的高性能
非易失 按位存取等特性
将应用需要实时存取的高价值数据
存储在PCM中
将PCM与DRAM混合形成
高性能数据处理系统
同时将大规模的原始数据
存储在磁盘和SSD中
将PCM引入目前的存储架构中
将有望解决
大数据管理与分析中的性能问题
与PCM相比
目前闪存的应用更为广泛
高速大容量SSD设备的不断出现
使得SSD在存储架构中的地位也得以提升
在大数据管理方面
目前SSD的存储容量还达不到
大数据的PB级别存储需求
因此近年来主要的工作集中在
利用高端SSD进行主存扩展的研究上
普林斯顿大学的研究人员
提出了一种利用SSD进行内存扩展的
主存管理系统——SSDAlloc
研究者以NoSQL数据库系统
Redis为基础平台
用SSD代替磁盘作为虚拟内存中的
交换设备
扩大虚拟内存的同时
帮助NoSQL数据库减少数据读延迟
基于不同存储介质的分层存储架构
目前主要集中在DRAM
闪存 磁盘的混合存储上
在存储分配方面
已有研究倾向于根据I/O特性
和数据的冷热程度来进行存储分配
将读倾向负载的数据
或者热点数据存放在SSD上
而写倾向负载或非热点数据
则存放在磁盘上
面向分层存储的存储分配方法
还应用在大数据文件系统的元数据管理上
其基本思路是采用在元数据服务器上
使用SSD作为存储设备的方法
来加速文件系统
在存储介质用量组合方面
基本思想是将有限的闪存存储资源
在复杂的工作负载下进行有效分配
在减少成本的同时满足系统的性能要求
由于目前闪存 PCM等新型存储介质
与DRAM 磁盘等传统存储介质
处于共存的局面
预计在较长的时间内
新型存储介质将与传统介质
同时出现在存储系统中
对于大数据存储环境
其数据的使用频率规模等
都不允许将所有数据
都统一存储在集中式的存储设备上
因此基于分层存储的
多介质混合存储技术
将越来越受到研究者们的重视
由于多种存储介质的分层存储
存在着多种组合方式
哪种混合存储策略适合大数据应用
在多介质混合存储系统中
如何有效地实现数据分配与迁移等
仍有待进一步探索
将闪存应用于分布式文件系统中
进行元数据存储
元数据对于整个大数据管理系统的性能
起着决定性作用
对于大数据解析
大数据统计
大数据操作优化等有着重要作用
基于内存的分布式文件系统
元数据管理的基本思路是
在元数据服务器上
使用SSD作为存储设备来加速文件系统
好
3.1大数据存储与管理方法
就为大家介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论