当前课程知识点:大数据管理与挖掘 >  第3章 大数据存储 >  3.1 大数据存储与管理方法 >  3.1 大数据存储与管理方法

返回《大数据管理与挖掘》慕课在线视频课程列表

3.1 大数据存储与管理方法在线视频

下一节:3.2 基于新型存储的大数据管理

返回《大数据管理与挖掘》慕课在线视频列表

3.1 大数据存储与管理方法课程教案、知识点、字幕

同学们 大家好

我是来自

西安工程大学管理学院的李老师

今天我为大家讲述

大数据存储这一章节

首先我们来看

3.1 大数据存储与管理方法

存储级主存

与磁盘介质相比

闪存它具有传输速率高

延迟低 能耗低

噪声低 抗震等优良特性

PCM兼具速度快 耐用

非挥发性和高密度性等多种优势

其读写数据和恢复数据的速度是

现在应用最广泛的

非挥发性存储技术闪存的100倍

近年来

PCM的芯片工艺和存储容量

有了快速发展

PCM等存储级主存技术具有非易失

存储速度快 易实现高密度等技术特点

在高速与海量存储方面具有巨大的潜能

已被认为是下一代非易失存储技术的

最佳解决方案之一

从图上我们可以看到

这是基于SCM的存储体系架构

由CPU与主存控制器和外存控制器等

相互连接

通过外存控制器是通过IU控制器

实现交互

该架构一方面利用DRAM和PCM等SCM

可让CPU直接控制主存控制器

通过硬件管理的方式

实现CPU存取和字节存取

另一方面利用传统的I/O控制器

控制SSD和HDD等外存设备

通过软件管理的方式

实现进程存取和页式存取

与此同时

可进一步设计

新的分布式多节点存储技术

将大数据存取集中在DRAM和PCM上

充分发挥DRAM和PCM的高性能

以及PCM的随机存取和非易失优点

而且可以利用分布式多节点存储的优势

建立具有高扩展性的大数据存储系统

闪存 PCM等新型存储介质的引入

使得大数据存储架构有了多种选择

但由于新型存储介质在价格 寿命等方面

与传统的磁盘相比不具优势

因此目前主流的观点是

在大数据存储系统中

同时使用新型存储介质和传统存储介质

由此产生了多种

基于新型存储的大数据存储架构

如基于PCM的主存架构

基于闪存的主存扩展架构

以及基于多存储介质的分层存储架构等

由于PCM存储密度高

容量大 耗电低

而且访问速度接近内存

因此工业界和学术界都开展了

将PCM作为主存系统的研究

与闪存相比

PCM存取延迟更短

而且可以直接按位存取

因此能够被CPU直接存取

更适合作为DRAM的扩展

与DRAM相比

PCM具有非易失性特点

因此适合存储文件等静态数据

在利用PCM代替DRAM方面

目前的研究重点主要集中在

利用DRAM减少对PCM的写操作

以及负载均衡等项目

对于利用DRAM来减少对PCM写操作的方法

研究者往往借助DRAM缓存

来延迟对PCM的写操作

从而达到减少PCM写次数的目的

负载均衡思想是通过增加一层地址映射

将PCM的写操作

均匀地分配给所有的存储单元

以尽可能地达到PCM的最大的使用寿命

在针对大数据存储的集群架构中

负载均衡主要通过

适合PCM的数据划分算法实现

虽然大数据应用中

涉及的原始数据量非常大

但真正有价值的数据

以及应用每次需要存取的数据量

仍是有限的

因此我们可以利用PCM的高性能

非易失 按位存取等特性

将应用需要实时存取的高价值数据

存储在PCM中

将PCM与DRAM混合形成

高性能数据处理系统

同时将大规模的原始数据

存储在磁盘和SSD中

将PCM引入目前的存储架构中

将有望解决

大数据管理与分析中的性能问题

与PCM相比

目前闪存的应用更为广泛

高速大容量SSD设备的不断出现

使得SSD在存储架构中的地位也得以提升

在大数据管理方面

目前SSD的存储容量还达不到

大数据的PB级别存储需求

因此近年来主要的工作集中在

利用高端SSD进行主存扩展的研究上

普林斯顿大学的研究人员

提出了一种利用SSD进行内存扩展的

主存管理系统——SSDAlloc

研究者以NoSQL数据库系统

Redis为基础平台

用SSD代替磁盘作为虚拟内存中的

交换设备

扩大虚拟内存的同时

帮助NoSQL数据库减少数据读延迟

基于不同存储介质的分层存储架构

目前主要集中在DRAM

闪存 磁盘的混合存储上

在存储分配方面

已有研究倾向于根据I/O特性

和数据的冷热程度来进行存储分配

将读倾向负载的数据

或者热点数据存放在SSD上

而写倾向负载或非热点数据

则存放在磁盘上

面向分层存储的存储分配方法

还应用在大数据文件系统的元数据管理上

其基本思路是采用在元数据服务器上

使用SSD作为存储设备的方法

来加速文件系统

在存储介质用量组合方面

基本思想是将有限的闪存存储资源

在复杂的工作负载下进行有效分配

在减少成本的同时满足系统的性能要求

由于目前闪存 PCM等新型存储介质

与DRAM 磁盘等传统存储介质

处于共存的局面

预计在较长的时间内

新型存储介质将与传统介质

同时出现在存储系统中

对于大数据存储环境

其数据的使用频率规模等

都不允许将所有数据

都统一存储在集中式的存储设备上

因此基于分层存储的

多介质混合存储技术

将越来越受到研究者们的重视

由于多种存储介质的分层存储

存在着多种组合方式

哪种混合存储策略适合大数据应用

在多介质混合存储系统中

如何有效地实现数据分配与迁移等

仍有待进一步探索

将闪存应用于分布式文件系统中

进行元数据存储

元数据对于整个大数据管理系统的性能

起着决定性作用

对于大数据解析

大数据统计

大数据操作优化等有着重要作用

基于内存的分布式文件系统

元数据管理的基本思路是

在元数据服务器上

使用SSD作为存储设备来加速文件系统

3.1大数据存储与管理方法

就为大家介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

3.1 大数据存储与管理方法笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。