当前课程知识点:大数据平台核心技术 > 第二讲 分布式存储 > 盘古混合存储 > 盘古混合存储(主讲人:姚文辉)
下面 我们以举例的方式来看
当前分布式存储系统
如何用混合存储
来实现高性能和低成本的目的
在HDFS中每个DataNode上
可以放置不同类型的存储介质
并且这些介质属性
会汇报给Namenode
用户可以设置文件属性
来选择用不同的存储介质
来存储数据
例如设置文件的所有数据
都放置在磁盘上
或者多份数据中
有一份拷贝放到SSD上
其他拷贝放置在磁盘上
在用户写入数据的时候
Namenode根据文件属性
选取不同存储介质上的
数据位置
这种方式需要用户了解
介质属性
并可以根据自己的业务类型
来选择合适的
混合介质存储方式
给用户提供了很强的灵活性
但是 缺点在于
用户需要所有混合存储方式
都要在系统级别进行支持
同时 用户的误用
可能会给系统性能带来问题
需要每种介质上
有不同的QoS策略
在盘古系统中
目前支持HDD和SSD
混合存储方式
对外不会暴露存储介质信息
用户不感知SSD的存在
这种混合存储技术
主要是为了解决高并发
随机写的场景
例如虚拟机云盘
在数据写入到
盘古Chunkserver之后
数据会先以日志记录的方式
存储到SSD磁盘上
日志采用连续顺序
存储的方式写入
来完全利用SSD的
高吞吐量能力
同时 将随机写入的数据
按照chunk文件建立索引
在盘古Chunkserver内部
有后台程序定期
将SSD上记录的
多次随机写
合并为一次批量写
将数据写入到HDD的
chunk replica文件中
当有数据读取的时候
通过查找写入数据索引
可以获取到所有数据
在介质上的存储位置
并将SSD和HDD上的数据
合并返回给用户
从写入和读取方式来分析
由于写利用了SSD
作为cache
所以 可以实现
随机高频低延迟的写需求
读操作
由于大部分需要访问HDD
所以,同全磁盘
数据存储方式的速度相当
在这种架构下
由于用户不感知硬件存在
所以 如何高效利用混合存储
完全交由系统处理
可以方便更换介质类型
但是 由于用户
不能有效传递自己的使用习惯
所以 需要系统对用户的
使用场景进行深入分析
通过将业务使用的方式
抽象为几种普遍场景
并使用合理的混合存储方案
来满足
RAMCloud内存存储方式
同盘古混合存储方案比较接近
最明显的不同点
是将SSD换成了内存存储
当数据写入时
所有数据均写入到内存
为了高效利用内存
采用了连续记录日志的方式
将数据存放在内存中
同时 将数据按照
数据所属应用进行划分
分别建立索引
方便用户进行随机访问
由于内存存储的易失性
所以 需要将内存中的数据
以异步的方式
存储到磁盘中
这种实践策略
非常适用于分布式的
cache服务
可以充分利用内存的
高带宽和低延迟
但是 在分布式环境中
需要同时配备高速网络
否则 其威力也得不到发挥
从上面的例子可以看到
混合存储技术
基本是利用高性能
小容量 高成本的介质
来作为低性能 大容量
低成本的cache
来满足业务需求
-主讲人:武永卫
-主讲人:程永
-QUIZ--作业
-大纲
-初步认识大数据对分布式存储系统的需求
-理解大数据对分布式存储系统的需求
-具体说明大数据对分布式存储系统的需求
-大规模分布式存储的挑战
-小概率事件-Raid卡故障
-分布式存储系统举例
-分布式存储系统重要功能设计要点剖析
-链式写正常流程
-写流程的另一种常见方式:主从模式
-链式写异常流程
-写异常处理的另一种方法-Seal and New
--写异常处理的另一种方法-Seal and New(主讲人:姚文辉)
-读正常流程
-读流程优化-BackupRead
-IO QoS
-数据正确性:checksum
-数据可靠性-Replication
-数据均衡-Rebalance
-垃圾回收-Garbage collection
--垃圾回收-Garbage collection(主讲人:姚文辉)
-Erasure coding
-Erasure coding(3,2)写入和读取过程
--Erasure coding(3,2)写入和读取过程(主讲人:姚文辉)
-元数据管理的高可用性和可扩展性
-元数据管理的高可用性
-Paxos概要
-Raft
-元数据管理的可扩展性
-不同存储介质的特性
-盘古混合存储
-QUIZ--作业
-阿里云飞天分布式调度
-任务调度
-资源调度
-容错机制
-规模挑战
-安全域性能隔离
-分布式调度的发展方向
-QUIZ--作业
-数据格式和抽象
-分布式编程模型
-MapReuduce编程模型
-关系型数据编程模型
-分布式图计算模型
-分布式编程未来展望
-QUIZ--作业
-分布式事务
-分布式一致性算法
-两阶段提交与三阶段提交
-实践--介绍
-关系型计算基本原理_1
-关系型计算基本原理_2
-分布式环境中的连接计算和聚合计算
-其他计算和物理优化
-QUIZ--作业
-提纲
-课程背景介绍
-前序知识
-分布式节点距离计算法则
-数据分布策略
-分布式计算调度
-数据就近原则计算如何容错
-ODPS跨集群数据依赖
-QUIZ--作业
-主讲人:谢德军
--实践2:编写MR完成Group By+Join操作(主讲人:谢德军)
-增量计算和流式计算
-与批量计算的区别
-业界典型系统技术概要分析
-核心技术
-消息机制
-有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制
--有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制(主讲人:强琦)
-StreamSQL
-QUIZ--作业
-软硬件趋势、分布式计算简史与内存计算
-分布式计算
-内存计算
-统一的计算框架
-业界经典系统技术分析-spark&flink
--业界经典系统技术分析-spark&flink(主讲人:强琦)
-QUIZ--作业
-主讲人:褚葳
-QUIZ--作业
-分布式环境下的新问题
-工程实现范例
-课程设计相关问题