当前课程知识点:大数据平台核心技术 > 第二讲 分布式存储 > Erasure coding > Erasure coding(主讲人:姚文辉)
在数据量急剧膨胀的需求面前
新技术创新和应用
会极大地降低存储成本
最终形成企业的核心竞争力
下面 我们分析一下
Erasure coding
在分布式存储系统中的应用
首先 从原理出发
对比一下多拷贝系统
和Erasure coding编码
存储的优缺点
多个拷贝的存储方式
对用户数据存储多份
在上图中可以看到
如果数据存储三份
来防止最多同时两个磁盘损坏
用户数据量
和实际存储量的比例为1:3
即存储空间用了3倍的数据量
在有数据损坏时
从任意一份数据都可以
作为恢复的数据源
只需要读取一份数据
的网络流量
Erasure coding的编码
首先将用户数据
进行定长分块
在此称为数据块
然后 对这些数据块
计算编码块
编码块的数量
可以在计算过程中指定
如果数据块的数量为N
编码块数量为M
算法保证在N+M个块中
任意N个块都可以计算出
其他M块的内容
在上图中
数据块个数N为6
编码块个数M为3
用户数据量同实际存储空间
占用的比例为2:3
即存储空间用了
1.5倍的数据量
在数据恢复过程中
N+M个块中
有任何块损坏时
都可以读取其他N个块
进行数据恢复
此时 有N份数据的读取代价
但是 从原理上分析
当数据块损坏个数超过M时
才会导致数据丢失
从上面的例子看到
损坏磁盘数量
同时到达3块以上时
才能出现数据丢失
比3个拷贝的存储方式
抵御磁盘损坏能力要强
从上面的分析
我们可以比较出
多个数据拷贝的方法存储
成本要高
但是数据恢复过程中
处理简单 快速
Erasure coding编码方式
设置合理的编码参数后
可以有效降低存储成本
但是 在数据恢复过程中
处理复杂
需要数据量较大
造成恢复过程较慢
-主讲人:武永卫
-主讲人:程永
-QUIZ--作业
-大纲
-初步认识大数据对分布式存储系统的需求
-理解大数据对分布式存储系统的需求
-具体说明大数据对分布式存储系统的需求
-大规模分布式存储的挑战
-小概率事件-Raid卡故障
-分布式存储系统举例
-分布式存储系统重要功能设计要点剖析
-链式写正常流程
-写流程的另一种常见方式:主从模式
-链式写异常流程
-写异常处理的另一种方法-Seal and New
--写异常处理的另一种方法-Seal and New(主讲人:姚文辉)
-读正常流程
-读流程优化-BackupRead
-IO QoS
-数据正确性:checksum
-数据可靠性-Replication
-数据均衡-Rebalance
-垃圾回收-Garbage collection
--垃圾回收-Garbage collection(主讲人:姚文辉)
-Erasure coding
-Erasure coding(3,2)写入和读取过程
--Erasure coding(3,2)写入和读取过程(主讲人:姚文辉)
-元数据管理的高可用性和可扩展性
-元数据管理的高可用性
-Paxos概要
-Raft
-元数据管理的可扩展性
-不同存储介质的特性
-盘古混合存储
-QUIZ--作业
-阿里云飞天分布式调度
-任务调度
-资源调度
-容错机制
-规模挑战
-安全域性能隔离
-分布式调度的发展方向
-QUIZ--作业
-数据格式和抽象
-分布式编程模型
-MapReuduce编程模型
-关系型数据编程模型
-分布式图计算模型
-分布式编程未来展望
-QUIZ--作业
-分布式事务
-分布式一致性算法
-两阶段提交与三阶段提交
-实践--介绍
-关系型计算基本原理_1
-关系型计算基本原理_2
-分布式环境中的连接计算和聚合计算
-其他计算和物理优化
-QUIZ--作业
-提纲
-课程背景介绍
-前序知识
-分布式节点距离计算法则
-数据分布策略
-分布式计算调度
-数据就近原则计算如何容错
-ODPS跨集群数据依赖
-QUIZ--作业
-主讲人:谢德军
--实践2:编写MR完成Group By+Join操作(主讲人:谢德军)
-增量计算和流式计算
-与批量计算的区别
-业界典型系统技术概要分析
-核心技术
-消息机制
-有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制
--有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制(主讲人:强琦)
-StreamSQL
-QUIZ--作业
-软硬件趋势、分布式计算简史与内存计算
-分布式计算
-内存计算
-统一的计算框架
-业界经典系统技术分析-spark&flink
--业界经典系统技术分析-spark&flink(主讲人:强琦)
-QUIZ--作业
-主讲人:褚葳
-QUIZ--作业
-分布式环境下的新问题
-工程实现范例
-课程设计相关问题