当前课程知识点:大数据平台核心技术 > 第六讲 全局数据管理与调度 > 数据分布策略 > 数据分布策略(主讲人:罗李)
了解完距离计算法则以后
我们就可以来看
在DFS中的数据分布策略
我们前面已经提到过
在DFS中
数据并不是像普通的
单机文件系统那样
整块地进行
文件全部数据的存储
而是将文件数据进行切块
然后分别存储
比如一个193MB的文件
如果按照64MB进行划分
那么这个文件
就会被切成四个block
前三个64MB
最后一个1MB
同样 如前面提到的
DFS中出于数据完整性
等因素的原因
数据采用冗余存储策略
每个block就会有多个副本
分布在集群的各个机器上
所以说到DFS的数据分布
本质上其实就是block
在整个集群中的分布策略
而毕竟有常见的分布式策略
通常遵循如下的一些原则
让同一个block的多个副本
尽量分布在不同的磁盘
不同的机器 不同的机架
以及不同的数据中心
这个道理相信大家已经懂了
就是为了避免
在发生意外情况的时候
尽量保证数据的完整性
我们再来看一个图例
如上所述
一个193MB的文件
按照64MB进行切分
一共被切成四个不同的block
分别叫做block1到block4
拿block1的分布策略来举例
假设写入客户端
也就是图中存设的小方块
在Rack1上的第三台机器
那么此时距离这台机器最近的
无疑就是这台机器本身
其距离为零
这样写入客户端
就会选择将第一个副本
写入到本机
然后第二个副本
选择放置在同一个机房的
另一个机架下
也就是这里的Rack2上
最后由于第一个和第二个副本
已经处于不同的机架
那么第三个副本
选择放置在Rack1
或者Rack2下的某台机器上
而同时由于是从第二个副本
往第三个副本进行写入
所以第三个副本
被放置到了跟第二个副本
相对比较近的一台机器上
这样 三个副本
分别被放置在
三台不同的机器
这三台机器
处于两个不同的机架
任何一台机器宕机
或者任何一个机架全部宕机
都不会影响到block
在整个DFS中的数据完整性
再来看集群环境
跨多个数据中心的情况
同样的 当写入客户端
要写入第一个数据块的时候
选择了本机 距离为零
第二个副本选择了
距离自己为二的
同机架的另外一台机器
第三个副本
选择了另外一个机架的
其他机器 距离为四
最后第四个副本
选择了在另外一个数据中心的
某台机器 距离为六
经过这种分布策略
这个block
在任何一台机器宕机
或者任何一个机架宕机
甚至任何一个数据中心
全部断电的情况下
依然不影响这个数据的完整性
-主讲人:武永卫
-主讲人:程永
-QUIZ--作业
-大纲
-初步认识大数据对分布式存储系统的需求
-理解大数据对分布式存储系统的需求
-具体说明大数据对分布式存储系统的需求
-大规模分布式存储的挑战
-小概率事件-Raid卡故障
-分布式存储系统举例
-分布式存储系统重要功能设计要点剖析
-链式写正常流程
-写流程的另一种常见方式:主从模式
-链式写异常流程
-写异常处理的另一种方法-Seal and New
--写异常处理的另一种方法-Seal and New(主讲人:姚文辉)
-读正常流程
-读流程优化-BackupRead
-IO QoS
-数据正确性:checksum
-数据可靠性-Replication
-数据均衡-Rebalance
-垃圾回收-Garbage collection
--垃圾回收-Garbage collection(主讲人:姚文辉)
-Erasure coding
-Erasure coding(3,2)写入和读取过程
--Erasure coding(3,2)写入和读取过程(主讲人:姚文辉)
-元数据管理的高可用性和可扩展性
-元数据管理的高可用性
-Paxos概要
-Raft
-元数据管理的可扩展性
-不同存储介质的特性
-盘古混合存储
-QUIZ--作业
-阿里云飞天分布式调度
-任务调度
-资源调度
-容错机制
-规模挑战
-安全域性能隔离
-分布式调度的发展方向
-QUIZ--作业
-数据格式和抽象
-分布式编程模型
-MapReuduce编程模型
-关系型数据编程模型
-分布式图计算模型
-分布式编程未来展望
-QUIZ--作业
-分布式事务
-分布式一致性算法
-两阶段提交与三阶段提交
-实践--介绍
-关系型计算基本原理_1
-关系型计算基本原理_2
-分布式环境中的连接计算和聚合计算
-其他计算和物理优化
-QUIZ--作业
-提纲
-课程背景介绍
-前序知识
-分布式节点距离计算法则
-数据分布策略
-分布式计算调度
-数据就近原则计算如何容错
-ODPS跨集群数据依赖
-QUIZ--作业
-主讲人:谢德军
--实践2:编写MR完成Group By+Join操作(主讲人:谢德军)
-增量计算和流式计算
-与批量计算的区别
-业界典型系统技术概要分析
-核心技术
-消息机制
-有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制
--有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制(主讲人:强琦)
-StreamSQL
-QUIZ--作业
-软硬件趋势、分布式计算简史与内存计算
-分布式计算
-内存计算
-统一的计算框架
-业界经典系统技术分析-spark&flink
--业界经典系统技术分析-spark&flink(主讲人:强琦)
-QUIZ--作业
-主讲人:褚葳
-QUIZ--作业
-分布式环境下的新问题
-工程实现范例
-课程设计相关问题