当前课程知识点:大数据平台核心技术 > 第三讲 资源管理与任务调度 > 容错机制 > 容错机制(主讲人:陶阳宇)
在解决了任务调度
资源调度两个最主要的
问题之后
我再给同学们分享一下
飞天分布式调度系统
是如何处理集群中出现的
各种故障的
我们称之为容错机制
或者failover1
除了资源调度和任务调度之外
在真实的环境中
系统还需要能够处理
在大规模集群中
经常出现的故障
因为在大规模进程集群中
故障是一个常态
这些常态会来自于硬件
比如主板 电源 内存条
网络交换机
也可能来自软件
比如进程有bug(音00:44)
导致进程crash
也可能机器故障导致性能慢
那么分布式调度必须能做到
容错机制
以保证
正在运行的任务不受影响
第二个对用户透明
第三个能自动的
从故障中恢复过来
第四个还需要保障高可用
接下去我仍然会从
两个方面
来给大家作一个介绍
任务调度的failover
资源调度的failover
任务调度的failover
大家知道每个计算任务
有自己的APP Master
那如果APP Master进程
发生了重启
它重启之后的任务调度
如何进行failover
首先我们有Sanpshot机制
它是将Instance的运行进度
保存下来当APP Master
重启之后会自动
加载snapshot
以获取之前每个Instance的
执行进度
然后继续运行Instance
APP Master进程failover
当APP Master进程重启之后
从APP Worker汇报的状态中
重建出之前的调度结果
继续运行Instance
还有一种情况是
Fuxi Master如果发生了
failover如何处理
Fuxi Master failover
起来之后需要重建
内部的状态
这个
这个主要指之前提交的
所有的application的
配置信息比如不同的job
它们的配置参数等等
这个会来自于Fuxi Master
写的snapshot
还有一类信息称为
Soft State那Fuxi Master
会收集来自各个Tubo
以及APP Master的信息
重建出自己的状态
这些信息包括机器列表
每个APP Master的资源请求
以及之前的资源分配结果
Fuxi Master进程重启
之后的资源调度
可以用这样的图来表示
它首先会从Checkpoint当中
读取出所有job的配置信息
同时会收集所有的Tubo
以及APP Master上报上来的
关于资源分配的结果
如这里的CPU多少
memory多少等等
-主讲人:武永卫
-主讲人:程永
-QUIZ--作业
-大纲
-初步认识大数据对分布式存储系统的需求
-理解大数据对分布式存储系统的需求
-具体说明大数据对分布式存储系统的需求
-大规模分布式存储的挑战
-小概率事件-Raid卡故障
-分布式存储系统举例
-分布式存储系统重要功能设计要点剖析
-链式写正常流程
-写流程的另一种常见方式:主从模式
-链式写异常流程
-写异常处理的另一种方法-Seal and New
--写异常处理的另一种方法-Seal and New(主讲人:姚文辉)
-读正常流程
-读流程优化-BackupRead
-IO QoS
-数据正确性:checksum
-数据可靠性-Replication
-数据均衡-Rebalance
-垃圾回收-Garbage collection
--垃圾回收-Garbage collection(主讲人:姚文辉)
-Erasure coding
-Erasure coding(3,2)写入和读取过程
--Erasure coding(3,2)写入和读取过程(主讲人:姚文辉)
-元数据管理的高可用性和可扩展性
-元数据管理的高可用性
-Paxos概要
-Raft
-元数据管理的可扩展性
-不同存储介质的特性
-盘古混合存储
-QUIZ--作业
-阿里云飞天分布式调度
-任务调度
-资源调度
-容错机制
-规模挑战
-安全域性能隔离
-分布式调度的发展方向
-QUIZ--作业
-数据格式和抽象
-分布式编程模型
-MapReuduce编程模型
-关系型数据编程模型
-分布式图计算模型
-分布式编程未来展望
-QUIZ--作业
-分布式事务
-分布式一致性算法
-两阶段提交与三阶段提交
-实践--介绍
-关系型计算基本原理_1
-关系型计算基本原理_2
-分布式环境中的连接计算和聚合计算
-其他计算和物理优化
-QUIZ--作业
-提纲
-课程背景介绍
-前序知识
-分布式节点距离计算法则
-数据分布策略
-分布式计算调度
-数据就近原则计算如何容错
-ODPS跨集群数据依赖
-QUIZ--作业
-主讲人:谢德军
--实践2:编写MR完成Group By+Join操作(主讲人:谢德军)
-增量计算和流式计算
-与批量计算的区别
-业界典型系统技术概要分析
-核心技术
-消息机制
-有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制
--有状态计算、并行DAG、抢占式调度和资源隔离、Failover机制(主讲人:强琦)
-StreamSQL
-QUIZ--作业
-软硬件趋势、分布式计算简史与内存计算
-分布式计算
-内存计算
-统一的计算框架
-业界经典系统技术分析-spark&flink
--业界经典系统技术分析-spark&flink(主讲人:强琦)
-QUIZ--作业
-主讲人:褚葳
-QUIZ--作业
-分布式环境下的新问题
-工程实现范例
-课程设计相关问题