当前课程知识点:大数据系统基础 > 5.内存计算 > 授课视频 > 5.11大数据并行系统
所以 从Spark这样的一个
设计理念我们可以看到
它所着重的方面
我们前面讲过
大数据并行处理系统
有三个主要的方面
编程模型的描述性
你怎么去识别和描述并行性
容错能力怎么在很多台机器上
获得高效的 强的容错能力
还有就是成本和性能的优化
那么我们来看Spark
它在这三个方面是怎么考虑的
那么首先它着重于
高效率的容错能力和
这个性能成本的优化
也就是说我们看到这个RDD
它实际上对编程提供了一些限制
也就是说以
数据集为核心的抽象
然后一旦immutable
不可做修改
这实际上是限制了
编程的表达能力
我们在这个课程的最后
会介绍这个对实际问题
做了哪些的限制
那么Spark实际上是用
编程模型上的限制
来换取了好的容错能力
和快速的这个性能
那么在很多的这个大数据
处理平台里面
Spark的这个设计权衡
到底它能够适应哪些问题
又不适应哪些问题
我们可以从这样的图上看出来
这个图的横轴是写的吞吐率
也就实际上我们可以
把它抽象成 性能
那么纵轴是你能够
修改的这个力度
那么我们刚才说过
像键值对这样的东西
RAMCloud还有数据库
这样的东西它们都允许
做in-place修改
所以它们都是细粒度的这种
细粒度的这种修改
那hdfs大家知道
是一个分布式文件系统
它也只能做大块文件的
这样的修改
甚至它也是不许在本带修改的
实际上它也是做添加的
这样的一种方式
那么总体上
这样的两种方式
实际上都是只能够做到
这个比较低的写的吞吐率
而RDD这样的一种抽象的方式
它通过限制这样的
编程上面的一点点灵活性
但是它提供的
它希望能够做到
是这高的这个写的吞吐率
但是它的这个修改的力度
我们刚才说过
它是用这个来换取了
这样的一个代价
就是不允许做细粒度修改
来换取了这个
好的容错能力和这个好的性能
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7