当前课程知识点:大数据系统基础 > 5.内存计算 > 授课视频 > 5.18Spark应用和生态环境
下面我们来介绍一下
Spark它有哪些应用
以及它的生态环境
Spark是加州伯克利大学
AMP实验室开发的
那么实际上AMP实验室
它开发了一整套
用于大数据分析的系统
那么它最底层
是一个叫做Mesos的
这样的一个资源管理系统
和这个调度器
那么中间是Hadoop的
分布式文件系统
主要用来做这个任务的
数据的这个可靠保存
当然这里面灰色的这些部分
大家可以看到都是
相关的外部的工作
并不是Spark这个项目所开发的
但是它是比较密切
而且也都集成到了
整个的这个生态环境里面
这个后面的这个叫Tachyon
这是一个内存的文件系统
那么也是我们说Spark
它的这个RDD是用来做分析的
而Tachyon
它是如何用内存来做文件
这样接口的这个数据的访问
因为hdfs毕竟还是基于
一个硬盘的这样一个文件系统
它的性能还是 很不好
那么如果能够做到
一个内存的文件系统
还可以进一步的把读写
即使是往文件里面
去读写数据的这个时间
也大大减少 性能大大提高
那么Spark就是我们
主要介绍的这样的这个
内存计算的框架
那么它是基于
下面的这些组建的
在Spark之上
这个AMP实验室
它又开发了一些相关的应用
比如说让Spark支持这个
SQL的API
能够去用SQL语言
来查询数据
那么就出现了Shark
那么用Spark来支持流计算
这个我们在后面的课程上会介绍
那么就出现了Spark Streaming
另外Spark还在开发
Graphx怎么样利用Spark
来支撑图这类的这个算法
和计算模型
以及如何用Spark来支持
这个机器学习算法等等
现有的这个大数据系统
可以大致看成
是这样的一种思路
也就是说
我们把Map reduce看成是一种
通用的T处理编程模型
编程系统
那么有很多改进
比如说Pregel Giraph
它们都是在图计算方面
我们专门针对图计算
而开发的这样的系统
而像Tez这样的东西
它实际上就是针对
Map reduce里面
任务的表示只有
这个Map和reduce
而且只能把它们自己相迭代
而不能表达复杂的任务流
而Tez实际上就是
支持这个有向无环图的
这个任务的表示
那其他的部分像Storm
它实际上是做流计算的
我们后面可能会也会提到等等
GraphLab也是一个图计算的
这样的一个模式
也就是说这些系统
相对来说它们都是来做
这个通过定制化系统
专业针对某一个领域
来提供一个特殊的
这样的一个编程模型
而Spark希望做到的
一个方法 是说
它希望用Spark
来支持各种类型的计算
比如说支持SKL SQL查询
支持这个流计算
支持图计算支持机器学习
那么要做到这一点
实际上只做了两个技术
两个比较核心的技术
那么它的思路是说
我们如果能够用一个底层的
编程框架去支持多种的任务模式
是一个非常好的事情
但是Map reduce不能够
担当这个责任
因为它相对来说编程抽象太简单
而且数据共享
非常的慢所以Spark
也就是说首先它在这个
任务描述方面它支持这个
任务的这个DAG
也就是支持复杂的
任务流程描述
而不像Map reduce一样
只支持非常简单的
这个任务描述
另外在数据共享方面
提出了这个RDD
也就是说我们用内存来做
数据共享的这个介质
而不要用硬盘
用文件系统来做
这个内存共享的介质
所以有Spark以后
就可以得到很大的好处
如果没有Spark
我们可能在做这个
大数据处理的时候
我们在做这个数据的清洗
做数据的装载的时候
我们需要用某一种编程框架
而用做这个训练
做这个机器学习的时候
我们需要另外一个编程框架
然后去做quer做这个数据的
交互式分析的时候
又要用到第三种编程框架
这个使得整个的系统
管理起来非常的困难
那么用Spark实际上
我们可以用一套系统
只要从hdfs上面把数据读进来
那么剩下的数据的清洗整理
学习以及这个查询等等工作
都可以在Spark的
这个支持下通用的
用Spark这样一个框架
就可以完成
所以会对使用者来说
这个是一个非常简单
非常有效的事情
从学习使用部署角度
都会有很多的好处
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7