当前课程知识点:大数据系统基础 >  5.内存计算 >  授课视频 >  5.18Spark应用和生态环境

返回《大数据系统基础》慕课在线视频课程列表

5.18Spark应用和生态环境在线视频

5.18Spark应用和生态环境

下一节:5.19Spark的局限性

返回《大数据系统基础》慕课在线视频列表

5.18Spark应用和生态环境课程教案、知识点、字幕

下面我们来介绍一下

Spark它有哪些应用

以及它的生态环境

Spark是加州伯克利大学

AMP实验室开发的

那么实际上AMP实验室

它开发了一整套

用于大数据分析的系统

那么它最底层

是一个叫做Mesos的

这样的一个资源管理系统

和这个调度器

那么中间是Hadoop的

分布式文件系统

主要用来做这个任务的

数据的这个可靠保存

当然这里面灰色的这些部分

大家可以看到都是

相关的外部的工作

并不是Spark这个项目所开发的

但是它是比较密切

而且也都集成到了

整个的这个生态环境里面

这个后面的这个叫Tachyon

这是一个内存的文件系统

那么也是我们说Spark

它的这个RDD是用来做分析的

而Tachyon

它是如何用内存来做文件

这样接口的这个数据的访问

因为hdfs毕竟还是基于

一个硬盘的这样一个文件系统

它的性能还是 很不好

那么如果能够做到

一个内存的文件系统

还可以进一步的把读写

即使是往文件里面

去读写数据的这个时间

也大大减少 性能大大提高

那么Spark就是我们

主要介绍的这样的这个

内存计算的框架

那么它是基于

下面的这些组建的

在Spark之上

这个AMP实验室

它又开发了一些相关的应用

比如说让Spark支持这个

SQL的API

能够去用SQL语言

来查询数据

那么就出现了Shark

那么用Spark来支持流计算

这个我们在后面的课程上会介绍

那么就出现了Spark Streaming

另外Spark还在开发

Graphx怎么样利用Spark

来支撑图这类的这个算法

和计算模型

以及如何用Spark来支持

这个机器学习算法等等

现有的这个大数据系统

可以大致看成

是这样的一种思路

也就是说

我们把Map reduce看成是一种

通用的T处理编程模型

编程系统

那么有很多改进

比如说Pregel Giraph

它们都是在图计算方面

我们专门针对图计算

而开发的这样的系统

而像Tez这样的东西

它实际上就是针对

Map reduce里面

任务的表示只有

这个Map和reduce

而且只能把它们自己相迭代

而不能表达复杂的任务流

而Tez实际上就是

支持这个有向无环图的

这个任务的表示

那其他的部分像Storm

它实际上是做流计算的

我们后面可能会也会提到等等

GraphLab也是一个图计算的

这样的一个模式

也就是说这些系统

相对来说它们都是来做

这个通过定制化系统

专业针对某一个领域

来提供一个特殊的

这样的一个编程模型

而Spark希望做到的

一个方法 是说

它希望用Spark

来支持各种类型的计算

比如说支持SKL SQL查询

支持这个流计算

支持图计算支持机器学习

那么要做到这一点

实际上只做了两个技术

两个比较核心的技术

那么它的思路是说

我们如果能够用一个底层的

编程框架去支持多种的任务模式

是一个非常好的事情

但是Map reduce不能够

担当这个责任

因为它相对来说编程抽象太简单

而且数据共享

非常的慢所以Spark

也就是说首先它在这个

任务描述方面它支持这个

任务的这个DAG

也就是支持复杂的

任务流程描述

而不像Map reduce一样

只支持非常简单的

这个任务描述

另外在数据共享方面

提出了这个RDD

也就是说我们用内存来做

数据共享的这个介质

而不要用硬盘

用文件系统来做

这个内存共享的介质

所以有Spark以后

就可以得到很大的好处

如果没有Spark

我们可能在做这个

大数据处理的时候

我们在做这个数据的清洗

做数据的装载的时候

我们需要用某一种编程框架

而用做这个训练

做这个机器学习的时候

我们需要另外一个编程框架

然后去做quer做这个数据的

交互式分析的时候

又要用到第三种编程框架

这个使得整个的系统

管理起来非常的困难

那么用Spark实际上

我们可以用一套系统

只要从hdfs上面把数据读进来

那么剩下的数据的清洗整理

学习以及这个查询等等工作

都可以在Spark的

这个支持下通用的

用Spark这样一个框架

就可以完成

所以会对使用者来说

这个是一个非常简单

非常有效的事情

从学习使用部署角度

都会有很多的好处

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

5.18Spark应用和生态环境笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。