当前课程知识点：大数据系统基础 > 5.内存计算 > 授课视频 > 5.15Spark实现技术

返回《大数据系统基础》慕课在线视频课程列表

5.15Spark实现技术在线视频

5.15Spark实现技术

下一节:5.16复杂的DAG示例

返回《大数据系统基础》慕课在线视频列表

5.15Spark实现技术课程教案、知识点、字幕

我们现在来介绍一下

Spark的一些实现技术

第一个实现技术

我们叫做延迟估值

我们来看这样几个代码

那么我们首先这个lines

它是从这个texFile

从data.txt里面把内容取进来

生成一个RDD

然后这个LineLengths

实际上是把其中的这个

每一行都把它映射成它的长度

所以里面是每一行的长度

大家注意这个textFile

是产生RDD

Map也是transformation

这两步在Spark的实现里面

它们都是transformation

它们都不会触发计算

它们只是用这样的这些

transformatio只是在系统里

做了记录就类似于

我们下面的这样一个

图上面的一个记录

也就是说

我们知道说从这个Lines里面

通过Map可以得到这个

lineLengths这样的一个RDD

但是在程序执行

到这个位置的时候

执行到第二行的时候

这个还没有引发任何

真正的数据集的操作

就是既没有去读这个文件

产生Lines也没有从这个

Lines去做这个Map操作

产生这个LineLengths这个RDD

那么什么时候真正的

去触发这样的一个操作

是到第三行的时候

第三行的时候

我们前面发现这个reduce

它是一个Action

也就是它不再是做RDD

之间的一个转换了

而是说要从这个RDD里面

获取这个实际的值

要把这个reduce

就是要把

我们知道这个lineLengths

它实际上里面有很多的数字

就是每行的长度

那么这个A B转成A+B

意思就是说这个lineLengths

这个RDD里面的元素

我们要通过加法

把它最后reduce成

一个统一的这样一个长度

那么在遇到了

这样的一个语句以后

实际上整个的这个图

我们可以看到这相当于是一个

我们叫做operator graph

操作符图那么第一步是Map

那么有了这个第三句以后

我们需要把这个reduce

这个阶段也加到这个图里面

然后最后生成totalLength

这样的一个数字

在生成了这个图以后

我们需要

因为这是一个Action

reduce是一个Action

我们就触发了这样的一个操作

把前面构成的这个图

就开始去执行

就从这个数据文件里面

去读入这个data.txt的

生成lines

然后再通过Map

做到lineLengths

最后再通过reduce

生成这个totalLength

所以这就是我们要介绍的

Spark的第一个实现技术

就是叫延迟估值Lazy Evaluatio

大数据系统基础课程列表：

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化：基础

--2.11网络虚拟化：软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化：用户接口

--2.14存储虚拟化：分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.7MapReduce总结

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化（2）

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

-7. 流计算--Quiz7

5.15Spark实现技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。