当前课程知识点:大数据系统基础 > 5.内存计算 > 授课视频 > 5.15Spark实现技术
我们现在来介绍一下
Spark的一些实现技术
第一个实现技术
我们叫做延迟估值
我们来看这样几个代码
那么我们首先这个lines
它是从这个texFile
从data.txt里面把内容取进来
生成一个RDD
然后这个LineLengths
实际上是把其中的这个
每一行都把它映射成它的长度
所以里面是每一行的长度
大家注意这个textFile
是产生RDD
Map也是transformation
这两步在Spark的实现里面
它们都是transformation
它们都不会触发计算
它们只是用这样的这些
transformatio只是在系统里
做了记录就类似于
我们下面的这样一个
图上面的一个记录
也就是说
我们知道说从这个Lines里面
通过Map可以得到这个
lineLengths这样的一个RDD
但是在程序执行
到这个位置的时候
执行到第二行的时候
这个还没有引发任何
真正的数据集的操作
就是既没有去读这个文件
产生Lines也没有从这个
Lines去做这个Map操作
产生这个LineLengths这个RDD
那么什么时候真正的
去触发这样的一个操作
是到第三行的时候
第三行的时候
我们前面发现这个reduce
它是一个Action
也就是它不再是做RDD
之间的一个转换了
而是说要从这个RDD里面
获取这个实际的值
要把这个reduce
就是要把
我们知道这个lineLengths
它实际上里面有很多的数字
就是每行的长度
那么这个A B转成A+B
意思就是说这个lineLengths
这个RDD里面的元素
我们要通过加法
把它最后reduce成
一个统一的这样一个长度
那么在遇到了
这样的一个语句以后
实际上整个的这个图
我们可以看到这相当于是一个
我们叫做operator graph
操作符图那么第一步是Map
那么有了这个第三句以后
我们需要把这个reduce
这个阶段也加到这个图里面
然后最后生成totalLength
这样的一个数字
在生成了这个图以后
我们需要
因为这是一个Action
reduce是一个Action
我们就触发了这样的一个操作
把前面构成的这个图
就开始去执行
就从这个数据文件里面
去读入这个data.txt的
生成lines
然后再通过Map
做到lineLengths
最后再通过reduce
生成这个totalLength
所以这就是我们要介绍的
Spark的第一个实现技术
就是叫延迟估值Lazy Evaluatio
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7