当前课程知识点:大数据系统基础 >  5.内存计算 >  授课视频 >  5.11大数据并行系统

返回《大数据系统基础》慕课在线视频课程列表

5.11大数据并行系统在线视频

5.11大数据并行系统

下一节:5.12Spark编程接口

返回《大数据系统基础》慕课在线视频列表

5.11大数据并行系统课程教案、知识点、字幕

所以 从Spark这样的一个

设计理念我们可以看到

它所着重的方面

我们前面讲过

大数据并行处理系统

有三个主要的方面

编程模型的描述性

你怎么去识别和描述并行性

容错能力怎么在很多台机器上

获得高效的 强的容错能力

还有就是成本和性能的优化

那么我们来看Spark

它在这三个方面是怎么考虑的

那么首先它着重于

高效率的容错能力和

这个性能成本的优化

也就是说我们看到这个RDD

它实际上对编程提供了一些限制

也就是说以

数据集为核心的抽象

然后一旦immutable

不可做修改

这实际上是限制了

编程的表达能力

我们在这个课程的最后

会介绍这个对实际问题

做了哪些的限制

那么Spark实际上是用

编程模型上的限制

来换取了好的容错能力

和快速的这个性能

那么在很多的这个大数据

处理平台里面

Spark的这个设计权衡

到底它能够适应哪些问题

又不适应哪些问题

我们可以从这样的图上看出来

这个图的横轴是写的吞吐率

也就实际上我们可以

把它抽象成 性能

那么纵轴是你能够

修改的这个力度

那么我们刚才说过

像键值对这样的东西

RAMCloud还有数据库

这样的东西它们都允许

做in-place修改

所以它们都是细粒度的这种

细粒度的这种修改

那hdfs大家知道

是一个分布式文件系统

它也只能做大块文件的

这样的修改

甚至它也是不许在本带修改的

实际上它也是做添加的

这样的一种方式

那么总体上

这样的两种方式

实际上都是只能够做到

这个比较低的写的吞吐率

而RDD这样的一种抽象的方式

它通过限制这样的

编程上面的一点点灵活性

但是它提供的

它希望能够做到

是这高的这个写的吞吐率

但是它的这个修改的力度

我们刚才说过

它是用这个来换取了

这样的一个代价

就是不允许做细粒度修改

来换取了这个

好的容错能力和这个好的性能

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

5.11大数据并行系统笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。