当前课程知识点:大数据系统基础 >  1. 绪论 >  授课视频 >  大数据生态系统

返回《大数据系统基础》慕课在线视频课程列表

大数据生态系统在线视频

大数据生态系统

下一节:大数据技术挑战

返回《大数据系统基础》慕课在线视频列表

大数据生态系统课程教案、知识点、字幕

我们了解一下大数据的生态系统

这是我两年前在网络上找到的

非常流行的大数据生态系统

看起来十分丰富

甚至让人眼花心乱

因此我们就可以看到近年来

大数据生态系统发展

是有多么迅速

当然今天被人们普遍认同的

大数据软件系统

非Hadoop生态圈莫属

人们在其中很容易看到

谷歌公司的GFS Big table

Mam reduce

和(英文)的影子

但是这并没有影响人们

使用和发展Hadoop的热情

今天大家到网上来去

再去观察一下Hadoop的生态圈

要比这个丰富了两到三倍

提到大数据的生态圈

最令学术界骄傲的

还是伯克利大学开发的

Spark生态系统

这幅图是该团队

2013年发布的软件站的示意图

我们看到

Spark的生态系统

是和Hadoop的生态系统

交织在一起的

它充分利用了

Hadoop生态系统的文件存储

和计算框架

同时又填补了Hadoop生态系统

在内存文件

和内存系统当中的不足

当今Spark具有两个主要优势

把各种大数据应用

纳入统一的开发框架

用户学习的成本低

配置的速度快

开发者省时省力

基于Spark开发分布式应用

往往可以节省90%的代码量

同时

Spark生态系统的运算速度快

伯克利自主创立的弹性数据结构

简称RDD

将所有的数据均缓存在内存中

且在内存崩溃的时候

能够利用文件系统可靠地恢复

因此

伯克利大数据的软件站

继承了内存处理的高速读写特性

因此它的运算速度

比传统的Mapreduce的计算速度

高一到两个数量级

随着大数据生态圈的繁荣

人们开始考虑

将大数据系统的结构

或者说框架进行标准化

美国国家标准化与技术局

于2014年给出了大数据系统的

参考框架

本人也有幸参与了

这个标准的形成过程

大家可以看到

East给出了大数据参考框架

它的纵向表达的是

大数据系统的软件站的层次

它的横向表示的是

大数据处理的生命周期

当然

大数据系统的参考框架

仍然在不断地完善当中

我们在考察

大数据系统生态圈的时候

可以借助这个框架来定位

每一个开源软件

在大系统层次当中的位置

以及它所处的大数据生命周期

中的具体阶段

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

大数据生态系统笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。