当前课程知识点:大数据系统基础 > 1. 绪论 > 授课视频 > 大数据生态系统
我们了解一下大数据的生态系统
这是我两年前在网络上找到的
非常流行的大数据生态系统
看起来十分丰富
甚至让人眼花心乱
因此我们就可以看到近年来
大数据生态系统发展
是有多么迅速
当然今天被人们普遍认同的
大数据软件系统
非Hadoop生态圈莫属
人们在其中很容易看到
谷歌公司的GFS Big table
Mam reduce
和(英文)的影子
但是这并没有影响人们
使用和发展Hadoop的热情
今天大家到网上来去
再去观察一下Hadoop的生态圈
要比这个丰富了两到三倍
提到大数据的生态圈
最令学术界骄傲的
还是伯克利大学开发的
Spark生态系统
这幅图是该团队
2013年发布的软件站的示意图
我们看到
Spark的生态系统
是和Hadoop的生态系统
交织在一起的
它充分利用了
Hadoop生态系统的文件存储
和计算框架
同时又填补了Hadoop生态系统
在内存文件
和内存系统当中的不足
当今Spark具有两个主要优势
一
把各种大数据应用
纳入统一的开发框架
用户学习的成本低
配置的速度快
开发者省时省力
基于Spark开发分布式应用
往往可以节省90%的代码量
同时
Spark生态系统的运算速度快
伯克利自主创立的弹性数据结构
简称RDD
将所有的数据均缓存在内存中
且在内存崩溃的时候
能够利用文件系统可靠地恢复
因此
伯克利大数据的软件站
继承了内存处理的高速读写特性
因此它的运算速度
比传统的Mapreduce的计算速度
高一到两个数量级
随着大数据生态圈的繁荣
人们开始考虑
将大数据系统的结构
或者说框架进行标准化
美国国家标准化与技术局
于2014年给出了大数据系统的
参考框架
本人也有幸参与了
这个标准的形成过程
大家可以看到
East给出了大数据参考框架
它的纵向表达的是
大数据系统的软件站的层次
它的横向表示的是
大数据处理的生命周期
当然
大数据系统的参考框架
仍然在不断地完善当中
我们在考察
大数据系统生态圈的时候
可以借助这个框架来定位
每一个开源软件
在大系统层次当中的位置
以及它所处的大数据生命周期
中的具体阶段
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7