当前课程知识点:大数据系统基础 > 2.云计算 > 授课视频 > 2.1大数据和云计算关系概述
大家好 我是清华大学的徐葳
今天我们探讨一下
大数据系统的
软硬件的基础架构
也就是我们通常说的云计算
首先我们看看云计算
和大数据系统之间的关系
为什么云计算技术
是实现大数据系统的
一个非常好的解决方法
之后我们看一下
云计算技术的本身
它的商业模式何在
为什么它能在近几年
得到长足的发展
它的优势到底在什么地方
之后我们进入到
本节课的技术核心
我们探讨虚拟化技术
在这里我们集中地讲解
计算的虚拟化
网络虚拟化和存储虚拟化
三个方面
最后我们通过
一个真实的 开源的
云计算系统 Open stack
通过分析它的设计与实现
我们来巩固和提升一下
我们所学到的
关于虚拟化和云
这方面的知识
首先我们看一下大数据
和云计算之间的关系
上节课王老师也讲到了
大数据的特点是四个V
那么就是数量大 产生速度快
种类多样 还有价值密度低
所以这就是大数据的四个特点
从这四个特点我们可以看出
如果我们要建一个
分析大数据的系统来说
我们有几个明显的要求
第一个明显的要求
因为它数量大嘛
所以我们显然需要做这个
海量的计算和存储
当然它产生速度快
那么我说 这算得要足够快
处理得要足够快
这是一个很明显的需求
当然对于大数据系统来说
我们还有一些个
不是那么明显的需求
比方说 那个数据产生的地方
和你数据处理的地方
它往往不是同一个地方
你可以考虑到 比如说
我们做一个智能城市的应用
数据产生是在业外
比如说在各个地方
由传感器采集来的
那数据的处理
是在数据中心里进行的
如果能把这个
我们收集到的数据
快速地传输到数据中心里头去
这需要一个很快的
广域网的数据传输
所以这个也是由数据量
和我们对数据处理速度的要求
共同决定的
当然还有一些
更不明显的需求
比如说 因为数据也是多样的
而且应用也是多样的
而且大数据这个事情
现在刚刚开始起步
具体它会发展成什么样的
其实大家也不是很清楚
所以现在应用层出不穷
所以对于系统来说
我们需要一个足够的灵活
所以灵活性
是大数据系统的
一个非常重要的特征
最后一个就是因为
大数据这个东西
价值密度非常的低
我们存很多很多的数据
分析很多很多的数据
实际上它真正有用的
只有那一点点
在这种情况下
我们要求大数据系统
要求它是有一个低成本的特性
否则的话 任何的企业
它也不可能够负担得起
我们用非常昂贵的系统
象我们过去做数据仓库
和做数据库
那种方式来做出来的存储系统
我们不可能利用那些系统
来处理大数据
因为成本太高了
那么如何来实现这些需求
这是大数据系统设计
或者说其实也是
很多的分布式系统设计的
三个核心的理念
第一个叫并行化
并行化的理念是非常清晰的
就是说一个事情
一个人干不了
那么我们把它切成好多小块
分给好多人同时干
这样的话 你干得就快了
这叫并行化的概念
第二个是规模经济
就是说你如果做一个这个事情
它实际上成本很低的
但是如果你把它规模经济
你把它同时做很多很多
你把规模做大
然后把设计成本
把这些个一次投入的成本
都摊销到所有的
这些个规模上去
这时候 你的平均成本就低了
所以这是一个规模经济的概念
第三个是虚拟化
硬件 软件都是多种多样的
你把这些多种多样的东西
放在一起
你不好管理 不好调度
所以我们怎么办呢
我们需要定义一个
非常漂亮的接口
然后把那些个
非常恶心的具体的实现
隐藏在下边
这些给大家一个好看的接口
这样方便调度和管理
这就叫做虚拟化的概念
这三个 实际上都是一些
非常朴实的观点
因为做计算机的人
为什么叫做IT民工
他就是一些非常朴实的想法
但是这些想法
如果我们推进到
真正的系统中去
我们会发现这个系统设计出来
才能够解决这样的问题
下面这节课里头
我们会简单地介绍这三个理念
其实这三个理念
将会贯穿整个这一门的课程
大家如果听到后边的一些周
这些观念会一次一次的重现
现在我们来看一下
大数据系统的基本的
软硬件架构
我们想象这个平台
是什么样子的
当然最基础的硬件
从硬件层来说
我们就是计算资源 存储资源
以及把它们用网络连接起来
这是硬件层
刚才我们说到
这种硬件层实际上是多种多样
我们很难管理
所以我们有一层虚拟化层
我们把存储网络和云计算
都虚拟化
这样提供一个标准的接口
到云计算这一层 实际上是
通过这个很好的虚拟化的
这样抽象的接口
我们把这些资源
进行统一的调度和管理
在云计算上层
因为我们有资源了
这时候我们提供的接口是什么
我要多少存储
我要多少计算资源
我要多少网络
这个云就会提供给我
所以在这上层
我们可以建设一系列的
大数据处理的叫做框架
这个框架实际上是
体现了一种并行化的思想
它利用这些资源
把这些资源组织在一起
让它们协同工作
然后提供一个更加高层的接口
这种更加高层的接口
隐藏了底下这些
并行化的这些理念
所以让大家开发应用会更容易
比如说上面
我们可以开发智能城市应用
开发一些视频的应用
多媒体的应用 等等
但是当你开发这些应用的时候
你会发现 你不用再想
底下的这层复杂的这种实现了
这一节课我们主要是讲
这层以下的内容
虚拟化和以下的内容
这是云计算的基础
在后边 我们会讲到
这个资源的调度和管理
这个主要是讲的云这一层
我们是如何把这些资源
分配给不同的框架的
我们这边课里头
主要的几讲 会谈到
详细地讲到Hadoop Spark
这样的大数据处理的框架
它们是提供了怎样一个抽象
你怎样来做这个应用
在最后一讲的时候
我们谈到大数据的
具体应用的时候你就会发现
整体的最底下的
这一系列的系统
为大数据应用的开发
提供了一个非常非常好的环境
真正应用开发的人
或者说数据分析师们
已经不再需要
去想底下的这些个
复杂的东西是怎么回事了
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7