当前课程知识点:大数据系统基础 >  2.云计算 >  授课视频 >  2.1大数据和云计算关系概述

返回《大数据系统基础》慕课在线视频课程列表

2.1大数据和云计算关系概述在线视频

2.1大数据和云计算关系概述

下一节:2.2并行化理念

返回《大数据系统基础》慕课在线视频列表

2.1大数据和云计算关系概述课程教案、知识点、字幕

大家好 我是清华大学的徐葳

今天我们探讨一下

大数据系统的

软硬件的基础架构

也就是我们通常说的云计算

首先我们看看云计算

和大数据系统之间的关系

为什么云计算技术

是实现大数据系统的

一个非常好的解决方法

之后我们看一下

云计算技术的本身

它的商业模式何在

为什么它能在近几年

得到长足的发展

它的优势到底在什么地方

之后我们进入到

本节课的技术核心

我们探讨虚拟化技术

在这里我们集中地讲解

计算的虚拟化

网络虚拟化和存储虚拟化

三个方面

最后我们通过

一个真实的 开源的

云计算系统 Open stack

通过分析它的设计与实现

我们来巩固和提升一下

我们所学到的

关于虚拟化和云

这方面的知识

首先我们看一下大数据

和云计算之间的关系

上节课王老师也讲到了

大数据的特点是四个V

那么就是数量大 产生速度快

种类多样 还有价值密度低

所以这就是大数据的四个特点

从这四个特点我们可以看出

如果我们要建一个

分析大数据的系统来说

我们有几个明显的要求

第一个明显的要求

因为它数量大嘛

所以我们显然需要做这个

海量的计算和存储

当然它产生速度快

那么我说 这算得要足够快

处理得要足够快

这是一个很明显的需求

当然对于大数据系统来说

我们还有一些个

不是那么明显的需求

比方说 那个数据产生的地方

和你数据处理的地方

它往往不是同一个地方

你可以考虑到 比如说

我们做一个智能城市的应用

数据产生是在业外

比如说在各个地方

由传感器采集来的

那数据的处理

是在数据中心里进行的

如果能把这个

我们收集到的数据

快速地传输到数据中心里头去

这需要一个很快的

广域网的数据传输

所以这个也是由数据量

和我们对数据处理速度的要求

共同决定的

当然还有一些

更不明显的需求

比如说 因为数据也是多样的

而且应用也是多样的

而且大数据这个事情

现在刚刚开始起步

具体它会发展成什么样的

其实大家也不是很清楚

所以现在应用层出不穷

所以对于系统来说

我们需要一个足够的灵活

所以灵活性

是大数据系统的

一个非常重要的特征

最后一个就是因为

大数据这个东西

价值密度非常的低

我们存很多很多的数据

分析很多很多的数据

实际上它真正有用的

只有那一点点

在这种情况下

我们要求大数据系统

要求它是有一个低成本的特性

否则的话 任何的企业

它也不可能够负担得起

我们用非常昂贵的系统

象我们过去做数据仓库

和做数据库

那种方式来做出来的存储系统

我们不可能利用那些系统

来处理大数据

因为成本太高了

那么如何来实现这些需求

这是大数据系统设计

或者说其实也是

很多的分布式系统设计的

三个核心的理念

第一个叫并行化

并行化的理念是非常清晰的

就是说一个事情

一个人干不了

那么我们把它切成好多小块

分给好多人同时干

这样的话 你干得就快了

这叫并行化的概念

第二个是规模经济

就是说你如果做一个这个事情

它实际上成本很低的

但是如果你把它规模经济

你把它同时做很多很多

你把规模做大

然后把设计成本

把这些个一次投入的成本

都摊销到所有的

这些个规模上去

这时候 你的平均成本就低了

所以这是一个规模经济的概念

第三个是虚拟化

硬件 软件都是多种多样的

你把这些多种多样的东西

放在一起

你不好管理 不好调度

所以我们怎么办呢

我们需要定义一个

非常漂亮的接口

然后把那些个

非常恶心的具体的实现

隐藏在下边

这些给大家一个好看的接口

这样方便调度和管理

这就叫做虚拟化的概念

这三个 实际上都是一些

非常朴实的观点

因为做计算机的人

为什么叫做IT民工

他就是一些非常朴实的想法

但是这些想法

如果我们推进到

真正的系统中去

我们会发现这个系统设计出来

才能够解决这样的问题

下面这节课里头

我们会简单地介绍这三个理念

其实这三个理念

将会贯穿整个这一门的课程

大家如果听到后边的一些周

这些观念会一次一次的重现

现在我们来看一下

大数据系统的基本的

软硬件架构

我们想象这个平台

是什么样子的

当然最基础的硬件

从硬件层来说

我们就是计算资源 存储资源

以及把它们用网络连接起来

这是硬件层

刚才我们说到

这种硬件层实际上是多种多样

我们很难管理

所以我们有一层虚拟化层

我们把存储网络和云计算

都虚拟化

这样提供一个标准的接口

到云计算这一层 实际上是

通过这个很好的虚拟化的

这样抽象的接口

我们把这些资源

进行统一的调度和管理

在云计算上层

因为我们有资源了

这时候我们提供的接口是什么

我要多少存储

我要多少计算资源

我要多少网络

这个云就会提供给我

所以在这上层

我们可以建设一系列的

大数据处理的叫做框架

这个框架实际上是

体现了一种并行化的思想

它利用这些资源

把这些资源组织在一起

让它们协同工作

然后提供一个更加高层的接口

这种更加高层的接口

隐藏了底下这些

并行化的这些理念

所以让大家开发应用会更容易

比如说上面

我们可以开发智能城市应用

开发一些视频的应用

多媒体的应用 等等

但是当你开发这些应用的时候

你会发现 你不用再想

底下的这层复杂的这种实现了

这一节课我们主要是讲

这层以下的内容

虚拟化和以下的内容

这是云计算的基础

在后边 我们会讲到

这个资源的调度和管理

这个主要是讲的云这一层

我们是如何把这些资源

分配给不同的框架的

我们这边课里头

主要的几讲 会谈到

详细地讲到Hadoop Spark

这样的大数据处理的框架

它们是提供了怎样一个抽象

你怎样来做这个应用

在最后一讲的时候

我们谈到大数据的

具体应用的时候你就会发现

整体的最底下的

这一系列的系统

为大数据应用的开发

提供了一个非常非常好的环境

真正应用开发的人

或者说数据分析师们

已经不再需要

去想底下的这些个

复杂的东西是怎么回事了

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

2.1大数据和云计算关系概述笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。