当前课程知识点:大数据系统基础 >  2.云计算 >  授课视频 >  2.3规模经济理念

返回《大数据系统基础》慕课在线视频课程列表

2.3规模经济理念在线视频

2.3规模经济理念

下一节:2.4从仓库规模计算机到云

返回《大数据系统基础》慕课在线视频列表

2.3规模经济理念课程教案、知识点、字幕

第二个理念是规模经济

它更多的是一个经济理念

也就是我们怎么样

能够更便宜的处理大数据

这里我们讲一种典型的架构

叫做仓库规模的计算机

叫 warehouse computer WSC

仓库规模计算机

实际上是并行化

发展到极端规模的一种体现

它是讲我们用

很多很多计算机

来并发的处理同一个事情

我们自己搭一个

小的计算机的话

主要的部件是主板 CPU 内存

硬盘 你把它插在一起

就做成一个计算机

仓库规模计算机的硬件

实际上是一个一个的 完整的

服务器 存储设备

这些存储设备之间

是拿网络连接在一起的

然后为了把这些东西保存起来

我们需要一个供电制冷

整个的建筑和建筑的安全等等

这一系列的设施

所以看起来

就是一个大型的建筑

但是我们认为这些大型的建筑

它就是一台计算机

仓库规模计算机的优势

它是把规模经济效益

发挥到极致

因为你买一台计算机

和你买一百万台计算机

你可以想象

你拿到的价格

肯定是不一样的

再者来说

因为有很多很多的用户

不同用户的需求是不一样的

所以我们很可能能找到一些

对资源的需求是互补的

有人愿意用更多的存储

有人愿意用更多的计算

在这种情况下

我们能提升各个组件

和提升一个

这种计算机的整体的使用效率

提升了效率

那么自然成本就下来了

但建设这种机器

挑战也是非常巨大的

首先是一个能耗问题

就说能耗的效率

现在是用一个概念叫PUE

叫()

他是用这么一个东西

来度量的

这个PUE 基本上的感觉就是

整体的能量

是 total energy

是总体的能量

除以你用在compute上的能量

意思就是说 比如说

你用了一度电

如果有半度电

是用在计算机上的

剩下的半度电

比如用在空调制冷

用在传输上 耗掉了

那么你的PUE就是2

国内很多计算中心的PUE

都超过了2

是一种比较老式的机器

现在比较先进的一些计算中心

PUE基本上到1.1 甚至于更低

所以这个能耗

PUE对于节能来说

它是一个巨大的一个影响

剩下一个就是运维

你把这么多机器

这么多的组件

包括供电这些东西

都堆在一起

你怎么样维护它

怎么样管理它

这包括硬件的运维

软件的运维

这些都是极大的一些挑战

所以仓库规模计算机

也是近些年

大家才 有一些个顶尖的IT公司

他们才开始慢慢的建设的

这是一张google的

公开的一张图片

是google在()

建的一个数据中心

这个数据中心可以看到

它首先它是几个大的建筑

它为什么这么下仓库

实际上至少这是两个大的仓库

它外边有这个制冷的设施

仓库里头都是计算设施

如果你看到

这个里面是一个一个的

小汽车的话

你可以考虑到

这个仓库到底有多大

它旁边是一条河 这是一条河

为什么它建在河边

因为它制冷

它可以采取这个河里的

冷却的水 ()这个地方

常年的温度不是很高

这也是他考虑

把这个东西

建在那里的一个原因

再一个 有河的地方

它有水电

供电也得到了一定的解决

所以整个

建这样的一个数据中心

它是一个多方面的考虑

它不光是计算的问题

也是一系列的

从环境 从整个的供电效率

整体的一种考虑

在这个数据中心内部

那么当然

它这是有若干个足球场那么大

它这种跑的大管子

这里头要么是冷却水

要么是电线 网线

等等一系列的东西

然后这个一个一个的

都是机架 机架里头

都是计算和存储的资源

这些东西

都是拿网线连在一起的

这个规模

可以扩地非常非常大

你看在一个很重要的观点是

这个数据中心里的人

是非常少的

他只有在机器坏了的情况下

才有人来修

这也是我们可以把这个东西

建得规模这么大

它也是一种规模的经济效益

可以用很少的人

来管理很多很多的机器

但究竟仓库规模计算机是什么

我们可以简单地讲

这样的一个模型

这张图将来会

在这一讲里头

会反反复复的出现

它的模型是这样的

我们就是用网络连接起来的

一系列的计算资源

和存储资源

这里头 它没有画存储资源

但你可以想象

存储资源也是这样的一个机器

我们有若干的物理机器

很多机器 这些机器

我们通过一系列的交换机

这是一系列的网络交换机

把它理解在一起

具体的 细节的网络架构

待会我们会详细地去讲道

然后我们可以理解

这是一个数据中心

一个数据中心里

有一个复杂的网络架构

把很多机器连接在一起

如果我们有多个数据中心

像很多大的公司

它肯定会有多个数据中心

这个时候

它是通过公用的互联网

把这些连在一起

在一个机器内部

我们可以提供多个虚拟机

所以虚拟机

也可能是数据中心的

一个调度的资源

也可能是物理机器

但是总体来讲 我们的架构是

若干个数据中心

通过网络把机器连在一起

但是不是我们把

很多计算机连在一起了

它就是一个大型的计算机

这个也不一定

因为办公室的电脑

也是用网络

连接了很多计算机在一起

传统的电信数据中心

也是把用网络连接了很多计算机

但是什么东西

才是仓库规模计算机

什么东西

才是把很多小的计算机

拼成一个大的计算机

那么它 google提出说

我们有以下这些特点

第一这种计算机里头

不是什么样的电脑都有

它大部分的计算 存储

和网络设备 都是一致的

为什么一致 一致才方便管理

你才能用更少的人

来管理更多的机器

因为它都是一样的

第二个是相同的系统管理

如果你建了很多机柜

我们谁拿了机器

都可以往里插 都可以用

那个它很难跑上一台计算机

它还是若干个计算机

放在一块而已

当然google的定义说

大多数的应用程序

中间件 应用系统软件

都是自主开发的

它是自己控制的

而不是说

我随便跑什么应该都行

这个其实在很多的企业里头

它也不一定

因为有一些企业

它跑得规模非常大

但是它实际上

也是第三方开发的

第四点是

这种相对运行小数目的

超大型的程序

而不是我这有两千台机器

然后我租给了五万个人

每个人跑一个不同的网站

这种也不是一台机器

所以这个你感觉 为什么它叫()

为什么它是一台计算机

那么是因为

它把所有的资源都放在一起

运行了少量的

大型的应用程序

最后一点就是说

在你满足了

上述的一些条件之后

那么我们可以做一个

非常通用的资源管理架构

这时候 你部署就有灵活性

你资源管理就有灵活性

它就方便管理

所以它更加给你的感觉

就是它是一台计算机

而不是很多台

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

2.3规模经济理念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。