当前课程知识点:大数据系统基础 > 2.云计算 > 授课视频 > 2.3规模经济理念
第二个理念是规模经济
它更多的是一个经济理念
也就是我们怎么样
能够更便宜的处理大数据
这里我们讲一种典型的架构
叫做仓库规模的计算机
叫 warehouse computer WSC
仓库规模计算机
实际上是并行化
发展到极端规模的一种体现
它是讲我们用
很多很多计算机
来并发的处理同一个事情
我们自己搭一个
小的计算机的话
主要的部件是主板 CPU 内存
硬盘 你把它插在一起
就做成一个计算机
仓库规模计算机的硬件
实际上是一个一个的 完整的
服务器 存储设备
这些存储设备之间
是拿网络连接在一起的
然后为了把这些东西保存起来
我们需要一个供电制冷
整个的建筑和建筑的安全等等
这一系列的设施
所以看起来
就是一个大型的建筑
但是我们认为这些大型的建筑
它就是一台计算机
仓库规模计算机的优势
它是把规模经济效益
发挥到极致
因为你买一台计算机
和你买一百万台计算机
你可以想象
你拿到的价格
肯定是不一样的
再者来说
因为有很多很多的用户
不同用户的需求是不一样的
所以我们很可能能找到一些
对资源的需求是互补的
有人愿意用更多的存储
有人愿意用更多的计算
在这种情况下
我们能提升各个组件
和提升一个
这种计算机的整体的使用效率
提升了效率
那么自然成本就下来了
但建设这种机器
挑战也是非常巨大的
首先是一个能耗问题
就说能耗的效率
现在是用一个概念叫PUE
叫()
他是用这么一个东西
来度量的
这个PUE 基本上的感觉就是
整体的能量
是 total energy
是总体的能量
除以你用在compute上的能量
意思就是说 比如说
你用了一度电
如果有半度电
是用在计算机上的
剩下的半度电
比如用在空调制冷
用在传输上 耗掉了
那么你的PUE就是2
国内很多计算中心的PUE
都超过了2
是一种比较老式的机器
现在比较先进的一些计算中心
PUE基本上到1.1 甚至于更低
所以这个能耗
PUE对于节能来说
它是一个巨大的一个影响
剩下一个就是运维
你把这么多机器
这么多的组件
包括供电这些东西
都堆在一起
你怎么样维护它
怎么样管理它
这包括硬件的运维
软件的运维
这些都是极大的一些挑战
所以仓库规模计算机
也是近些年
大家才 有一些个顶尖的IT公司
他们才开始慢慢的建设的
这是一张google的
公开的一张图片
是google在()
建的一个数据中心
这个数据中心可以看到
它首先它是几个大的建筑
它为什么这么下仓库
实际上至少这是两个大的仓库
它外边有这个制冷的设施
仓库里头都是计算设施
如果你看到
这个里面是一个一个的
小汽车的话
你可以考虑到
这个仓库到底有多大
它旁边是一条河 这是一条河
为什么它建在河边
因为它制冷
它可以采取这个河里的
冷却的水 ()这个地方
常年的温度不是很高
这也是他考虑
把这个东西
建在那里的一个原因
再一个 有河的地方
它有水电
供电也得到了一定的解决
所以整个
建这样的一个数据中心
它是一个多方面的考虑
它不光是计算的问题
也是一系列的
从环境 从整个的供电效率
整体的一种考虑
在这个数据中心内部
那么当然
它这是有若干个足球场那么大
它这种跑的大管子
这里头要么是冷却水
要么是电线 网线
等等一系列的东西
然后这个一个一个的
都是机架 机架里头
都是计算和存储的资源
这些东西
都是拿网线连在一起的
这个规模
可以扩地非常非常大
你看在一个很重要的观点是
这个数据中心里的人
是非常少的
他只有在机器坏了的情况下
才有人来修
这也是我们可以把这个东西
建得规模这么大
它也是一种规模的经济效益
可以用很少的人
来管理很多很多的机器
但究竟仓库规模计算机是什么
我们可以简单地讲
这样的一个模型
这张图将来会
在这一讲里头
会反反复复的出现
它的模型是这样的
我们就是用网络连接起来的
一系列的计算资源
和存储资源
这里头 它没有画存储资源
但你可以想象
存储资源也是这样的一个机器
我们有若干的物理机器
很多机器 这些机器
我们通过一系列的交换机
这是一系列的网络交换机
把它理解在一起
具体的 细节的网络架构
待会我们会详细地去讲道
然后我们可以理解
这是一个数据中心
一个数据中心里
有一个复杂的网络架构
把很多机器连接在一起
如果我们有多个数据中心
像很多大的公司
它肯定会有多个数据中心
这个时候
它是通过公用的互联网
把这些连在一起
在一个机器内部
我们可以提供多个虚拟机
所以虚拟机
也可能是数据中心的
一个调度的资源
也可能是物理机器
但是总体来讲 我们的架构是
若干个数据中心
通过网络把机器连在一起
但是不是我们把
很多计算机连在一起了
它就是一个大型的计算机
这个也不一定
因为办公室的电脑
也是用网络
连接了很多计算机在一起
传统的电信数据中心
也是把用网络连接了很多计算机
但是什么东西
才是仓库规模计算机
什么东西
才是把很多小的计算机
拼成一个大的计算机
那么它 google提出说
我们有以下这些特点
第一这种计算机里头
不是什么样的电脑都有
它大部分的计算 存储
和网络设备 都是一致的
为什么一致 一致才方便管理
你才能用更少的人
来管理更多的机器
因为它都是一样的
第二个是相同的系统管理
如果你建了很多机柜
我们谁拿了机器
都可以往里插 都可以用
那个它很难跑上一台计算机
它还是若干个计算机
放在一块而已
当然google的定义说
大多数的应用程序
中间件 应用系统软件
都是自主开发的
它是自己控制的
而不是说
我随便跑什么应该都行
这个其实在很多的企业里头
它也不一定
因为有一些企业
它跑得规模非常大
但是它实际上
也是第三方开发的
第四点是
这种相对运行小数目的
超大型的程序
而不是我这有两千台机器
然后我租给了五万个人
每个人跑一个不同的网站
这种也不是一台机器
所以这个你感觉 为什么它叫()
为什么它是一台计算机
那么是因为
它把所有的资源都放在一起
运行了少量的
大型的应用程序
最后一点就是说
在你满足了
上述的一些条件之后
那么我们可以做一个
非常通用的资源管理架构
这时候 你部署就有灵活性
你资源管理就有灵活性
它就方便管理
所以它更加给你的感觉
就是它是一台计算机
而不是很多台
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7