当前课程知识点:大数据系统基础 > 2.云计算 > 授课视频 > 2.14存储虚拟化:分布式存储实现方式
从可以虚拟化的
存储的实现形式上来看
我们可以 主要两种方式
一种方式叫SAN
一种方式叫NAS
一种叫存储区域网络
还有一种叫网络附接的存储
所以你看
这个网络做存储的
这些词汇有多贫乏
它实际上是
就把这两个东西
换了一个位置
一个叫SAN 一个叫NAS
所谓的SAN 或者叫存储区域网络
什么意思
它说我把存储的
用作存储的这些设备
它看起来也是一种服务器了
和真正计算的服务器连接
我用的是一个专用的网络
比如说一个光纤通道的
这么一个网络叫FC
就单独我专做一个网络
专门连接存储用
然后我不管你其他的计算节点
计算节点
和普通的网络怎么连的
所以这是叫做一个
Storage Area Network 叫SAN
另外一种
人家就说专占一个
单独建一个网络
那么我们把它放到一起
好不好
我们就把网络设备
接在传统的
接计算服务器用的网络上
不管它是以太网 还是infiniBand
或者是任何的网络技术接的网络
我们就把存储接在那个上面
所以我们叫做
网络附接的存储
Network attached storage
这玩意儿 各有各的好处
SAN这种东西
你听起来就是很高大上的
因为它的存储
是单独跑到一个网络上的
它那个网络设计出来
就是为了跑这种存储的
work load
所以它会跑的比较快
而且它不会受整个的
你的计算服务器上的
网络的这种流量
和资源使用的这些影响
所以它性能会比较稳定
网络附接存储NAS的话
那么显然它会比较便宜
因为它是一套网络
它接起来也会比较简单
各有各的好处
所以这两种形式都是长期并存的
那么SAN的接法就是说
你看服务器
我是接在一个计算服务器的
一个网络
这是我的服务器通讯之间
都是这样
你考虑服务器的IP地址什么的
它都在这上面通讯
那么另外它就专做一个网口
它接了一个SAN的交换机
这通常都是一个光纤的接口
然后SAN的交换机
它交换机和交换机
可以接一个网络
所以它这边是一个完全
完整的一个网络
这个网络里头有磁盘 磁带等等
SAN的协议就是这样的
然后通常来讲
SAN上边跑的协议
都是块的协议
就是说这些磁盘阵列
我可以把这些磁盘阵列
切成很多很多小的
大大小小的磁盘
然后这个磁盘
我可以挂在这儿
这个磁盘我挂在这儿
这个磁盘挂在这儿
那么当然它都是块接口的
所以你看起来
它就是一个一个的磁盘
非常的灵活 也非常的稳定
特点就是贵一些
因为它有一套单独的网络
NAS的实现形式就比较灵活了
NAS的实现形式
就是我们服务器之间
我就把它跑在
传统的服务器的网络上
然后我放一个
这个存储系统的
我们俗话叫做
一个存储设备的一个头
这个头实现了一个
提供了一个接口
或者是一个块接口
比如说通过(02:45)的协议
或者通过(02:47)的协议
或者我们提供了
一个文件系统的接口
我们提供了一个NFS
或者AFS什么的
然后
不管怎么说我这儿提供了
这个虚拟化的头儿
然后这个头儿
每一个服务器都跟它连接
所以我可以把这里
挂一个磁盘
通过虚拟化 虚拟出了一个磁盘
会挂在这个服务器上
我虚拟出一个文件系统来
比如说我虚拟出一个/HOME
我可以挂在这台服务器上
但是所有的数据 流量
都是通过这一台机器来走的
所以任何人想访问
这个磁盘阵列
都要通过这台机器
然后我把这个协议转一下
他自己再连一下
这个磁盘阵列
至于他怎么连上的
是用这个(03:25)
或者是用(03:28)协议
或者是用SANS
或者是用
什么PC-IE的连接
它是怎么连的我们不知道
但是它提供了
所有的这种服务
这是一类
当然我们想到这一类的东西
最大的问题是什么
这个虚拟化设备
这个东西
它自己能提供的带宽是有限的
它自己的处理能力是有限的
如果你所有的
如果这个磁盘阵列非常非常大
这儿有无数的服务器
都来访问这个
最后它可以变成一个瓶颈
它没有足够的资源来访问
当然你可以说
我放若干个头 对吧
它自己可以跑成一个
分布式的系统
那么这个事情我们另说
但是后边的话
大家都访问同一个磁盘阵列
这也是一种解决方案
但是另一种解决方案
就是Out-Band的数据访问
意思就是说这个头
我只管这个命名
一个最最经典案例叫做AFS
叫Andrew File System
这个AFS 这个东西 就是说
我这个存储的头
我只管解析路径
你问我说这个文件
/HOME/TSINGHUA在什么地方
那我就告诉你
它在这个服务器
它在这个服务器的这块盘上
那么你自个去那个服务器
那块盘上去找
我就告诉你一声 给你指个路
所以这样的话
它这个头不会变成一个瓶颈
当然它的问题在于
你所有的这些设备
都直接暴露给客户端
还有其它的问题
目前来讲看起来大数据的
一些系统
大部分都采取这种模式
下一节课我们会讲到这个GFS
Google文件系统
包括Hadoop
都是采取这种形式的
它的根节点
或者它们叫NAME NODE
叫命名节点
或者叫MASTER NODE
叫主节点
这些东西 它只管解析名字
真正的数据在什么地方
你直接上那个地方去要
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7