当前课程知识点:大数据系统基础 > 3.文件存储 > 授课视频 > Video
前面我们回顾了一下
本地文件系统的一些
相关的基本概念
和关于优化方面的一些讨论
那么我们下面就开始讲
分布式文件系统
那么分布式文件系统
我们所需要提出的一个问题就是
分布式文件系统
应该长成什么样子
那么这个问题
其实大家可以想一下
就是说
毕竟我们分布式文件系统
也是需要提供文件系统功能的
所以这两件事情肯定是少不了的
那一个是我需要提供
这棵目录树
在上面的目录树的操作
我分布式文件系统也是必不可少
对吧
那么另外一个是
分布式文件系统
也需要提供文件的一个读写
如果没有这两个功能的话
那么它就不能称之为
是一个文件系统 对吧
更何谈是分布式文件系统
对不对
那么这是分布式文件系统
需要做的一个工作
那么在分布式文件系统里面
我们可以看到分布式文件系统
毕竟它是分布式的嘛
所以它涉及到的一个基数
肯定是多个机器
那么在这上面的话
需要建立一个
文件系统的一些功能
那么既然涉及到多个机器的话
我们下面自然而然
会提出另外一个问题
就是分布式文件系统
建立的一个基础
那么它建立的基础的话
它需不需要直接去面对一个磁盘
就是说分布式文件系统
是不是也是需要
我在底层
提供一个磁盘读写的一个功能
那么在这种情况下面
再构建我这个布式文件系统
那么这里面
其实是有两个选择的
那第一个是
直接去读写这个磁盘
另外一个呢
是不直接去读写一个磁盘
那不直接读写一个磁盘的话
那么这件事情会比较好办
我们知道
在现在每一个机器上面
我们都有一个
完整的一个操作系统
那么在这个操作系统里面
它有一个文件系统
那这个文件系统
它本身就会把底层那个磁盘
管理得非常好
那么我这个分布式文件系统
有一个非常好的一个选择
就是我可以建立在
每一个机器上面
都有一个完整的一个操作系统
那么在这个上面的话
我再建立我这个
分布式的一个文件系统
那么这个时候呢
我可以完全依赖于
本地的磁盘系统
去管理一个磁盘
而不是让这个分布式文件系统
直接去面对一个磁盘 对吧
因为面对磁盘的工作
都是在内核里面工作的
如果出错的话
很容易会造成
整个机器的一个崩溃
那么这个的话
会在分布式文件系统里面
可以避免这样的一个事情
那么这是分布式文件系统
那么
文件系统的最根本的一个目标
那实际上我们就跟前面说的一样
它会把一个文件名
翻译成一个地址
那么在本地的文件系统当中
这个地址是什么东西呢
地址就是在磁盘上的一个位置
那么对于分布式文件系统来说
那么在这种情况下面
那么这个地址
就不是一个磁盘上的一个位置
因为当然最终的数据
肯定是要定位到
某一个磁盘上面去 对吧
那么在分布式文件系统里面
我们同样是需要对于
文件名进行定位
那么它怎么定位呢
它就不能直接定位到磁盘 对吧
那么第一步
我需要定位到某一个机器上面去
然后呢
再把这个机器
在这个机器上面
会机器本地的一个local FS
local FS去定位到磁盘上面去
那么分布式文件系统
与本地文件系统最大的区别就是
它不能直接定位到磁盘
它必须要先定位到一个host
定位到一台机器
这样的话才能够完成
这个数据的一个读写工作
所以可以说
这个分布式文件系统
本质的功能是这样的
是将一棵以目录树表达的文件
翻译成一个具体的一个节点
然后在这个具体的节点上面的话
那么由本地的一个文件
去做解析
那么这是分布式文件系统当中
最本质的一个功能
这个需要大家记住
我们会后面讨论
这个分布式文件系统当中的话
也需要分析它的本质的一个功能那么这是我们
后面讨论的所有内容的一个基础
就是基于本地的一个操作系统
去做
当然了
在分布式文件系统当中
也有另外一个选择
就是可以直接去面对一个磁盘
那么直接面对一个磁盘的话
是有一个典型的文件系统的结构
就是SANFS
那么SAN是
storage attached network的
简称
就是存储区域网络
那么大家可以把
这个存储区域网络里面
它的几千块磁盘
当成一个大的一个虚拟磁盘来用
那么既然是
一个大的虚拟磁盘的话
那在这个虚拟磁盘上面的话
也会有一个定位的一个功能
那么一般来说
可以在这个大的虚拟磁盘上面
装本地文件系统
那么比如说装EXT3
或者()这是没有问题的
但是本地文件系统
它是没有
具体的一个磁盘的一个信息
或者是没有一个分布式
环境下面的一个信息的
所以它在性能上面
会有一些影响
那SANFS呢
就会把将这部分信息
包括某一块磁盘
包括这个磁盘的管理的一个节点
那么暴露给上层的一个文件系统
那么这样的分布式文件系统
它会充分利用底层
那个SAN上面的一些信息
去对于磁盘上面的数据进行读写
那这是一些
特殊的分布式文件系统
可以直接跟磁盘打交道
那么这也是另外一种选择
在实际的工作当中都会出现
那么我们后面讨论的话
还是前面这种结构
因为通过本地的话
可以有很多的工具
或者很多的方法
去管理本地的磁盘
我不需要让分布式文件系统
直接去管理磁盘
可以降低
分布式文件系统的一些复杂性
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7