当前课程知识点:大数据系统基础 >  3.文件存储 >  授课视频 >  Video

返回《大数据系统基础》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《大数据系统基础》慕课在线视频列表

Video课程教案、知识点、字幕

前面我们回顾了一下

本地文件系统的一些

相关的基本概念

和关于优化方面的一些讨论

那么我们下面就开始讲

分布式文件系统

那么分布式文件系统

我们所需要提出的一个问题就是

分布式文件系统

应该长成什么样子

那么这个问题

其实大家可以想一下

就是说

毕竟我们分布式文件系统

也是需要提供文件系统功能的

所以这两件事情肯定是少不了的

那一个是我需要提供

这棵目录树

在上面的目录树的操作

我分布式文件系统也是必不可少

对吧

那么另外一个是

分布式文件系统

也需要提供文件的一个读写

如果没有这两个功能的话

那么它就不能称之为

是一个文件系统 对吧

更何谈是分布式文件系统

对不对

那么这是分布式文件系统

需要做的一个工作

那么在分布式文件系统里面

我们可以看到分布式文件系统

毕竟它是分布式的嘛

所以它涉及到的一个基数

肯定是多个机器

那么在这上面的话

需要建立一个

文件系统的一些功能

那么既然涉及到多个机器的话

我们下面自然而然

会提出另外一个问题

就是分布式文件系统

建立的一个基础

那么它建立的基础的话

它需不需要直接去面对一个磁盘

就是说分布式文件系统

是不是也是需要

我在底层

提供一个磁盘读写的一个功能

那么在这种情况下面

再构建我这个布式文件系统

那么这里面

其实是有两个选择的

那第一个是

直接去读写这个磁盘

另外一个呢

是不直接去读写一个磁盘

那不直接读写一个磁盘的话

那么这件事情会比较好办

我们知道

在现在每一个机器上面

我们都有一个

完整的一个操作系统

那么在这个操作系统里面

它有一个文件系统

那这个文件系统

它本身就会把底层那个磁盘

管理得非常好

那么我这个分布式文件系统

有一个非常好的一个选择

就是我可以建立在

每一个机器上面

都有一个完整的一个操作系统

那么在这个上面的话

我再建立我这个

分布式的一个文件系统

那么这个时候呢

我可以完全依赖于

本地的磁盘系统

去管理一个磁盘

而不是让这个分布式文件系统

直接去面对一个磁盘 对吧

因为面对磁盘的工作

都是在内核里面工作的

如果出错的话

很容易会造成

整个机器的一个崩溃

那么这个的话

会在分布式文件系统里面

可以避免这样的一个事情

那么这是分布式文件系统

那么

文件系统的最根本的一个目标

那实际上我们就跟前面说的一样

它会把一个文件名

翻译成一个地址

那么在本地的文件系统当中

这个地址是什么东西呢

地址就是在磁盘上的一个位置

那么对于分布式文件系统来说

那么在这种情况下面

那么这个地址

就不是一个磁盘上的一个位置

因为当然最终的数据

肯定是要定位到

某一个磁盘上面去 对吧

那么在分布式文件系统里面

我们同样是需要对于

文件名进行定位

那么它怎么定位呢

它就不能直接定位到磁盘 对吧

那么第一步

我需要定位到某一个机器上面去

然后呢

再把这个机器

在这个机器上面

会机器本地的一个local FS

local FS去定位到磁盘上面去

那么分布式文件系统

与本地文件系统最大的区别就是

它不能直接定位到磁盘

它必须要先定位到一个host

定位到一台机器

这样的话才能够完成

这个数据的一个读写工作

所以可以说

这个分布式文件系统

本质的功能是这样的

是将一棵以目录树表达的文件

翻译成一个具体的一个节点

然后在这个具体的节点上面的话

那么由本地的一个文件

去做解析

那么这是分布式文件系统当中

最本质的一个功能

这个需要大家记住

我们会后面讨论

这个分布式文件系统当中的话

也需要分析它的本质的一个功能那么这是我们

后面讨论的所有内容的一个基础

就是基于本地的一个操作系统

去做

当然了

在分布式文件系统当中

也有另外一个选择

就是可以直接去面对一个磁盘

那么直接面对一个磁盘的话

是有一个典型的文件系统的结构

就是SANFS

那么SAN是

storage attached network的

简称

就是存储区域网络

那么大家可以把

这个存储区域网络里面

它的几千块磁盘

当成一个大的一个虚拟磁盘来用

那么既然是

一个大的虚拟磁盘的话

那在这个虚拟磁盘上面的话

也会有一个定位的一个功能

那么一般来说

可以在这个大的虚拟磁盘上面

装本地文件系统

那么比如说装EXT3

或者()这是没有问题的

但是本地文件系统

它是没有

具体的一个磁盘的一个信息

或者是没有一个分布式

环境下面的一个信息的

所以它在性能上面

会有一些影响

那SANFS呢

就会把将这部分信息

包括某一块磁盘

包括这个磁盘的管理的一个节点

那么暴露给上层的一个文件系统

那么这样的分布式文件系统

它会充分利用底层

那个SAN上面的一些信息

去对于磁盘上面的数据进行读写

那这是一些

特殊的分布式文件系统

可以直接跟磁盘打交道

那么这也是另外一种选择

在实际的工作当中都会出现

那么我们后面讨论的话

还是前面这种结构

因为通过本地的话

可以有很多的工具

或者很多的方法

去管理本地的磁盘

我不需要让分布式文件系统

直接去管理磁盘

可以降低

分布式文件系统的一些复杂性

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。