当前课程知识点:大数据系统基础 >  7. 流计算 >  授课视屏 >  Video

返回《大数据系统基础》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《大数据系统基础》慕课在线视频列表

Video课程教案、知识点、字幕

首先我们讨论第一个问题

也就是说为什么要有流计算

这样的一种计算模式

那么我们已经

讨论过这个大数据的处理框架

比如说 我们看到

从左边从一个HDFS里面

把数据读入然后进行计算

那么进行了一个迭代式的计算

以后

我们把结果输出到

中间这个HDFS里面

那么下一个迭代

再进一步地从HDFS里面

进行数据的读取 计算

最后再把结果写下去

以此类推

那么这样的一种模式

我们把它称作T处理模型

也就是说

在每一次处理的时候

我们可以看到这个读入的数据

和写出的都是这个全部的数据

也就是说

我们要分析的全部数据

在每次迭代里面

我们都需要去访问到

那么这样的模式

比如包括

现在看到的 学过的

Map-Reduce Spark Graphlab

它们都是属于这样的模式的

也就是说我们在处理的时候

要处理全部的数据

但是如果应用

有如下的特征的话

使用刚才这样一种T处理框架

就会面临重大的挑战

首先 是说数据量太大

以至于存不下全部的数据

那么我们可以想像这样一个应用

假如说

一个应用要分析

过去10年以来所有网页

上面词出现的频率

那么如果我们需要把

过去十年以来所有的词

所有的这个文件都处理一遍

这显然是一个很重大的负担

那么在一般的公司和机构里面

他们可能

并不能够存下全部的数据

第二个问题是数据到来的太快

以至于用批处理的方式

来不及处理

那么同样是刚才那样一个例子

那么如果我们想统计

比如说这一年以来最高

这个在某一个网站上

出现的最高频率的词是什么

那如果每次我都需要把

这一年以来的所有的数据

到今天为止

所有的数据都处理一遍的话

那么这样的处理开销

也是非常非常大的

那所有这两点实际上恰恰对应于

我们所说的

大数据三个V里面的两个V

也就是说

一个是volume

也就是说数据量太大

一个是数据到来太快

这个Velocity

这样两个V

那么第三个也就是说

实际上如果说有的机构它就是

非常的有钱

它也可以说

我就是能把这个东西存下

我也可以把这个数据

带来的这个

我用很多的这个机器来做处理

还是可以达到我们刚才说的

这个处理的目的的

但是它实际上面临了

另外一个问题

就是说

你使用这样的批处理框架

每次都去处理全部的数据

它达到所需要的性能的成本

会非常的高

也就是说这样的方式

性价比太差

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。