当前课程知识点:大数据系统基础 > 7. 流计算 > 授课视屏 > Video
首先我们讨论第一个问题
也就是说为什么要有流计算
这样的一种计算模式
那么我们已经
讨论过这个大数据的处理框架
比如说 我们看到
从左边从一个HDFS里面
把数据读入然后进行计算
那么进行了一个迭代式的计算
以后
我们把结果输出到
中间这个HDFS里面
那么下一个迭代
再进一步地从HDFS里面
进行数据的读取 计算
最后再把结果写下去
以此类推
那么这样的一种模式
我们把它称作T处理模型
也就是说
在每一次处理的时候
我们可以看到这个读入的数据
和写出的都是这个全部的数据
也就是说
我们要分析的全部数据
在每次迭代里面
我们都需要去访问到
那么这样的模式
比如包括
现在看到的 学过的
Map-Reduce Spark Graphlab
它们都是属于这样的模式的
也就是说我们在处理的时候
要处理全部的数据
但是如果应用
有如下的特征的话
使用刚才这样一种T处理框架
就会面临重大的挑战
首先 是说数据量太大
以至于存不下全部的数据
那么我们可以想像这样一个应用
假如说
一个应用要分析
过去10年以来所有网页
上面词出现的频率
那么如果我们需要把
过去十年以来所有的词
所有的这个文件都处理一遍
这显然是一个很重大的负担
那么在一般的公司和机构里面
他们可能
并不能够存下全部的数据
第二个问题是数据到来的太快
以至于用批处理的方式
来不及处理
那么同样是刚才那样一个例子
那么如果我们想统计
比如说这一年以来最高
这个在某一个网站上
出现的最高频率的词是什么
那如果每次我都需要把
这一年以来的所有的数据
到今天为止
所有的数据都处理一遍的话
那么这样的处理开销
也是非常非常大的
那所有这两点实际上恰恰对应于
我们所说的
大数据三个V里面的两个V
也就是说
一个是volume
也就是说数据量太大
一个是数据到来太快
这个Velocity
这样两个V
那么第三个也就是说
实际上如果说有的机构它就是
非常的有钱
它也可以说
我就是能把这个东西存下
我也可以把这个数据
带来的这个
我用很多的这个机器来做处理
还是可以达到我们刚才说的
这个处理的目的的
但是它实际上面临了
另外一个问题
就是说
你使用这样的批处理框架
每次都去处理全部的数据
它达到所需要的性能的成本
会非常的高
也就是说这样的方式
性价比太差
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7