当前课程知识点:大数据系统基础 > 7. 流计算 > 授课视屏 > Video
那么我们刚才说的问题
实际上我们想知道说
哪类问题可以使用
所谓的流计算的方式来做
那么我们来看一下
这个问题的特征应该是什么
如果问题的属性符合如下的条件
也就是说实际上
我们对任何的数据处理
比如说数据是x
那么新增的这个数据是△x
那么如果我们的这个处理
我们把它定义成一个函数
比如是f(x)
那么如果对过去的这个历史数据
我们可以把它
表达成过去的一个结果
那么新的这个△x
我们使用另一个函数来处理
比如叫h(x)
那么过去的结果和
这个新增数据之间
我们可以通过某种类型的操作
当然这实际上是另外一个函数
那么也就是说
如果我们对历史数据
加新增数据的处理
可以把它转化为
对历史数据的处理结果
与对新增数据的某种处理结果
的某些操作
那么如果是
有这样的一种属性的话
那我们在计算这个f(x)加△x
也就是说我们在
对新增数据来进行计算的时候
我们并不需要对全部的数据集
X和△x再进行计算
而只需要
把x之前的某种处理结果
保留下来
并且和这个增量的△
x处理的结果
再进行处理以后就可以了
那么这种方式
可以看作系统它有一个状态
那么系统的状态
就是由它的历史到达的数据
也就是f(x)来代表的
那么我们每次新来一个数据△x
那么实际上这个△x
它就是不断以增量的方式
流入到这个系统里
然后改变这个系统
使得系统最后的输出
是这个f(x+△x)的
这样一种方式
所有我们把这样的一种方式
就叫做流计算
也就是我们每次不需要
从头去把x+△x都能够
都去处理一遍
那么在刚才的这个例子里面
在Twitter Analytics
这样一个例子里面
我们的输入是什么
输入是每一条tweet的log
和每一次点击的log
那么f(x)是什么
是一个基于时间窗口的累加结果
比如说是
从今天开始
比如说从零点开始
或者是从这一周开始 对吧
那么是这样的一个累加结果
那么它如果我们是要统计
包含某一个URL的tweet数
那么它这个f(x)
也就是说它累加了到目前为止
这个某个时间窗口内
包含某个URL的tweets数
如果我们想知道是
对某一个URL的点击数
也是类似的
那么这个它的状态
就是到目前为止
时间窗口内的这个URL的点击数
那么对每一条新的log到来
每条新的log到来的时候
也就是我们所说的△
x来得时候
我们不需要处理过去的所有log
也就是说这个x
我们实际上这个时候已经没有了
我们现在只有f(x)
我们只有f(x)的时候
我们可以把f(x)和这个△x
合起来
获得这个的一个结果出来
那么实际上
在我们这个例子里面
应该是非常简单的
它只是一个简单的一个加和的
这样一个过程
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7