当前课程知识点:大数据系统基础 >  7. 流计算 >  授课视屏 >  Video

返回《大数据系统基础》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《大数据系统基础》慕课在线视频列表

Video课程教案、知识点、字幕

那么我们刚才说的问题

实际上我们想知道说

哪类问题可以使用

所谓的流计算的方式来做

那么我们来看一下

这个问题的特征应该是什么

如果问题的属性符合如下的条件

也就是说实际上

我们对任何的数据处理

比如说数据是x

那么新增的这个数据是△x

那么如果我们的这个处理

我们把它定义成一个函数

比如是f(x)

那么如果对过去的这个历史数据

我们可以把它

表达成过去的一个结果

那么新的这个△x

我们使用另一个函数来处理

比如叫h(x)

那么过去的结果和

这个新增数据之间

我们可以通过某种类型的操作

当然这实际上是另外一个函数

那么也就是说

如果我们对历史数据

加新增数据的处理

可以把它转化为

对历史数据的处理结果

与对新增数据的某种处理结果

的某些操作

那么如果是

有这样的一种属性的话

那我们在计算这个f(x)加△x

也就是说我们在

对新增数据来进行计算的时候

我们并不需要对全部的数据集

X和△x再进行计算

而只需要

把x之前的某种处理结果

保留下来

并且和这个增量的△

x处理的结果

再进行处理以后就可以了

那么这种方式

可以看作系统它有一个状态

那么系统的状态

就是由它的历史到达的数据

也就是f(x)来代表的

那么我们每次新来一个数据△x

那么实际上这个△x

它就是不断以增量的方式

流入到这个系统里

然后改变这个系统

使得系统最后的输出

是这个f(x+△x)的

这样一种方式

所有我们把这样的一种方式

就叫做流计算

也就是我们每次不需要

从头去把x+△x都能够

都去处理一遍

那么在刚才的这个例子里面

在Twitter Analytics

这样一个例子里面

我们的输入是什么

输入是每一条tweet的log

和每一次点击的log

那么f(x)是什么

是一个基于时间窗口的累加结果

比如说是

从今天开始

比如说从零点开始

或者是从这一周开始 对吧

那么是这样的一个累加结果

那么它如果我们是要统计

包含某一个URL的tweet数

那么它这个f(x)

也就是说它累加了到目前为止

这个某个时间窗口内

包含某个URL的tweets数

如果我们想知道是

对某一个URL的点击数

也是类似的

那么这个它的状态

就是到目前为止

时间窗口内的这个URL的点击数

那么对每一条新的log到来

每条新的log到来的时候

也就是我们所说的△

x来得时候

我们不需要处理过去的所有log

也就是说这个x

我们实际上这个时候已经没有了

我们现在只有f(x)

我们只有f(x)的时候

我们可以把f(x)和这个△x

合起来

获得这个的一个结果出来

那么实际上

在我们这个例子里面

应该是非常简单的

它只是一个简单的一个加和的

这样一个过程

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。