当前课程知识点：大数据管理与挖掘 > 第6章大数据管理系统 > 6.2 批数据与流数据管理系统 > 6.2 批数据与流数据管理系统

返回《大数据管理与挖掘》慕课在线视频课程列表

6.2 批数据与流数据管理系统在线视频

下一节:6.3 SQL NOSQL与NEWSQL系统

返回《大数据管理与挖掘》慕课在线视频列表

6.2 批数据与流数据管理系统课程教案、知识点、字幕

欢迎回来

我们这节主要讲

批数据与流数据的管理系统

针对我们的批数据和流数据

目前是我们整个大数据管理里面呢

最主要的两大内容

批数据为离线数据

是以静态的方式存储在

稳定模式上的存储类型

它是一种静态的数据结构

对批数据的处理称为批处理

而对批数据的管理系统

称为批数据管理系统结构

流处理的基本理念是

数据的价值会随着

时间的流逝而不断的减少

流处理的共同目标是

尽可能对最新的数据做出分析

并给出相应的结果

对

批数据的处理过程

主要在于系统的自动处理

不需过度的交互

而且能够提高CPU的利用率

解决分布式存储与分布式计算问题

而且在这里面

需要尽量的保证所用数据的

本地性以减少网络的开销

目前较为流行的分布式计算思想

主要采用

计算向数据移动的这种理念

下面呢

我主要介绍批处理管理系统

Apache Hadoop

是目前较为成功的

批数据管理系统之一

它由三部分组成

第一个就是MapReduce负责计算

第二个是HDFS

是一个分布式文件系统

它主要负责存储数据

第三个是YARN作为一种资源调度器

它主要负责管理计算资源

优点在于

Hadoop具有高可靠性

高扩展性

高效性

高容错性

和低成本

接下来

我主要介绍流处理的管理模式

近年来各行业信息化程度不断加快

由此产生的数据量也是爆炸性增长

尤其在金融应用

网络监视

社交网络等方面应用非常广泛

产生了一种飞速发展的大数据模式

数据规模呢快速的增长

而流数据的特点在于

第一个

数据实时到达

到达速度更快

数据到达以后次序独立

第三个数据规模庞大

无法预知数据的大小

第四个就是数据一经过处理

除非进行存储

否则很难再次获取

流数据管理模式

主要体现在以下几个方面

第一个需要采用

流数据处理的大数据应用场景

这里面主要有

网页点击数的实时统计传感器网络

金融中的高频交易等等

流处理的处理模式将数据视为一种流

源源不断的数据组成了数据流

当新的数据到来时

就立刻处理并返回所需的结果

他的模式里面

流处理的过程基本上在内存中完成

其处理方式更多依赖于

在内存中设计巧妙的概要数据结构

而内存容量是限制

流处理模型的一个主要瓶颈问题

为此呢

就构造了Apache Storm这个系统

Storm是分布式流数据处理系统

平台采取弱中心化结构的方式进行

中心结构节点通过

Zookeeper分布任务

Storm是数据处理过程中

将数据抽象为一个拓扑结构

把数据流抽象为stream

通过Spout

从数据源中为拓扑结构提供数据流

而Bolt进行数据处理

并在必要时产生新的数据流

并将这个结构

交付由下一层Bolt继续完成处理过程

stream是一个

不间断的

无界的连续元组

而每个 stream

都是一个 stream流

而每个 stream都有一个 stream源

也就是说原始元组的

源头

源头抽象为spout

而spout可能连接 API

并不断发出各种命令

也可能从某个队列中

不断的读取队列元素

并装配为元组发射

由此呢

Twitter的思想是

将流中的各种状态

转换为或是抽象为Bolt

而Bolt可以消费任意数量的输入流

只要将 Stream中导出该Bolt

转化为Bolt

同时它也可以发送新的流

给其他的Bolt使用

即

工作流程是

打开特定的 Spout

再将 Spout中流出的元组

导向特定的Bolt

由Bolt将导入的数据流进行处理

再导向其他Bolt或者其他的目的地

具体的Storm的

它的有向无环图

可以从这个图上可以展示出来

在这里面

Storm将这个图抽象为拓扑

而一个拓扑将是一个流转换图

图中每个节点是一个 Spout或者Bolt

同时呢

图中的边表示Bolt的

订阅的流

当Spout或者Bolt发送元组流时

就相当于发送元组到每个订阅了

该流的Bolt

接着呢

我给大家介绍混合处理方式

而混合计算模式主要体现在两个层面

第一个就是

传统并行计算所关注的体系结构

与底层并行程序的设计

之间呢存在一个混合模式

第二个是

大数据处理高层计算模式的混合

因此

很多大数据处理问题

将需要混合使用多种计算模式

为了提高这种计算的性能

各种计算模式还可以与

内存计算相互混合计算

实现实时性大数据的查询和计算分析

混合计算模式

将成为满足多样性大数据处理

和应用需求的最有效手段之一

最典型的

混合的处理模式就是Spark系统

而Spark系统

覆盖了几乎所有典型的大数据计算模式

这里面包括迭代计算

批处理计算

内存计算

流式计算等

数据查询分析计算等等

而Spark系统它的体系结构

我们可以从右面这个结构呢可以看出来

在这里面

Spark覆盖了几乎所有典型的

大数据计算模式

包括我们刚才讲的迭代计算

批处理计算

内存计算

流式计算

以及查询分析计算等

Spark 将数据的处理看作

弹性分布式数据集RDD

它的转换

它的转换

RDD提供了一种高度受限的共享内存模型

即RDD只是一种读写的一种分区的模式

只有通过在其他转换而创建

然而这些限制使得

实现容错的开销比较低

对开发者而言

RDD可以看作 Spark的一个对象

它本身运行于内存当中

比方说读文件是一个RDD

对文件计算也是一个RDD

结果集也是一个RDD

不同的分片

数据之间的依赖

key-value类型的map数据

也可以看作RDD

这就是我们的Spark系统的一个处理框架

这个框架呢

我们可以从右图上可以展示出来

这是我们第二节的内容

批数据与流数据的系统

我介绍到这

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

6.2 批数据与流数据管理系统笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。