当前课程知识点:大数据管理与挖掘 > 第6章 大数据管理系统 > 6.2 批数据与流数据管理系统 > 6.2 批数据与流数据管理系统
欢迎回来
我们这节主要讲
批数据与流数据的管理系统
针对我们的批数据和流数据
目前是我们整个大数据管理里面呢
最主要的两大内容
批数据为离线数据
是以静态的方式存储在
稳定模式上的存储类型
它是一种静态的数据结构
对批数据的处理称为批处理
而对批数据的管理系统
称为批数据管理系统结构
流处理的基本理念是
数据的价值会随着
时间的流逝而不断的减少
流处理的共同目标是
尽可能对最新的数据做出分析
并给出相应的结果
对
批数据的处理过程
主要在于系统的自动处理
不需过度的交互
而且能够提高CPU的利用率
解决分布式存储与分布式计算问题
而且在这里面
需要尽量的保证所用数据的
本地性以减少网络的开销
目前较为流行的分布式计算思想
主要采用
计算向数据移动的这种理念
下面呢
我主要介绍批处理管理系统
Apache Hadoop
是目前较为成功的
批数据管理系统之一
它由三部分组成
第一个就是MapReduce负责计算
第二个是HDFS
是一个分布式文件系统
它主要负责存储数据
第三个是YARN作为一种资源调度器
它主要负责管理计算资源
优点在于
Hadoop具有高可靠性
高扩展性
高效性
高容错性
和低成本
接下来
我主要介绍流处理的管理模式
近年来各行业信息化程度不断加快
由此产生的数据量也是爆炸性增长
尤其在金融应用
网络监视
社交网络等方面应用非常广泛
产生了一种飞速发展的大数据模式
数据规模呢快速的增长
而流数据的特点在于
第一个
数据实时到达
到达速度更快
数据到达以后次序独立
第三个数据规模庞大
无法预知数据的大小
第四个就是数据一经过处理
除非进行存储
否则很难再次获取
流数据管理模式
主要体现在以下几个方面
第一个需要采用
流数据处理的大数据应用场景
这里面主要有
网页点击数的实时统计传感器网络
金融中的高频交易等等
流处理的处理模式将数据视为一种流
源源不断的数据组成了数据流
当新的数据到来时
就立刻处理并返回所需的结果
他的模式里面
流处理的过程基本上在内存中完成
其处理方式更多依赖于
在内存中设计巧妙的概要数据结构
而内存容量是限制
流处理模型的一个主要瓶颈问题
为此呢
就构造了Apache Storm这个系统
Storm是分布式流数据处理系统
平台采取弱中心化结构的方式进行
中心结构节点通过
Zookeeper分布任务
Storm是数据处理过程中
将数据抽象为一个拓扑结构
把数据流抽象为stream
通过Spout
从数据源中为拓扑结构提供数据流
而Bolt进行数据处理
并在必要时产生新的数据流
并将这个结构
交付由下一层Bolt继续完成处理过程
stream是一个
不间断的
无界的连续元组
而每个 stream
都是一个 stream流
而每个 stream都有一个 stream源
也就是说原始元组的
源头
源头抽象为spout
而spout可能连接 API
并不断发出各种命令
也可能从某个队列中
不断的读取队列元素
并装配为元组发射
由此呢
Twitter的思想是
将流中的各种状态
转换为或是抽象为Bolt
而Bolt可以消费任意数量的输入流
只要将 Stream中导出该Bolt
转化为Bolt
同时它也可以发送新的流
给其他的Bolt使用
即
工作流程是
打开特定的 Spout
再将 Spout中流出的元组
导向特定的Bolt
由Bolt将导入的数据流进行处理
再导向其他Bolt或者其他的目的地
具体的Storm的
它的有向无环图
可以从这个图上可以展示出来
在这里面
Storm将这个图抽象为拓扑
而一个拓扑将是一个流转换图
图中每个节点是一个 Spout或者Bolt
同时呢
图中的边表示Bolt的
订阅的流
当Spout或者Bolt发送元组流时
就相当于发送元组到每个订阅了
该流的Bolt
接着呢
我给大家介绍混合处理方式
而混合计算模式主要体现在两个层面
第一个就是
传统并行计算所关注的体系结构
与底层并行程序的设计
之间呢存在一个混合模式
第二个是
大数据处理高层计算模式的混合
因此
很多大数据处理问题
将需要混合使用多种计算模式
为了提高这种计算的性能
各种计算模式还可以与
内存计算相互混合计算
实现实时性大数据的查询和计算分析
混合计算模式
将成为满足多样性大数据处理
和应用需求的最有效手段之一
最典型的
混合的处理模式就是Spark系统
而Spark系统
覆盖了几乎所有典型的大数据计算模式
这里面包括迭代计算
批处理计算
内存计算
流式计算等
数据查询分析计算等等
而Spark系统它的体系结构
我们可以从右面这个结构呢可以看出来
在这里面
Spark覆盖了几乎所有典型的
大数据计算模式
包括我们刚才讲的迭代计算
批处理计算
内存计算
流式计算
以及查询分析计算等
Spark 将数据的处理看作
弹性分布式数据集RDD
它的转换
它的转换
RDD提供了一种高度受限的共享内存模型
即RDD只是一种读写的一种分区的模式
只有通过在其他转换而创建
然而这些限制使得
实现容错的开销比较低
对开发者而言
RDD可以看作 Spark的一个对象
它本身运行于内存当中
比方说读文件是一个RDD
对文件计算也是一个RDD
结果集也是一个RDD
不同的分片
数据之间的依赖
key-value类型的map数据
也可以看作RDD
这就是我们的Spark系统的一个处理框架
这个框架呢
我们可以从右图上可以展示出来
这是我们第二节的内容
批数据与流数据的系统
我介绍到这
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论