当前课程知识点:大数据管理与挖掘 > 第4章 大数据分析 > 4.3 云在线聚集 > 4.3 云在线聚集
欢迎回来
我们继续讲我们第三节内容
云在线聚集
云在线技术
它的产生背景如下所示
我们云计算或者说我们的聚集查询
是一种非常重要的数据库查询方法
通过它
我们可以对我们数据库中的有关数据
进行一些统计分析
关系数据库中执行我们的聚集查询
它存在结果的精确性
但是对我们整个过程当中
对海量数据查询者
而这种查询方法可能需要
很长一段计算时间才能将
我们系统结果返馈给我们的用户
在线聚集就是这样的聚集查询操作
以在线可视化的方式展示出来
即在查询处理的过程当中
对我们数据库里的数据进行随机采样
然后用采样得到数据样本去完成
基于统计学原理的有关计算
由于计算结果可以估计出我们的查询结果
并返回给真实值所在的置信区间
具体过程我们云在线聚集
可以从右图所示
可以看到这就是我们
一个云聚集的基本处理框架
在我们云技术下
在线聚集技术的商业价值
在于能够快速分析出
海量数据背后所蕴含的知识
对企业的决策支持所具有的商业意义
而我们云计算的运营模式也是一种以
即用即付的这种模式
这也意味着我们节约我们数据分析的同时
也可以节约我们的计算资源
从而降低企业的运营成本
云环境下的我们的在线聚集
实现框架如我们的右图所示
在这个框架下我们可以开展
云在线聚集的一些计算和测试
云环境下的在线聚集实现框架
如下面所示
我们首先给大家云在线可以在用户界面
而用户界面是用户与整个系统资源
进行交互的部分
它主要功能有三个
第一个叫提供用户的查询接口
其查询语句可以是最常用的SQL语句
或者说类SQL语句
也可以使用我们的SHELL等脚本命令
第二个就是能够准确和直观的
对我们的系统返回的有关结构进行展示
第三个就是用户可以对我们系统参数
来进行一些个性化的设置
还有我们的查询引擎
而对查询引擎来讲
它对接收到的用户查询进行了分析
这里边包括对查询语句进行剖析
具体来讲它叫优化解析过程语句
并将其转化为有向无环结构模式
以MAPREDUCE这种方式来展示出来
第二个就是将我们的作业
转化成在线模式的这个结构
以实现我们的在线聚集
具体来讲
通过相关的包装器能完成我们原始的
MAPREDUCE作业的那种在线优化处理
还有个叫做我们的在线聚集执行器
它主要是我们系统的核心部分
它具体主要完成以下三个功能
第一个利用统计学知识
对我们的统计或者估计样本
进行相应的精确范围内的精度测试
第二个就是保存当时查询结果
以便随着样本容量的增加
而进行增加计算
第三个将上述过程返回给用户
并给出估计的查询执行力度
以便用户选择是否能够
继续执行我们的查询过程
还有我们的数据管理器
这部分主要与我们的
数据存储与采样相关
需要保存我们的数据
将其存储在SDFS中
具体内容包括原始数据
以及我们的元数据等
此外
数据采样的工作也由
我们的数据管理系统统一进行管理
我们的云在线聚集技术
它主要的核心是由我们的数据采样
结构估计与我们的统计推理
以及流水化处理这三部分组成
具体的数字采样概念
及我们数据库领域中的实现过程
如下所示
第一个就是我们的数据采样
它的概念是在我们
在线聚集技术的一个核心技术
也是数据的抽样过程
在我们的在线聚集过程当中
通过大规模样本选择
以及选择少量的样本来减小时间复杂度
选择样本质量的好与坏直接影响到
在线聚集的估计结果和我们的优劣性
采样主要可以分为
概率采样和非概率采样两大类
具体的还有三个要求
就是我们的随机性
可行性和我们的信息性
我们概率采样主要包括以下几个方面
第一个就是我们的简单随机采样
第二个就是我们的系统采样
第三个就是我们的分层采样
第四个就是整群采样
第五个就是我们的多阶段的采样
具体的概率采样的基本方法
如我们的右图所示
在这里面
结果估计与统计结果
它具体的要求如下所示
它基本需求来讲
从无偏的估计和一致性的估计
这里面无偏的估计主要是指
多次反复的估计过程当中
对所有的估计值的均值
要等于它们真实结果
估计的一致性则要求我们随着样本量的增大
整个估计结构应该
越来越接近我们的真实值
在线采集的基本的估计方法
包括采用中心极限定理
这种方法进行估计
这里面中心极限定理主要定义如下
设我们随机变量为N个X
它们之间是相互独立
而且都服从同一个分布
具有数字期望和我们的方差
如下所示
当我们这里面的N充分大的时候
可以成立以下的关系式
在这基础上如果将我们上式的左边
给写成如下所示的形式
我们可以将这个结果可以表示成
当前当N充分大时成立如下所示的结果
或者说在这里面我们式子成立时候
我们终止这样一个分布情况
接着我给大家解释一下我们的贝叶斯理论
在这里面
当我们的精度范围的表示过程如下所示
在这里面给定我们的置信度
返回相应的置信区间
在这基础上
我们进行我们收敛曲线的计算过程
它基本的思想是
将我们整个查询过程中不断的比较
当前结果和前几个相邻结果
它们之间的差距
从而表达出我们的结果
以得到我们结果的差异性
在这个基础上进行
MAPREDUCE我们的流水化
我们的在线聚集的整个过程当中
以一种流水化的方式来进行
如果数据操作
整个过程表现出阻塞
就会严重影响到我们算法的执行效率
由此
在云计算环境下
可以采用MAPREDUCE这种方式
需要进行流水化的处理
流水化处理将MAPREDUCE
处理过程中的处理方式
发送到REDUCE进行后续化处理
HOP这个方法我们可以
在这基础上实现MAPREDUCE的完全流水化
HOP在两个层次方面实现我们整个的管道
这是我们第三节内容
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论