当前课程知识点：大数据管理与挖掘 > 第4章大数据分析 > 4.3 云在线聚集 > 4.3 云在线聚集

返回《大数据管理与挖掘》慕课在线视频课程列表

4.3 云在线聚集在线视频

下一节:4.4 大数据的智能分析

返回《大数据管理与挖掘》慕课在线视频列表

4.3 云在线聚集课程教案、知识点、字幕

欢迎回来

我们继续讲我们第三节内容

云在线聚集

云在线技术

它的产生背景如下所示

我们云计算或者说我们的聚集查询

是一种非常重要的数据库查询方法

通过它

我们可以对我们数据库中的有关数据

进行一些统计分析

关系数据库中执行我们的聚集查询

它存在结果的精确性

但是对我们整个过程当中

对海量数据查询者

而这种查询方法可能需要

很长一段计算时间才能将

我们系统结果返馈给我们的用户

在线聚集就是这样的聚集查询操作

以在线可视化的方式展示出来

即在查询处理的过程当中

对我们数据库里的数据进行随机采样

然后用采样得到数据样本去完成

基于统计学原理的有关计算

由于计算结果可以估计出我们的查询结果

并返回给真实值所在的置信区间

具体过程我们云在线聚集

可以从右图所示

可以看到这就是我们

一个云聚集的基本处理框架

在我们云技术下

在线聚集技术的商业价值

在于能够快速分析出

海量数据背后所蕴含的知识

对企业的决策支持所具有的商业意义

而我们云计算的运营模式也是一种以

即用即付的这种模式

这也意味着我们节约我们数据分析的同时

也可以节约我们的计算资源

从而降低企业的运营成本

云环境下的我们的在线聚集

实现框架如我们的右图所示

在这个框架下我们可以开展

云在线聚集的一些计算和测试

云环境下的在线聚集实现框架

如下面所示

我们首先给大家云在线可以在用户界面

而用户界面是用户与整个系统资源

进行交互的部分

它主要功能有三个

第一个叫提供用户的查询接口

其查询语句可以是最常用的SQL语句

或者说类SQL语句

也可以使用我们的SHELL等脚本命令

第二个就是能够准确和直观的

对我们的系统返回的有关结构进行展示

第三个就是用户可以对我们系统参数

来进行一些个性化的设置

还有我们的查询引擎

而对查询引擎来讲

它对接收到的用户查询进行了分析

这里边包括对查询语句进行剖析

具体来讲它叫优化解析过程语句

并将其转化为有向无环结构模式

以MAPREDUCE这种方式来展示出来

第二个就是将我们的作业

转化成在线模式的这个结构

以实现我们的在线聚集

具体来讲

通过相关的包装器能完成我们原始的

MAPREDUCE作业的那种在线优化处理

还有个叫做我们的在线聚集执行器

它主要是我们系统的核心部分

它具体主要完成以下三个功能

第一个利用统计学知识

对我们的统计或者估计样本

进行相应的精确范围内的精度测试

第二个就是保存当时查询结果

以便随着样本容量的增加

而进行增加计算

第三个将上述过程返回给用户

并给出估计的查询执行力度

以便用户选择是否能够

继续执行我们的查询过程

还有我们的数据管理器

这部分主要与我们的

数据存储与采样相关

需要保存我们的数据

将其存储在SDFS中

具体内容包括原始数据

以及我们的元数据等

此外

数据采样的工作也由

我们的数据管理系统统一进行管理

我们的云在线聚集技术

它主要的核心是由我们的数据采样

结构估计与我们的统计推理

以及流水化处理这三部分组成

具体的数字采样概念

及我们数据库领域中的实现过程

如下所示

第一个就是我们的数据采样

它的概念是在我们

在线聚集技术的一个核心技术

也是数据的抽样过程

在我们的在线聚集过程当中

通过大规模样本选择

以及选择少量的样本来减小时间复杂度

选择样本质量的好与坏直接影响到

在线聚集的估计结果和我们的优劣性

采样主要可以分为

概率采样和非概率采样两大类

具体的还有三个要求

就是我们的随机性

可行性和我们的信息性

我们概率采样主要包括以下几个方面

第一个就是我们的简单随机采样

第二个就是我们的系统采样

第三个就是我们的分层采样

第四个就是整群采样

第五个就是我们的多阶段的采样

具体的概率采样的基本方法

如我们的右图所示

在这里面

结果估计与统计结果

它具体的要求如下所示

它基本需求来讲

从无偏的估计和一致性的估计

这里面无偏的估计主要是指

多次反复的估计过程当中

对所有的估计值的均值

要等于它们真实结果

估计的一致性则要求我们随着样本量的增大

整个估计结构应该

越来越接近我们的真实值

在线采集的基本的估计方法

包括采用中心极限定理

这种方法进行估计

这里面中心极限定理主要定义如下

设我们随机变量为N个X

它们之间是相互独立

而且都服从同一个分布

具有数字期望和我们的方差

如下所示

当我们这里面的N充分大的时候

可以成立以下的关系式

在这基础上如果将我们上式的左边

给写成如下所示的形式

我们可以将这个结果可以表示成

当前当N充分大时成立如下所示的结果

或者说在这里面我们式子成立时候

我们终止这样一个分布情况

接着我给大家解释一下我们的贝叶斯理论

在这里面

当我们的精度范围的表示过程如下所示

在这里面给定我们的置信度

返回相应的置信区间

在这基础上

我们进行我们收敛曲线的计算过程

它基本的思想是

将我们整个查询过程中不断的比较

当前结果和前几个相邻结果

它们之间的差距

从而表达出我们的结果

以得到我们结果的差异性

在这个基础上进行

MAPREDUCE我们的流水化

我们的在线聚集的整个过程当中

以一种流水化的方式来进行

如果数据操作

整个过程表现出阻塞

就会严重影响到我们算法的执行效率

由此

在云计算环境下

可以采用MAPREDUCE这种方式

需要进行流水化的处理

流水化处理将MAPREDUCE

处理过程中的处理方式

发送到REDUCE进行后续化处理

HOP这个方法我们可以

在这基础上实现MAPREDUCE的完全流水化

HOP在两个层次方面实现我们整个的管道

这是我们第三节内容

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

4.3 云在线聚集笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。