当前课程知识点：大数据管理与挖掘 > 第6章大数据管理系统 > 6.1 云计算大数据基础平台与支撑技术 > 6.1 云计算大数据基础平台与支撑技术

返回《大数据管理与挖掘》慕课在线视频课程列表

6.1 云计算大数据基础平台与支撑技术在线视频

下一节:6.2 批数据与流数据管理系统

返回《大数据管理与挖掘》慕课在线视频列表

6.1 云计算大数据基础平台与支撑技术课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

我们这节呢

主要讲我们第六章的内容

大数据管理系统

第一个我们主要讲

我们的第一节云计算

大数据基础平台与支撑技术

面对不断运用的我们的大数据应用

数据库以及数据库管理技术

而面临的各种新型问题

传统的数据库管理方式

和我们的传统的数据库管理模式

以及侧重主要考虑

数据的深度问题

主要解决数据的组织

存储

查询和简单的分析等等

但是呢

我们数据库的管理技术在一定程度上

虽然考虑了我们的深度

但是还没考虑我们数据的广度和密度问题

这里面

我们通过这个考虑广度和深度呢

来主要解决数据的集成

流处理

和我们的图结构问题

因此

与我们传统的数据库管理技术相比

大数据管理技术

难度更高

处理数据的

战线更长

为了解决上述问题

需要从底层改变数据的管理方式

而云计算技术

为大数据管理提供了基础平台

和底层资源管理策略

为大数据管理提供了

多种多样的数据模型

而非仅局限于关系模型

如果将各种大数据的应用

比作为一辆汽车

那么支撑起这辆汽车的

运行的高速公路

就是云计算

正是云计算技术在数据存储

管理与分析等方面的支撑

才使得我们大数据有用武之地

这样的话

在所有的高速公路当中

Google公司无疑是技术最为先进的一个

面对海量的Web数据

Google公司于2006年首先提出了

云计算概念

支撑Google公司内部

各种大数据应用的

正是自行研发的一系列

云计算技术和工具

Google公司对云计算技术的介绍

使得人们能够快捷

完整地把握云计算技术的一些核心和精髓

具体的Google公司

对云计算的技术演化过程

可以从我们的上图可以展示出来

Google公司对整个云计算技术演化过程

分布为以下几个方面

第一个就是我们的文件系统

支撑上层应用的一些基础

而 Google公司认为

系统组件主要失败的原因在于

采取一种常态而不是异常

基于此

他自行研发了一套GFS文件系统

而这里面

GFS系统

是一个可扩展的分布式文件系统

主要针对文件量大

且读远大于写的应用场景

采取主从这种结构

而GFS通过数据的分块

追加更新的应用场景

采用主从式的方式

实现了海量数据的高效存储

同时随着时间的推移

GFS的架构逐渐开始

无法适应我们的

整个用户或者说企业的需求

Google公司对GFS进行了重新设计

使得该系统正式的名称为

如下所示的一个框架

通过这个框架

解决了GFS的单点故障

使得海量小文件的存储得到了有效解决

第二个就是数据库系统

在数据库系统里面

Google公司早期开发的数据库系统

它是一个多维稀疏的排序表

在这里边由行和列组成

每一个存储单元都有一个时间

时间节点

形成一个三维的结构

而在这种模型过程当中

相对比较传统的数据库而言

其支持的功能非常有限

并不支持ACD这样特性

由此呢

Google公司正在使用的数据库

采取的 Spanner这个架构

Spanner框架是第一个可以实现

全球规模扩展

并且支持外部一致的事务的数据库

通过GPS和原子时钟技术

Spanner实现了一个时间API

借助该API

数据中心之间的时间同步

能够精确到10每秒以内

Spanner类似于 Bigtable

但是它具有层次性的

目录结构以及细粒度的数据复制

对于数据中心之间

不同的操作会分别支持

强一致性或弱一致性

且支持更多的自动操作

由此呢

我们第三个分析系统

在这里边

图是真实社会中

事物之间联系的一种有效表示手段

而图计算涉及在

相同数据上的不断更新

以及大量的信传递过程当中

MapReduce模型适合于批处理

但是

这个MapReduce会产生大量的

不必要的序列化和反序列化的一些开销

Pregel模型由此就产生了

它主要运用于图的计算

其核心思想源于BSP这个模型

而分析系统当中

适用于Web数据级别的

交互数据分析系统

通过结合

列存储和多层次的查询机制

或者说多层次的查询树

Dremel能够实现

极短时间内的海量数据分析

当然了

Dremel支持着

Google内部的一些重要业务

比方说

Google的云端大数据分析平台

Big Query Google

同时呢

PowerDrill同样采用了这种列存储

且使用压缩技术尽可能是多列的数据

封装在一个内存当中去

PowerDrill主要用来

处理少量的核心数据集

对数据处理速度要求比较高

所以说其数据应当尽可能的

驻留存在内存当中去

可以在30至40秒内

处理7820亿个单元格的数据结构

处理速度快于Dremel

第四个我主要介绍索引系统

索引的构建是提供

搜索服务的关键部分

MapReduce根据更新频率

进行层次划分

不同的层次对应不同的更新频率

每次都需要批量更新索引

即使有些数据并未改变也需要处理掉

这种索引更新方式通常效率比较低

为此Percolator

这是一种增量式的索引更新器

每次更新不需要替代所有的索引数据

由此呢

大大提高了整个索引效率

而索引系统构建过程

主要是提供搜索服务的一些关键部位

目前 Google公司所采用的

索引系统主要采用Caffeine

其具体实现过程目前还没有公布

但是可以确定 Caffeine

是构建在 Spanner之上的

他主要采用 Percolator更新索引

效率相比较而言其大幅的提高了

这是我们第一节的内容

就是我们大数据基础平台与支撑技术

我介绍到这

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

6.1 云计算大数据基础平台与支撑技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。