当前课程知识点:大数据管理与挖掘 > 第6章 大数据管理系统 > 6.1 云计算 大数据基础平台与支撑技术 > 6.1 云计算 大数据基础平台与支撑技术
大家好
我是西安工程大学
管理学院的邵景峰教授
我们这节呢
主要讲我们第六章的内容
大数据管理系统
第一个我们主要讲
我们的第一节云计算
大数据基础平台与支撑技术
面对不断运用的我们的大数据应用
数据库以及数据库管理技术
而面临的各种新型问题
传统的数据库管理方式
和我们的传统的数据库管理模式
以及侧重主要考虑
数据的深度问题
主要解决数据的组织
存储
查询和简单的分析等等
但是呢
我们数据库的管理技术在一定程度上
虽然考虑了我们的深度
但是还没考虑我们数据的广度和密度问题
这里面
我们通过这个考虑广度和深度呢
来主要解决数据的集成
流处理
和我们的图结构问题
因此
与我们传统的数据库管理技术相比
大数据管理技术
难度更高
处理数据的
战线更长
为了解决上述问题
需要从底层改变数据的管理方式
而云计算技术
为大数据管理提供了基础平台
和底层资源管理策略
为大数据管理提供了
多种多样的数据模型
而非仅局限于关系模型
如果将各种大数据的应用
比作为一辆汽车
那么支撑起这辆汽车的
运行的高速公路
就是云计算
正是云计算技术在数据存储
管理与分析等方面的支撑
才使得我们大数据有用武之地
这样的话
在所有的高速公路当中
Google公司无疑是技术最为先进的一个
面对海量的Web数据
Google公司于2006年首先提出了
云计算概念
支撑Google公司内部
各种大数据应用的
正是自行研发的一系列
云计算技术和工具
Google公司对云计算技术的介绍
使得人们能够快捷
完整地把握云计算技术的一些核心和精髓
具体的Google公司
对云计算的技术演化过程
可以从我们的上图可以展示出来
Google公司对整个云计算技术演化过程
分布为以下几个方面
第一个就是我们的文件系统
支撑上层应用的一些基础
而 Google公司认为
系统组件主要失败的原因在于
采取一种常态而不是异常
基于此
他自行研发了一套GFS文件系统
而这里面
GFS系统
是一个可扩展的分布式文件系统
主要针对文件量大
且读远大于写的应用场景
采取主从这种结构
而GFS通过数据的分块
追加更新的应用场景
采用主从式的方式
实现了海量数据的高效存储
同时随着时间的推移
GFS的架构逐渐开始
无法适应我们的
整个用户或者说企业的需求
Google公司对GFS进行了重新设计
使得该系统正式的名称为
如下所示的一个框架
通过这个框架
解决了GFS的单点故障
使得海量小文件的存储得到了有效解决
第二个就是数据库系统
在数据库系统里面
Google公司早期开发的数据库系统
它是一个多维稀疏的排序表
在这里边由行和列组成
每一个存储单元都有一个时间
时间节点
形成一个三维的结构
而在这种模型过程当中
相对比较传统的数据库而言
其支持的功能非常有限
并不支持ACD这样特性
由此呢
Google公司正在使用的数据库
采取的 Spanner这个架构
Spanner框架是第一个可以实现
全球规模扩展
并且支持外部一致的事务的数据库
通过GPS和原子时钟技术
Spanner实现了一个时间API
借助该API
数据中心之间的时间同步
能够精确到10每秒以内
Spanner类似于 Bigtable
但是它具有层次性的
目录结构以及细粒度的数据复制
对于数据中心之间
不同的操作会分别支持
强一致性或弱一致性
且支持更多的自动操作
由此呢
我们第三个分析系统
在这里边
图是真实社会中
事物之间联系的一种有效表示手段
而图计算涉及在
相同数据上的不断更新
以及大量的信传递过程当中
MapReduce模型适合于批处理
但是
这个MapReduce会产生大量的
不必要的序列化和反序列化的一些开销
Pregel模型由此就产生了
它主要运用于图的计算
其核心思想源于BSP这个模型
而分析系统当中
适用于Web数据级别的
交互数据分析系统
通过结合
列存储和多层次的查询机制
或者说多层次的查询树
Dremel能够实现
极短时间内的海量数据分析
当然了
Dremel支持着
Google内部的一些重要业务
比方说
Google的云端大数据分析平台
Big Query Google
同时呢
PowerDrill同样采用了这种列存储
且使用压缩技术尽可能是多列的数据
封装在一个内存当中去
PowerDrill主要用来
处理少量的核心数据集
对数据处理速度要求比较高
所以说其数据应当尽可能的
驻留存在内存当中去
可以在30至40秒内
处理7820亿个单元格的数据结构
处理速度快于Dremel
第四个我主要介绍索引系统
索引的构建是提供
搜索服务的关键部分
MapReduce根据更新频率
进行层次划分
不同的层次对应不同的更新频率
每次都需要批量更新索引
即使有些数据并未改变也需要处理掉
这种索引更新方式通常效率比较低
为此Percolator
这是一种增量式的索引更新器
每次更新不需要替代所有的索引数据
由此呢
大大提高了整个索引效率
而索引系统构建过程
主要是提供搜索服务的一些关键部位
目前 Google公司所采用的
索引系统主要采用Caffeine
其具体实现过程目前还没有公布
但是可以确定 Caffeine
是构建在 Spanner之上的
他主要采用 Percolator更新索引
效率相比较而言其大幅的提高了
这是我们第一节的内容
就是我们大数据基础平台与支撑技术
我介绍到这
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论