当前课程知识点:大数据管理与挖掘 >  第6章 大数据管理系统 >  6.3 SQL NOSQL与NEWSQL系统 >  6.3 SQL NOSQL与NEWSQL系统

返回《大数据管理与挖掘》慕课在线视频课程列表

6.3 SQL NOSQL与NEWSQL系统在线视频

下一节:6.4 小结

返回《大数据管理与挖掘》慕课在线视频列表

6.3 SQL NOSQL与NEWSQL系统课程教案、知识点、字幕

欢迎回来

我们继续讲我们第三节内容

SQL NOSQL和NEWSQL系统

首先呢

对SQL系统呢做一个介绍

SQL系统是使用结构化查询语言

SQL的关系数据库

该类系统的关键部分是SQL语句

该语言是

经过时间考验的

目前大数据公司和组织

正在使用和积极投资的SQL语句

SQL的特点主要包括以下几个方面

第一个是

目前是种标准化的一种系统

他呢使用户能够跨系统的运行

并对第三方附件和工具提供支持

第二个就是SQL系统能够扩展

并且是多功能的

因此能够很好地支持

从以写为主的

传输到扫描密集型分析应用

第三个就是

SQL对数据的呈现和存储

主要采用正交形式

而NoSQL系统

具体来讲

他是比较含糊的

它是一种对 NOSQL的定义

具体定义包括

提供简单的操作

比方说

密钥 数值存储等等

还是简单的记录和索引

并专注于这些简单操作的

横向可扩展性的系统

NOSQL系统的主要特点是

更适合于特定的问题

比如

图形数据库更适合于

数据通过关系组织的情况

而专门的文本搜索系统

更适于需要实时搜索的情况

由此呢

NOSQL系统的主要特点

包括以下几个方面

第一个不需要预定义模式

第二个无共享架构

第三个弹性可扩展

第四个就是分区

第五个异步复制

第六个是BASE特性

相对于事务严格的ACD特性来讲

NOSQL数据库是

它保证的是BASE基本特性

接着呢

我给大家介绍NewSQL系统

NewSQL系统它结合了

关系型数据库和 NOSQL数据库系统的

一些特点

因此NewSQL本质上是

对各种新的可扩展

或者说高性能数据库的一些简称

这类数据库

不仅具有 NOSQL对海量数据的

存储管理能力

而且还保留了传统数据库支持的

ACID和SQL等特性

NewSQL系统的一些特点

包括以下几个方面

第一它们都支持关系数据模型

第二个呢

它们都使用 SQL 作为其主要的接口

在已知的第一个 NewSQL系统中

是H-Store

它是个分布式并行内存数据库系统

目前

传统的数据库关系系统

仍然由 Oracle

MySQL

Server来控制

目前仍然占据整个数据库市场的大量份额

然而

这三个数据库

在产品功能趋势相同的情况下

也在进行相关的差异化的发展

比方说我们的SQL

它这个数据类型

可以从这个图上可以看出来

我们首先介绍下Oracle

Oracle是目前

功能比较完善而强大的数据库系统

近年来

Oracle数据库已经不满足提供单纯的

数据库软件技术

它开始提供一体机解决方案

这应看成是

Oracle数据库未来

着力发展的一个方向

未来,

Oracle数据库一体机

主要面向的是中小企业和部门级的应用

接着呢我给大家介绍MySQL

MySQL目前隶属于 Oracle公司

MySQL是互联网企业

使用最为广泛的数据库

比方说Facebook

Goge

百度

腾讯

阿里等都是他的客户

接着呢我给大家介绍Microsoft SQL Server

它的优点是可以集成

Windows平台的一些特性

提供一站式的整体解决方案

但缺点是

基于 Windows数据库

因此其只能部署在Windows平台上面

系统的稳定性有所欠缺

同时

也导致其互联网上应用中

所占份额相对比较少

接着呢我给大家介绍NoSQL数据库

大数据应用需要实时的预测分析

个性化定制

动态定价

优质客户服务

欺诈检测或者说异常检测等等

这些对数据库的需求

可以概括为

第一个简单的数据响应

但必须保证高可用性

第二个内置支持版本控制和数据压缩

第三个查询执行必须接近于实时响应

第四个多种查询方式

能支持非常复杂的 Ad-hoc查询

第五个支持交互式查询

第六个并行处理能力

由此呢

NoSQL系统

能够提供以下六个方面的一些特性

第一个

可塑的数据模式

第二个弹性查询

第三个操作简捷

第四个社会化

第五个可扩展性和低代价

典型 NOSQL系统的特性可以从下表所示

接着我们比较一下

目前比较典型的NoSQL数据库

第一个文档数据库

文档数据库

目前

对我们的传统模式相比较而言

它是目前在IT行业里面

非常流行的一种非关系型数据库

其灵活的数据存储方式

备受行业的关注

而典型的文档系统

实现了面向对象的基本思想

在文档数据库当中

每一条记录都是一个文档对象

而文档系统中它最大的优势在于

所有的数据有持久操作

都无须开发人员手动编写SQL语句

直接调用方法就可以轻松实现

CRUD的操作

而文档系统中目前已经实现了对

各种存储引擎的支持

提供了文档级别的锁

从而使得文档的性能

压缩性和可用性都得到了大幅度的提升

第二个就是

列存储数据库

HBase

它是一个分布式的

面向列的开源数据库

而HBase

它是一个结构化数据分布式存储体系结构

就像Google文件系统所提供的

分布式数据存储一样

HBase在 Hadoop之上

提供了类似于

典型的类存储这种结果和功能

HBase是 Apache的它的子项目

它的区别在于

HBase不同于一般的关系数据库

它是一个

适合于非结构化数据存储的数据库

另一个不同点是

HBase是基于列的

而不是基于行的这种模式

接着呢我给大家介绍列存储数据库

而列存储数据库是一套开源式分布式

非关系数据库

它最初是由 Facebook开发

用于存储收件箱等最简单的存储式数据

集 Google Bigtable的数据模型

与 Amazon Dynamo的完全分布式的

架构于一身的这种特点

还有一个就是它具有很好的可扩展性

成为一种流行的

分布式结构化数据存储方案

同时也是一个混合型非关系型的数据库

是介于关系数据库

和非关系数据库之间的开源产品

是非关系数据库当中功能最丰富

最像关系数据库的

由此呢

可以存储比较复杂的数据类型

现在呢

我们对NoSQL数据库进行详细的比较

具体的比较结果呢

我们可以从下表呢可以看到

接着呢我给大家介绍NewSQL数据库

NewSQL数据库

它具有两个代表性的产品

一个是国外的 Google Spanner

另一个是国内的阿里云的 Ocean Base

这两个数据库

一个是国际上使用量最大的数据库

一个是国内使用量最大的数据库

而 Google Spanner

它是全球分布式的数据库

它具有高扩展性

多版本

世界级分布及同步复制等特性

Spanner目前主要立足于高抽象层

使用协议等跨领域的跨数据集的这种方式

把数据分散到世界上不同的数据中心

由此呢它的整个世界范围内

进行跨数据的操作或跨平台的操作

当出现故障的时候

通过客户的副本之间可以自动切换

具体来讲

Spanner自动完成数据的重切片

和跨机操作

以平衡负载或者处理故障

可以轻松横跨数个数据中心

将亿万个数据

进行

扩展到多个或者分布到

数万百万个这种机器上面去

具有很好的高可靠性

由此系统的可靠性

仍然得到了很好的保障和很好的利用

阿里云这个 Ocean Base

目前支持海量数据的

高性能分布式数据库

它实现了数千亿条记录

百TB的这样的一个跨平台的各种操作

在设计和实现上

Ocean Base目前放弃了

不紧急的DBMs的这种功能

如临时表

视图等等

当前

Ocean Base主要解决数据的更新一致性

高性能的跨表读事务

范围查询

连接

数据全量及增量等等

目前 Ocean Base

还处于阿里云内部推广使用

随着内部系统上的逐步扩展

和系统使用的稳定性

后续阿里云可能会

考虑提供 Ocean Base的这种云服务

这是我们第三节

SQL NOSQL和NEWSQL系统的介绍

我介绍到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

6.3 SQL NOSQL与NEWSQL系统笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。