当前课程知识点:大数据管理与挖掘 > 第6章 大数据管理系统 > 6.3 SQL NOSQL与NEWSQL系统 > 6.3 SQL NOSQL与NEWSQL系统
欢迎回来
我们继续讲我们第三节内容
SQL NOSQL和NEWSQL系统
首先呢
对SQL系统呢做一个介绍
SQL系统是使用结构化查询语言
SQL的关系数据库
该类系统的关键部分是SQL语句
该语言是
经过时间考验的
目前大数据公司和组织
正在使用和积极投资的SQL语句
SQL的特点主要包括以下几个方面
第一个是
目前是种标准化的一种系统
他呢使用户能够跨系统的运行
并对第三方附件和工具提供支持
第二个就是SQL系统能够扩展
并且是多功能的
因此能够很好地支持
从以写为主的
传输到扫描密集型分析应用
第三个就是
SQL对数据的呈现和存储
主要采用正交形式
而NoSQL系统
具体来讲
他是比较含糊的
它是一种对 NOSQL的定义
具体定义包括
提供简单的操作
比方说
密钥 数值存储等等
还是简单的记录和索引
并专注于这些简单操作的
横向可扩展性的系统
NOSQL系统的主要特点是
更适合于特定的问题
比如
图形数据库更适合于
数据通过关系组织的情况
而专门的文本搜索系统
更适于需要实时搜索的情况
由此呢
NOSQL系统的主要特点
包括以下几个方面
第一个不需要预定义模式
第二个无共享架构
第三个弹性可扩展
第四个就是分区
第五个异步复制
第六个是BASE特性
相对于事务严格的ACD特性来讲
NOSQL数据库是
它保证的是BASE基本特性
接着呢
我给大家介绍NewSQL系统
NewSQL系统它结合了
关系型数据库和 NOSQL数据库系统的
一些特点
因此NewSQL本质上是
对各种新的可扩展
或者说高性能数据库的一些简称
这类数据库
不仅具有 NOSQL对海量数据的
存储管理能力
而且还保留了传统数据库支持的
ACID和SQL等特性
NewSQL系统的一些特点
包括以下几个方面
第一它们都支持关系数据模型
第二个呢
它们都使用 SQL 作为其主要的接口
在已知的第一个 NewSQL系统中
是H-Store
它是个分布式并行内存数据库系统
目前
传统的数据库关系系统
仍然由 Oracle
MySQL
Server来控制
目前仍然占据整个数据库市场的大量份额
然而
这三个数据库
在产品功能趋势相同的情况下
也在进行相关的差异化的发展
比方说我们的SQL
它这个数据类型
可以从这个图上可以看出来
我们首先介绍下Oracle
Oracle是目前
功能比较完善而强大的数据库系统
近年来
Oracle数据库已经不满足提供单纯的
数据库软件技术
它开始提供一体机解决方案
这应看成是
Oracle数据库未来
着力发展的一个方向
未来,
Oracle数据库一体机
主要面向的是中小企业和部门级的应用
接着呢我给大家介绍MySQL
MySQL目前隶属于 Oracle公司
MySQL是互联网企业
使用最为广泛的数据库
比方说Facebook
Goge
百度
腾讯
阿里等都是他的客户
接着呢我给大家介绍Microsoft SQL Server
它的优点是可以集成
Windows平台的一些特性
提供一站式的整体解决方案
但缺点是
基于 Windows数据库
因此其只能部署在Windows平台上面
系统的稳定性有所欠缺
同时
也导致其互联网上应用中
所占份额相对比较少
接着呢我给大家介绍NoSQL数据库
大数据应用需要实时的预测分析
个性化定制
动态定价
优质客户服务
欺诈检测或者说异常检测等等
这些对数据库的需求
可以概括为
第一个简单的数据响应
但必须保证高可用性
第二个内置支持版本控制和数据压缩
第三个查询执行必须接近于实时响应
第四个多种查询方式
能支持非常复杂的 Ad-hoc查询
第五个支持交互式查询
第六个并行处理能力
由此呢
NoSQL系统
能够提供以下六个方面的一些特性
第一个
可塑的数据模式
第二个弹性查询
第三个操作简捷
第四个社会化
第五个可扩展性和低代价
典型 NOSQL系统的特性可以从下表所示
接着我们比较一下
目前比较典型的NoSQL数据库
第一个文档数据库
文档数据库
目前
对我们的传统模式相比较而言
它是目前在IT行业里面
非常流行的一种非关系型数据库
其灵活的数据存储方式
备受行业的关注
而典型的文档系统
实现了面向对象的基本思想
在文档数据库当中
每一条记录都是一个文档对象
而文档系统中它最大的优势在于
所有的数据有持久操作
都无须开发人员手动编写SQL语句
直接调用方法就可以轻松实现
CRUD的操作
而文档系统中目前已经实现了对
各种存储引擎的支持
提供了文档级别的锁
从而使得文档的性能
压缩性和可用性都得到了大幅度的提升
第二个就是
列存储数据库
HBase
它是一个分布式的
面向列的开源数据库
而HBase
它是一个结构化数据分布式存储体系结构
就像Google文件系统所提供的
分布式数据存储一样
HBase在 Hadoop之上
提供了类似于
典型的类存储这种结果和功能
HBase是 Apache的它的子项目
它的区别在于
HBase不同于一般的关系数据库
它是一个
适合于非结构化数据存储的数据库
另一个不同点是
HBase是基于列的
而不是基于行的这种模式
接着呢我给大家介绍列存储数据库
而列存储数据库是一套开源式分布式
非关系数据库
它最初是由 Facebook开发
用于存储收件箱等最简单的存储式数据
集 Google Bigtable的数据模型
与 Amazon Dynamo的完全分布式的
架构于一身的这种特点
还有一个就是它具有很好的可扩展性
成为一种流行的
分布式结构化数据存储方案
同时也是一个混合型非关系型的数据库
是介于关系数据库
和非关系数据库之间的开源产品
是非关系数据库当中功能最丰富
最像关系数据库的
由此呢
可以存储比较复杂的数据类型
现在呢
我们对NoSQL数据库进行详细的比较
具体的比较结果呢
我们可以从下表呢可以看到
接着呢我给大家介绍NewSQL数据库
NewSQL数据库
它具有两个代表性的产品
一个是国外的 Google Spanner
另一个是国内的阿里云的 Ocean Base
这两个数据库
一个是国际上使用量最大的数据库
一个是国内使用量最大的数据库
而 Google Spanner
它是全球分布式的数据库
它具有高扩展性
多版本
世界级分布及同步复制等特性
Spanner目前主要立足于高抽象层
使用协议等跨领域的跨数据集的这种方式
把数据分散到世界上不同的数据中心
由此呢它的整个世界范围内
进行跨数据的操作或跨平台的操作
当出现故障的时候
通过客户的副本之间可以自动切换
具体来讲
Spanner自动完成数据的重切片
和跨机操作
以平衡负载或者处理故障
可以轻松横跨数个数据中心
将亿万个数据
进行
扩展到多个或者分布到
数万百万个这种机器上面去
具有很好的高可靠性
由此系统的可靠性
仍然得到了很好的保障和很好的利用
阿里云这个 Ocean Base
目前支持海量数据的
高性能分布式数据库
它实现了数千亿条记录
百TB的这样的一个跨平台的各种操作
在设计和实现上
Ocean Base目前放弃了
不紧急的DBMs的这种功能
如临时表
视图等等
当前
Ocean Base主要解决数据的更新一致性
高性能的跨表读事务
范围查询
连接
数据全量及增量等等
目前 Ocean Base
还处于阿里云内部推广使用
随着内部系统上的逐步扩展
和系统使用的稳定性
后续阿里云可能会
考虑提供 Ocean Base的这种云服务
这是我们第三节
SQL NOSQL和NEWSQL系统的介绍
我介绍到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论