当前课程知识点:大数据系统基础 > 1. 绪论 > 授课视频 > 什么是大数据
同学们好
欢迎大家学习大数据系统基础
今天随着互联网 物联网
和云计算的兴起
我们进入了大数据时代
可以说我们的衣食住行
无时无刻地都在产生着数据
比如
我们今天用的手机当中
就产生了大量的数据
那么在这个业务融合
跨界颠覆的时代
是什么样的力量在改变着世界
是什么样的系统
在处理这样大量的数据呢
今天我们就带领大家
学习 剖析
和理解大数据系统的原理
去感受大数据系统的魅力
2013年NCR公司的CTO用
狄更斯《生存记》中的一句话
来描述今天大数据的发展现状
这是一个最好的时代
也是一个最坏的时代
我非常同意他的观点
大数据
或者说数据科学
仍然处在一个起步阶段
应该说它还在路上
因此同学们要带着批评性的思维
和与时俱进的观点
来学习我们这门课程
首先让我们解读一下
我们身边的数据
是如何变成大数据的
让我们回顾一下历史
看看大数据从哪里来
上个世纪60年代
现在数据管理实践开始起步
其代表性成果是网状数据库
和层次数据库
上世纪70年代
IBM公司的EFCloud
开创了关系数据库理论
80年代
随着事物处理模型的完善
关系数据管理
在数据库的学术界
和工业界取得了主导地位
并一直保持到今天
同时80年代中后期
随着计算机辅助设计
我们所说的CAD等技术的发展
面向对象数据库
开始进入研究领导
但遗憾的是
未直接形成产业
上世纪90年代
随着互联网的飞速发展
出现了文本和多媒体数据库
同时数据分析和挖掘技术
开始萌芽
进入新世纪
Web数据库 XML数据库等
得到了快速的发展
2010年左右
随着云计算技术的逐步落地
大数据理念首先为产业界
和社会所认可
并迅速拓展到了学术界
纵观历史
我们不难发现
计算平台 数据类型
和产业应用构成了
数据管理发展的驱动力
其中产业应用的拉动与驱动
起到了核心的作用
那么什么是大数据呢
根据维基百科的定义
它是一个包罗万象的概念
如果一个数据集的规模
或者是其处理的复杂性
用传统的数据处理系统
难以驾驭的话
我们就把这样的数据集
叫做大数据
那么
什么是大数据呢
我们可以通过下面这段视频
来看看它的具体的来源
和它应用的场景
在时下的流行语中
很难找出一个比大数据
更吸人眼球的术语了
大数据的颠覆和创新作用
几乎在每个行业都有体现
那么是什么大数据呢
巨量资料或成大数据
海量资料
指的是所涉及的资料量
规模巨大到
无法通过目前主流软件工具
在合理时间内
达到截取 管理 储联
并整理成为帮助企业经营决策
更积极目的的直线
大数据从而而来呢
大数据可能是来源于我们每个人
例如我们上网聊天 浏览网页
购买货物 发表文章
我们在互联网上的每一步操作
都可以产生数据
这些数据集合在一起
就是一个大数据
但大数据的数据
又并非单纯指人们在互联网上
产生的信息
工业设备 汽车制造
仪表等都会产生数据
而这些东西与
我们人类生产的信息
也都可以称之为大数据
大数据能做什么呢
大数据包含着巨大的价值
因为将大数据
比作科技时代的原油
能够让我们从这些数据资料中
获取我们需要的价值
推动我们的发展
这样才是大数据的真正价值
我们需要从数据资源中
发掘这些数据的价值
来为我们服务
来为社会进步提供新的动力
大数据到底有多大
一组名为互联网上一天的数据
告诉我们
一天之中互联网产生的全部内容
可以刻满1.68亿张DVD
发出的邮件有2940亿封之多
发出的设计帖子达200万个
卖出的手机为37.8万台
高于全球每天出生的婴儿数量
37.1万
更主要的是
数据已经不仅仅是数据本身了
这是一场革命
那么什么是大数据系统呢
如果说大数据是21世纪的石油
那么大数据系统
就是从这些数据当中
提出价值的基础装备
我们这门课的题目就叫做
大数据系统的基础
就是要学习大数据系统的构建
开发
与运维的原理
其中用的技术和使用的方法
反思维基百科给出的定义
好象还缺了点什么
我们可以从中来反思
得到这样的一个结论
它没有明确的给出
应用需求中的时间约束
或者说
大数据的大是相对的
比如100兆的数据量并不大
但是我们需要在1秒之内
对这100兆的数据
完成复杂的数据分析
可能就超出了目前
传统数据系统的处理能力
这就是个大数据
因此我们可以这样理解
大数据其实是计算学科当中
永恒的话题
在给定有限的计算资源
以及一定的
问题输入规模的情况下
用户需要在他需要的时间内
计算出最终的结果
那么在任何的一个时代
我们都会面临这样的问题
当输入的数据规模
大到超出了一定的计算能力
或者可容忍的时间时
它就成为了大数据问题
当然
随着互联网 移动网
运计算 物联网
等现代人类社会应用的快速发展
形成了人 机器
和软件数据三流汇聚的局面
它当然是今天
大数据产业发展的直接原因
这种场景
我们在前面的视频当中
也得到了充分的引证
现在我们再从企业的角度
来看一看大数据这个概念
前面我们讲过
数据管理的起源
是在上个世纪的60年代
当时数据管理面向的就是企业
当然当时的企业
是面向的金融 民航
等这样的一些复杂的企业的
数据的应用
今天大数据对企业而言
有什么不同呢
我们不仅要考虑
企业内部的非结构化数据
以及企业内部的结构化数据
还要考虑企业外部的
结构化数据
和企业外部的非结构化数据
在某种意义上说
数据的产生的环境
与使用的过程
是相分离的
有些人将这种现象概括为
数据治理的无政府组
这也是当前大数据管理的
一个重要的挑战
或者说特征
前面我们看了
产业界对大数据的一些看法
下面我们看看学术界
是怎样来看大数据的
2014年图灵奖的获得者
MIT的Michael Stonebraker教授
在2012年的他的一篇博文当中
曾经这样地概括大数据
他认为大数据是计算机科学
这个学科当中的一个旗帜
那么是近年来
这些研究者
纷纷把自己的研究方向
调整到了这个大数据的旗帜之下
当然这位学者
只是强调了大数据的市场的一面
学术界尽管对大数据
有一定的疑意
但是也做出了积极的响应
比如说斯坦福大学
创建了SNAP实验室
CMU大学提供了
两个针对于图形的开源项目
牛津大学
建立了大数据研究院
MIT成立了大数据的科学
和技术中心
当然今天最火的大数据实验室
还是在伯克利的GraphLab
我们看伯克利的
大数据中心的三位创始人
分别是数据库方向
机器学习方向
和操作系统方向的专家
这也体现了大数据学科的
交叉融合的一面
通过学术界的不断地研究
和实践
我们可以看到
大数据引发了
在数据管理方面的一些
基础的学术概念的变化
比如说
从数据工程
到了今天的数据科学
从原来的知识工程
到了今天的认知科学
从原来的数据仓库
到今天的数据分析
还有就是从在线事务
到在线分析
再到商务职能
这些都体现了大数据研究
对学术界的一个影响
最后我们可以看到
什么是数据科学
得到了人们的广泛地关注
这里我们借用美国标准化局
对数据科学的一段定义
那么数据科学就是从
数据当中发现知识
特别是
在数据当中能够发现
指导人们行动的知识
它叫做Xknowledge
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7