当前课程知识点:大数据系统基础 >  1. 绪论 >  授课视频 >  什么是大数据

返回《大数据系统基础》慕课在线视频课程列表

什么是大数据在线视频

什么是大数据

下一节:大数据典型应用

返回《大数据系统基础》慕课在线视频列表

什么是大数据课程教案、知识点、字幕

同学们好

欢迎大家学习大数据系统基础

今天随着互联网 物联网

和云计算的兴起

我们进入了大数据时代

可以说我们的衣食住行

无时无刻地都在产生着数据

比如

我们今天用的手机当中

就产生了大量的数据

那么在这个业务融合

跨界颠覆的时代

是什么样的力量在改变着世界

是什么样的系统

在处理这样大量的数据呢

今天我们就带领大家

学习 剖析

和理解大数据系统的原理

去感受大数据系统的魅力

2013年NCR公司的CTO用

狄更斯《生存记》中的一句话

来描述今天大数据的发展现状

这是一个最好的时代

也是一个最坏的时代

我非常同意他的观点

大数据

或者说数据科学

仍然处在一个起步阶段

应该说它还在路上

因此同学们要带着批评性的思维

和与时俱进的观点

来学习我们这门课程

首先让我们解读一下

我们身边的数据

是如何变成大数据的

让我们回顾一下历史

看看大数据从哪里来

上个世纪60年代

现在数据管理实践开始起步

其代表性成果是网状数据库

和层次数据库

上世纪70年代

IBM公司的EFCloud

开创了关系数据库理论

80年代

随着事物处理模型的完善

关系数据管理

在数据库的学术界

和工业界取得了主导地位

并一直保持到今天

同时80年代中后期

随着计算机辅助设计

我们所说的CAD等技术的发展

面向对象数据库

开始进入研究领导

但遗憾的是

未直接形成产业

上世纪90年代

随着互联网的飞速发展

出现了文本和多媒体数据库

同时数据分析和挖掘技术

开始萌芽

进入新世纪

Web数据库 XML数据库等

得到了快速的发展

2010年左右

随着云计算技术的逐步落地

大数据理念首先为产业界

和社会所认可

并迅速拓展到了学术界

纵观历史

我们不难发现

计算平台 数据类型

和产业应用构成了

数据管理发展的驱动力

其中产业应用的拉动与驱动

起到了核心的作用

那么什么是大数据呢

根据维基百科的定义

它是一个包罗万象的概念

如果一个数据集的规模

或者是其处理的复杂性

用传统的数据处理系统

难以驾驭的话

我们就把这样的数据集

叫做大数据

那么

什么是大数据呢

我们可以通过下面这段视频

来看看它的具体的来源

和它应用的场景

在时下的流行语中

很难找出一个比大数据

更吸人眼球的术语了

大数据的颠覆和创新作用

几乎在每个行业都有体现

那么是什么大数据呢

巨量资料或成大数据

海量资料

指的是所涉及的资料量

规模巨大到

无法通过目前主流软件工具

在合理时间内

达到截取 管理 储联

并整理成为帮助企业经营决策

更积极目的的直线

大数据从而而来呢

大数据可能是来源于我们每个人

例如我们上网聊天 浏览网页

购买货物 发表文章

我们在互联网上的每一步操作

都可以产生数据

这些数据集合在一起

就是一个大数据

但大数据的数据

又并非单纯指人们在互联网上

产生的信息

工业设备 汽车制造

仪表等都会产生数据

而这些东西与

我们人类生产的信息

也都可以称之为大数据

大数据能做什么呢

大数据包含着巨大的价值

因为将大数据

比作科技时代的原油

能够让我们从这些数据资料中

获取我们需要的价值

推动我们的发展

这样才是大数据的真正价值

我们需要从数据资源中

发掘这些数据的价值

来为我们服务

来为社会进步提供新的动力

大数据到底有多大

一组名为互联网上一天的数据

告诉我们

一天之中互联网产生的全部内容

可以刻满1.68亿张DVD

发出的邮件有2940亿封之多

发出的设计帖子达200万个

卖出的手机为37.8万台

高于全球每天出生的婴儿数量

37.1万

更主要的是

数据已经不仅仅是数据本身了

这是一场革命

那么什么是大数据系统呢

如果说大数据是21世纪的石油

那么大数据系统

就是从这些数据当中

提出价值的基础装备

我们这门课的题目就叫做

大数据系统的基础

就是要学习大数据系统的构建

开发

与运维的原理

其中用的技术和使用的方法

反思维基百科给出的定义

好象还缺了点什么

我们可以从中来反思

得到这样的一个结论

它没有明确的给出

应用需求中的时间约束

或者说

大数据的大是相对的

比如100兆的数据量并不大

但是我们需要在1秒之内

对这100兆的数据

完成复杂的数据分析

可能就超出了目前

传统数据系统的处理能力

这就是个大数据

因此我们可以这样理解

大数据其实是计算学科当中

永恒的话题

在给定有限的计算资源

以及一定的

问题输入规模的情况下

用户需要在他需要的时间内

计算出最终的结果

那么在任何的一个时代

我们都会面临这样的问题

当输入的数据规模

大到超出了一定的计算能力

或者可容忍的时间时

它就成为了大数据问题

当然

随着互联网 移动网

运计算 物联网

等现代人类社会应用的快速发展

形成了人 机器

和软件数据三流汇聚的局面

它当然是今天

大数据产业发展的直接原因

这种场景

我们在前面的视频当中

也得到了充分的引证

现在我们再从企业的角度

来看一看大数据这个概念

前面我们讲过

数据管理的起源

是在上个世纪的60年代

当时数据管理面向的就是企业

当然当时的企业

是面向的金融 民航

等这样的一些复杂的企业的

数据的应用

今天大数据对企业而言

有什么不同呢

我们不仅要考虑

企业内部的非结构化数据

以及企业内部的结构化数据

还要考虑企业外部的

结构化数据

和企业外部的非结构化数据

在某种意义上说

数据的产生的环境

与使用的过程

是相分离的

有些人将这种现象概括为

数据治理的无政府组

这也是当前大数据管理的

一个重要的挑战

或者说特征

前面我们看了

产业界对大数据的一些看法

下面我们看看学术界

是怎样来看大数据的

2014年图灵奖的获得者

MIT的Michael Stonebraker教授

在2012年的他的一篇博文当中

曾经这样地概括大数据

他认为大数据是计算机科学

这个学科当中的一个旗帜

那么是近年来

这些研究者

纷纷把自己的研究方向

调整到了这个大数据的旗帜之下

当然这位学者

只是强调了大数据的市场的一面

学术界尽管对大数据

有一定的疑意

但是也做出了积极的响应

比如说斯坦福大学

创建了SNAP实验室

CMU大学提供了

两个针对于图形的开源项目

牛津大学

建立了大数据研究院

MIT成立了大数据的科学

和技术中心

当然今天最火的大数据实验室

还是在伯克利的GraphLab

我们看伯克利的

大数据中心的三位创始人

分别是数据库方向

机器学习方向

和操作系统方向的专家

这也体现了大数据学科的

交叉融合的一面

通过学术界的不断地研究

和实践

我们可以看到

大数据引发了

在数据管理方面的一些

基础的学术概念的变化

比如说

从数据工程

到了今天的数据科学

从原来的知识工程

到了今天的认知科学

从原来的数据仓库

到今天的数据分析

还有就是从在线事务

到在线分析

再到商务职能

这些都体现了大数据研究

对学术界的一个影响

最后我们可以看到

什么是数据科学

得到了人们的广泛地关注

这里我们借用美国标准化局

对数据科学的一段定义

那么数据科学就是从

数据当中发现知识

特别是

在数据当中能够发现

指导人们行动的知识

它叫做Xknowledge

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

什么是大数据笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。