当前课程知识点:大数据系统基础 >  1. 绪论 >  授课视频 >  大数据的特点

返回《大数据系统基础》慕课在线视频课程列表

大数据的特点在线视频

大数据的特点

下一节:大数据技术体系

返回《大数据系统基础》慕课在线视频列表

大数据的特点课程教案、知识点、字幕

接下来

我们再看一看大数据的特点

所谓的大数据

我们要看看它究竟大在哪里

我们给出了下面八个维度

来考虑大数据的大

第一个维度

考察数据的规模

今天我们说

已经成了TB PB EB

甚至到了ZB级

这样的数据规模意味着什么

我们大家都知道有一个

凡尔纳的小说

叫《环游世界80天》

当时形容地球之大

要通过80天才能够环游一周

那今天数据世界之大

如果我们用2009年的

磁盘的读取速度

我们可以看到

要访问整个的数字世界

今天我们要花4万年

在企业当中

原来仅仅在收集人的数据

那么今天的物联网

给我们提供了

搜集机器数据的可能

拿一个我们中国的

三一重工的例子里看

近两年它搜集的工矿数据

达到了一千亿条

那么是它前10年的

在企业信息化当中

获得数据的综合

第二个方面

大数据的大还体现在它

数据的多样性方面

总体上来看

数据的类型可以分为三大类

结构化数据

半结构化数据

和非结构化数据

所谓的结构化数据

就是我们前面讲到的关系数据

这样的数据是先有模式

后有数据

而半结构化数据

是我们所看到的网页的数据

这一部分数据

它是先有一部分的模式数据

也就是说的

我们常说的标签

而另一部分

它的标签是可扩展的

所以我们说它有部分的模式数据

而非结构化数据

是先有数据

后有模式的一类数据

它包括像音频 视频

工程数据 科学数据等

那么今天我们说

非结构化数据

其实是大数据的主体

它的总量已经占了

数据总量的80%以上

第三个方面

我们来分析大数据

处理的生命周期

这是2011年

美国CRA组织给出的

大数据分析的生命周期的

五个主要阶段

它包括数据的获取和记录

抽取和清洗

集成和聚合

分析建模和解释展示

五大阶段

那么在五个阶段当中

大家都要解决下面五个

共性的基础问题

也就是说

异构数据的集成问题

规模的可扩展问题

处理的时效问题

数据的隐私保护问题

还有跨越生命周期的

人员的协同的问题

第四个方面我们看

大数据的加工深度的问题

那么我们知道

数据管理

仅仅是对数据层面的一个

存储的管理问题

而到信息层面

我们就要从数据当中

提取一些语义

而到了人工智能的阶段

或者说商务智能的阶段

我们要从这些信息当中

获得相应的理论

或者实践的一些知识

而今天的大数据

我们希望获得的是

针对数据集的一种洞察

或者说

我们要从数据当中

获得智慧

美国人管它叫做Insight

第五个方面

大数据的大还体现在

它的处理方式上面

有新的挑战

那么传统的

对于大规模的数据处理

我们基本上采用批量的方式

到了本世纪初

进入了互联网时代

我们提出了在线处理的方式

而今天的大数据

我们提出了实时处理的要求

这里我拿

我们亲身经历的一些例子

比如说

2001年的时候

中国公众多媒体储值卡的

库容工程

我们就提出了一种

在一千万用户下的实时处理的

3A认证的这样的需求

当然这样的需求

到了今天

2014年的时候

我们可以看到

腾讯对于实时接入

和对于后台的SQL分析

仍然具有更加大的规模的

无论是在数据规模

还是在用户规模的

实时处理的需求

第六个方面

我们考察一下大数据的用户

那么传统数据管理的用户

主要是指

在有一定的

组织边界下的内部用户

而我们今天所说的大数据用户

不仅包括企业内部的用户

还包括了企业外部

所有相关的人员的用户

这里头

我们给出了美EST标准提出的

对于用户的分类

大家可以看到

大数据的用户不仅是两类

现在已经到五类用户了

第七个维度我们考察

因为数据的产生

和数据使用的相分离

那么我们在数据使用的时候

老觉得

数据产生的时候的质量不高

那么怎么样来提高

或者来刻画大数据的质量

这个也是它大的一个方面

学术界把数据质量归结为

精确性 一致性

完整性

和时效性四个方面

从这四个方面来研究

来度量一个数据集的数据质量

是一个非常复杂的工作

也是是大数据的一个重要挑战

最后我们来考察

大数据的另外一个特点

即大数据的价值

我们今天说

数据的规模很大

但它相对的价值比较稀疏

举一个例子

比如说2012年的时候

新浪微博每天就发布了

近1亿条的微博信息

那么这些微博信息很多是

作者发布

很少有用户来看

或者说它的作者

就是它的唯一读者

它的价值相对来讲

大家可想而知是非常稀疏的

或者说它不值钱

而另外一种

我们看《红楼梦》这篇巨著

它的总共的文字才只有73万字

120回

但是它有多大规模的读者呢

我们很难想象

同时围绕《红楼梦》的

红学的分析

又有多少的文字呢

因此我们看到

这73万字

相对那1亿条的数据来讲

它的价值是非常的致密的

所以大数据的密度是很低的

但是从另外一个角度来讲

如果我们这些从这些低密度的

大数据当中

能够洞察出相应的知识

或者智慧的话

对我们的贡献又是巨大的

下面这个例子

就是春秋航空利用了

机翼回传的工业大数据

在2012年19日

却避免了一次重大的故障

或者说是事故

具体来讲

也就是说当天

一架春秋航空飞机的

2号发动机的风扇振动的值

突然升高

那么机翼在

上海的航空客服资源中心

就把这件事通知了春秋航空

他们发现了被打伤的风扇叶片

就避免了一次

机毁人亡的重大事故

当然我们今天看

大数据仍然不尽人意

马航飞机的失联

说明我们还有很多很多的事情

需要做

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

大数据的特点笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。