当前课程知识点:大数据系统基础 > 1. 绪论 > 授课视频 > 大数据的特点
接下来
我们再看一看大数据的特点
所谓的大数据
我们要看看它究竟大在哪里
我们给出了下面八个维度
来考虑大数据的大
第一个维度
考察数据的规模
今天我们说
已经成了TB PB EB
甚至到了ZB级
这样的数据规模意味着什么
我们大家都知道有一个
凡尔纳的小说
叫《环游世界80天》
当时形容地球之大
要通过80天才能够环游一周
那今天数据世界之大
如果我们用2009年的
磁盘的读取速度
我们可以看到
要访问整个的数字世界
今天我们要花4万年
在企业当中
原来仅仅在收集人的数据
那么今天的物联网
给我们提供了
搜集机器数据的可能
拿一个我们中国的
三一重工的例子里看
近两年它搜集的工矿数据
达到了一千亿条
那么是它前10年的
在企业信息化当中
获得数据的综合
第二个方面
大数据的大还体现在它
数据的多样性方面
总体上来看
数据的类型可以分为三大类
结构化数据
半结构化数据
和非结构化数据
所谓的结构化数据
就是我们前面讲到的关系数据
这样的数据是先有模式
后有数据
而半结构化数据
是我们所看到的网页的数据
这一部分数据
它是先有一部分的模式数据
也就是说的
我们常说的标签
而另一部分
它的标签是可扩展的
所以我们说它有部分的模式数据
而非结构化数据
是先有数据
后有模式的一类数据
它包括像音频 视频
工程数据 科学数据等
那么今天我们说
非结构化数据
其实是大数据的主体
它的总量已经占了
数据总量的80%以上
第三个方面
我们来分析大数据
处理的生命周期
这是2011年
美国CRA组织给出的
大数据分析的生命周期的
五个主要阶段
它包括数据的获取和记录
抽取和清洗
集成和聚合
分析建模和解释展示
五大阶段
那么在五个阶段当中
大家都要解决下面五个
共性的基础问题
也就是说
异构数据的集成问题
规模的可扩展问题
处理的时效问题
数据的隐私保护问题
还有跨越生命周期的
人员的协同的问题
第四个方面我们看
大数据的加工深度的问题
那么我们知道
数据管理
仅仅是对数据层面的一个
存储的管理问题
而到信息层面
我们就要从数据当中
提取一些语义
而到了人工智能的阶段
或者说商务智能的阶段
我们要从这些信息当中
获得相应的理论
或者实践的一些知识
而今天的大数据
我们希望获得的是
针对数据集的一种洞察
或者说
我们要从数据当中
获得智慧
美国人管它叫做Insight
第五个方面
大数据的大还体现在
它的处理方式上面
有新的挑战
那么传统的
对于大规模的数据处理
我们基本上采用批量的方式
到了本世纪初
进入了互联网时代
我们提出了在线处理的方式
而今天的大数据
我们提出了实时处理的要求
这里我拿
我们亲身经历的一些例子
比如说
2001年的时候
中国公众多媒体储值卡的
库容工程
我们就提出了一种
在一千万用户下的实时处理的
3A认证的这样的需求
当然这样的需求
到了今天
2014年的时候
我们可以看到
腾讯对于实时接入
和对于后台的SQL分析
仍然具有更加大的规模的
无论是在数据规模
还是在用户规模的
实时处理的需求
第六个方面
我们考察一下大数据的用户
那么传统数据管理的用户
主要是指
在有一定的
组织边界下的内部用户
而我们今天所说的大数据用户
不仅包括企业内部的用户
还包括了企业外部
所有相关的人员的用户
这里头
我们给出了美EST标准提出的
对于用户的分类
大家可以看到
大数据的用户不仅是两类
现在已经到五类用户了
第七个维度我们考察
因为数据的产生
和数据使用的相分离
那么我们在数据使用的时候
老觉得
数据产生的时候的质量不高
那么怎么样来提高
或者来刻画大数据的质量
这个也是它大的一个方面
学术界把数据质量归结为
精确性 一致性
完整性
和时效性四个方面
从这四个方面来研究
来度量一个数据集的数据质量
是一个非常复杂的工作
也是是大数据的一个重要挑战
最后我们来考察
大数据的另外一个特点
即大数据的价值
我们今天说
数据的规模很大
但它相对的价值比较稀疏
举一个例子
比如说2012年的时候
新浪微博每天就发布了
近1亿条的微博信息
那么这些微博信息很多是
作者发布
很少有用户来看
或者说它的作者
就是它的唯一读者
它的价值相对来讲
大家可想而知是非常稀疏的
或者说它不值钱
而另外一种
我们看《红楼梦》这篇巨著
它的总共的文字才只有73万字
120回
但是它有多大规模的读者呢
我们很难想象
同时围绕《红楼梦》的
红学的分析
又有多少的文字呢
因此我们看到
这73万字
相对那1亿条的数据来讲
它的价值是非常的致密的
所以大数据的密度是很低的
但是从另外一个角度来讲
如果我们这些从这些低密度的
大数据当中
能够洞察出相应的知识
或者智慧的话
对我们的贡献又是巨大的
下面这个例子
就是春秋航空利用了
机翼回传的工业大数据
在2012年19日
却避免了一次重大的故障
或者说是事故
具体来讲
也就是说当天
一架春秋航空飞机的
2号发动机的风扇振动的值
突然升高
那么机翼在
上海的航空客服资源中心
就把这件事通知了春秋航空
他们发现了被打伤的风扇叶片
就避免了一次
机毁人亡的重大事故
当然我们今天看
大数据仍然不尽人意
马航飞机的失联
说明我们还有很多很多的事情
需要做
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7