当前课程知识点:大数据系统基础 > 1. 绪论 > 授课视频 > 大数据技术体系
下面我们学习一下
大数据技术体系
根据中国计算机协会
大数据专委会
2013年发布的
中国大数据技术
与产业发展白皮书
将大数据技术体系
分为六个方面
即数据采集与集成
存储与管理
分析与挖掘
可视化
以及计算范型
和隐私与安全
六个方面
数据质量是大数据采集
与集成技术面临的首要挑战
传统数据质量
主要通过ETL完成
ETL主要包括
抽取 转换 加载
其中还包括
关于数据的解析
模式分析等环节
但是
由于大数据环境中
数据生成和使用主体相互分离
加之数据多元 异构
实时 不确定
等特性
在分布式环境中
如何保障全局数据的一致性
精确性 完整性
面临着巨大挑战
不仅如此
在流数据环境中
如何保持数据的实效性
也是大家不可回避的问题
因此在大数据环境中
保证绝对的数据质量
并不现实
人们正在探索
如何在可容忍的范围内
来提高数据的质量
同时来保证数据分析
结果的可信性
数据存储和管理
是数据管理领域的老问题
但是在大数据环境下
这些老问题
又存在着新的挑战
比如为了提高系统的可靠性
和可用性
多副本技术
分布式索引技术
分布式缓存技术等
在大数据系统中普遍使用
我们可以把大数据系统中
数据存储与管理技术
发生的转变
概括为以下四个方面
在数据索引方面
Hash技术它的优势
远远大于扫描技术
原来的大副本存储技术
转向了多副本存储技术
数据单阶段的存储转换为
以多线程层次为主的
多阶段数据处理的模式
同时
数据的压缩存储
不仅仅是减少数据的规模
同时希望直接在压缩的数据上面
直接分析
而不用解压缩
接下来我们来考察一下
大数据分析技术的一些特点
与传统的BI相比
大数据分析
它的焦点
它面临的问题和支持的业务形态
有了巨大的变化
在分析焦点方面
传统的BI着重于
分析以前发生了什么
而大数据是分析未来
将要发生什么
传统的BI数据的规模小
比较干净
同时是采用了简单的统计模式
而大数据面临的
是大规模的数据
工业化的数据
和无关联的数据
那么这些数据之上
采用的分析预测模型
是存在着语义模糊
语义复杂等特点
过去的BI分析
往往以因果分析为主
而大数据当中
是要利用多个关联的数据源
发现潜在的价值
因此以关联分析为主
那么在大数据当中
需要解决的主要问题
可以概括为三个方面
也就是
监控动态的流数据
跟踪变化的趋势
第二个方面
就是和数据科学家
要和领域科学家一起
来进行大数据的分析
最后还要将大数据的分析工具
集成到业务的各个环节
人是大数据系统中的关键要素
绝不能忽略
因此如何利用可视化技术
将蕴含在原始大规模数据中的
关联与因果知识
可视化地展示出来
并根据人的交互反馈
触发新一轮的知识发现过程
是大数据分析的关键
因此可视化是人类实现数据
洞察的关键的交互通道
在大数据时代
起着重要的技术支撑作用
正如前面我们讲过的
计算平台
是推动数据管理发展的
核心动力之一
纵观近年来
伴随大数据技术发展
计算范型也在发生着
明显的变化
比如以Map reduce
计算范型为代表的
计算范型的变化
将传统的数据找程序转换为
现代的程序找数据的计算范型
同时将传统的
以发展大机器为主的
转变为当前以低成本
分布式计算结点的
大规模并行计算的计算平台
同时
传统的以个人或者是企业
构造计算平台的这种计算模式
转变为以云计算
多个共享的计算平台
不仅如此
传统的数据智能
主要利用机器的计算能力
而今天的大数据
人们更加关注
人在知识发现当中的核心作用
正在向众包计算的模式转变
PPT的右图
给出了2008年两位学者
对于并行计算的一些考虑
也就是说
计算的程序正在从串型的模式
向大规模的并发计算的模式转变
大数据希望透过
多多益善的数据资源
来洞察知识
数据安全与隐私问题
就变得异常地尖锐
近年来出现的一系列的
典型安全事件
比如2009年2月和7月
亚马逊的简单服务系统
两次中断
导致依赖于该存储服务的
网站瘫痪
2010年6月苹果公司发生了
Ipad用户隐私数据的泄漏事件
2013年7月
镇静世界的斯诺登事件
爆料了美国的棱镜计划
同样去年9月
苹果公司的查找我的Ipone服务应用程序编程接口
又爆出了安全漏洞
所有这些
都使得人们对大数据系统的安全
和隐私非常的关切
和关注
但是绝对保证大数据安全与隐私
似乎是不现实的
因此我个人认为
大数据的技术发展与应用
一方面要尽力而为地保证
安全与隐私
但是也不能因噎废食
影响大数据技术的发展
今天大数据技术
大家了前所未有的关注
其发展也十分迅速
2014年7月
美国ACM协会的旗舰期刊
发表了题为
大数据及其挑战的学术论文
对大数据分析的生命周期
进行了新的诠释
我个人理解
其中最突出的特点是
强调了人的因素
和大数据分析过程当中的迭代
与循环过程
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7