当前课程知识点:大数据系统基础 >  1. 绪论 >  授课视频 >  大数据技术体系

返回《大数据系统基础》慕课在线视频课程列表

大数据技术体系在线视频

大数据技术体系

下一节:大数据生态系统

返回《大数据系统基础》慕课在线视频列表

大数据技术体系课程教案、知识点、字幕

下面我们学习一下

大数据技术体系

根据中国计算机协会

大数据专委会

2013年发布的

中国大数据技术

与产业发展白皮书

将大数据技术体系

分为六个方面

即数据采集与集成

存储与管理

分析与挖掘

可视化

以及计算范型

和隐私与安全

六个方面

数据质量是大数据采集

与集成技术面临的首要挑战

传统数据质量

主要通过ETL完成

ETL主要包括

抽取 转换 加载

其中还包括

关于数据的解析

模式分析等环节

但是

由于大数据环境中

数据生成和使用主体相互分离

加之数据多元 异构

实时 不确定

等特性

在分布式环境中

如何保障全局数据的一致性

精确性 完整性

面临着巨大挑战

不仅如此

在流数据环境中

如何保持数据的实效性

也是大家不可回避的问题

因此在大数据环境中

保证绝对的数据质量

并不现实

人们正在探索

如何在可容忍的范围内

来提高数据的质量

同时来保证数据分析

结果的可信性

数据存储和管理

是数据管理领域的老问题

但是在大数据环境下

这些老问题

又存在着新的挑战

比如为了提高系统的可靠性

和可用性

多副本技术

分布式索引技术

分布式缓存技术等

在大数据系统中普遍使用

我们可以把大数据系统中

数据存储与管理技术

发生的转变

概括为以下四个方面

在数据索引方面

Hash技术它的优势

远远大于扫描技术

原来的大副本存储技术

转向了多副本存储技术

数据单阶段的存储转换为

以多线程层次为主的

多阶段数据处理的模式

同时

数据的压缩存储

不仅仅是减少数据的规模

同时希望直接在压缩的数据上面

直接分析

而不用解压缩

接下来我们来考察一下

大数据分析技术的一些特点

与传统的BI相比

大数据分析

它的焦点

它面临的问题和支持的业务形态

有了巨大的变化

在分析焦点方面

传统的BI着重于

分析以前发生了什么

而大数据是分析未来

将要发生什么

传统的BI数据的规模小

比较干净

同时是采用了简单的统计模式

而大数据面临的

是大规模的数据

工业化的数据

和无关联的数据

那么这些数据之上

采用的分析预测模型

是存在着语义模糊

语义复杂等特点

过去的BI分析

往往以因果分析为主

而大数据当中

是要利用多个关联的数据源

发现潜在的价值

因此以关联分析为主

那么在大数据当中

需要解决的主要问题

可以概括为三个方面

也就是

监控动态的流数据

跟踪变化的趋势

第二个方面

就是和数据科学家

要和领域科学家一起

来进行大数据的分析

最后还要将大数据的分析工具

集成到业务的各个环节

人是大数据系统中的关键要素

绝不能忽略

因此如何利用可视化技术

将蕴含在原始大规模数据中的

关联与因果知识

可视化地展示出来

并根据人的交互反馈

触发新一轮的知识发现过程

是大数据分析的关键

因此可视化是人类实现数据

洞察的关键的交互通道

在大数据时代

起着重要的技术支撑作用

正如前面我们讲过的

计算平台

是推动数据管理发展的

核心动力之一

纵观近年来

伴随大数据技术发展

计算范型也在发生着

明显的变化

比如以Map reduce

计算范型为代表的

计算范型的变化

将传统的数据找程序转换为

现代的程序找数据的计算范型

同时将传统的

以发展大机器为主的

转变为当前以低成本

分布式计算结点的

大规模并行计算的计算平台

同时

传统的以个人或者是企业

构造计算平台的这种计算模式

转变为以云计算

多个共享的计算平台

不仅如此

传统的数据智能

主要利用机器的计算能力

而今天的大数据

人们更加关注

人在知识发现当中的核心作用

正在向众包计算的模式转变

PPT的右图

给出了2008年两位学者

对于并行计算的一些考虑

也就是说

计算的程序正在从串型的模式

向大规模的并发计算的模式转变

大数据希望透过

多多益善的数据资源

来洞察知识

数据安全与隐私问题

就变得异常地尖锐

近年来出现的一系列的

典型安全事件

比如2009年2月和7月

亚马逊的简单服务系统

两次中断

导致依赖于该存储服务的

网站瘫痪

2010年6月苹果公司发生了

Ipad用户隐私数据的泄漏事件

2013年7月

镇静世界的斯诺登事件

爆料了美国的棱镜计划

同样去年9月

苹果公司的查找我的Ipone服务应用程序编程接口

又爆出了安全漏洞

所有这些

都使得人们对大数据系统的安全

和隐私非常的关切

和关注

但是绝对保证大数据安全与隐私

似乎是不现实的

因此我个人认为

大数据的技术发展与应用

一方面要尽力而为地保证

安全与隐私

但是也不能因噎废食

影响大数据技术的发展

今天大数据技术

大家了前所未有的关注

其发展也十分迅速

2014年7月

美国ACM协会的旗舰期刊

发表了题为

大数据及其挑战的学术论文

对大数据分析的生命周期

进行了新的诠释

我个人理解

其中最突出的特点是

强调了人的因素

和大数据分析过程当中的迭代

与循环过程

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

大数据技术体系笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。