当前课程知识点:大数据系统基础 >  2.云计算 >  授课视频 >  2.2并行化理念

返回《大数据系统基础》慕课在线视频课程列表

2.2并行化理念在线视频

2.2并行化理念

下一节:2.3规模经济理念

返回《大数据系统基础》慕课在线视频列表

2.2并行化理念课程教案、知识点、字幕

现在我们简单介绍一下

刚才提到的大数据系统设计的

三个理念之一的并行化理念

这个理念将来会在象Hadoop

象一些其他的框架的时候

再反复的出现

为什么我们需要并行化

首先不得不提的是摩尔定律

这个摩尔定律

其实搞计算机的人都知道

但是其实很多人都有误解

摩尔定律说的是什么

它是一九六几年的时候

Gordon Moore这个人

他是英特尔的创始人

他提出说 每18个月

这晶体管的集成度会翻一番

但是很多人把它理解为

说的性能翻一番

或者是存储的量翻一番

其实这都是不对的

他从来没有说过这个

我们摩尔定律是正确的

到现在为止 还是能跟得上

但是我们能跟得上的是集成度

我们没有谈到性能

也没谈到存储量

其实还有一个

不是那么为人所知道的定律

是叫Joy定律

Joy这个人是

Sun Micro System

就是太阳微系统公司

现在已经被甲骨文收购了

他是这个公司的创始人

他在80年代的时候说

我们计算机的性能

MIPS表示什么

Million Instructions Per Second

你基本上可以理解为

每秒钟运行了多少指令了

这个就是计算机的性能

这个性能的指标

从1984年开始

每一年会提升一倍

这个对一些软件人来说

是天大的好消息了

因为你什么都不用做

你明年的软件

就跑得快一倍了

但是这个定律

确实正确了很长时间

从1984年开始

一直到2002年

其实大家都是正确的

但是突然从2002年开始

它不正确了

这是为什么

如果同学还记得

2002年的时候

那个时候的

关键是处理器的主频

不能再提升了

因为如果主频再提升

它就会有两个因素制约它

一个是功耗

还有一个是发热

所以如果当时人家说

主频再提高的话

如果到不了2010年

这个芯片里头的温度

有比太阳还热了

这时候芯片那么小

如果你那么高的功耗在里头

它无论如何那热量散不出去

所以它不可能主频再提高了

所以你看如果到2002年之后

英特尔生产的CPU

它就做了多核

但是你看 不管它做几核

其实它还是在2点几级

3点几级的主频上

它没有再提高

所以我们硬件上能够实现的

不是把一个芯片

做得更快 更快 更快

而是从芯片内部

我们也要体现出并行化

我们也要做多个核

多个芯片 多台机器

我们只能通过这个

来提升计算能力了

其实并行化的理念

存在于计算机的方方面面

从大的方向来说

我们现在考虑并行化

我们可以考虑的是

大的数据中心

仓库级计算机 很大

我们从智能手机上来说

一个智能手机也是多核的

一个电脑上可能有多个CPU

CPU里面 可能有多个核

每一个核里头

甚至于它也有多个功能单元

比如说做除法

那CPU的除法器有很多

做浮点运算单元有很多

所以它多个指令是并行的

甚至于到一个单元里头

哪怕是做一个加法

它实际上 如果大家还记得

数字电路里讲的内容的话

那么加法器

实际上也是并行进位的

它不是一位一位加上去的

这是从硬件上来说

从软件上来说

为什么网站能处理那么多请求

那是因为我们把请求

并行的发了很多很多的计算机

在一个计算机里头

我们可以处理很多的线程

同时处理很多的任务

一个指令

我们也是并行执行的

同一个时刻

有若干个指令在执行

这叫指令的流水线

从数据上来说

我们数据可以分成很多块

每一个计算的单元

不管大的计算大单元

小的计算单元

都运行处理不同的数据

这叫并行的数据

甚至于从硬件描述上

我们硬件设计上

我们也描述的是一个并行的

处理的这样的一个电路

所以并行化的理念

是存在于计算机体系架构的

方方面面 从硬件到软件

从大的到小的

如果没有并行化

就没有现在的计算机体系架构

我们这里只简单的介绍一下

并行化的理念

在后面的时候

我们讲Hadoop

讲其他的处理框架的时候

我们会详细地

再介绍并行化的理念

是如何运用于大数据处理的

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

2.2并行化理念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。