当前课程知识点:大数据系统基础 >  7. 流计算 >  授课视屏 >  Video

返回《大数据系统基础》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《大数据系统基础》慕课在线视频列表

Video课程教案、知识点、字幕

我们来看刚才我们说的

这种类型应用的一个实际的例子

我们知道Twitter是一个

著名的这种社交信息的网站

那么它现在的速度

大概是每秒钟有

6000个tweets会被发出

那么每天大概要发5亿个tweets

当然这是一个平均值

这个也在有的峰值的时候

每天会超过10亿的tweets

那么要对这些tweets

和相关的点击进行统计

比如说

这些tweets中可能会包含一些

网站的链接

那么在某个人发的这个消息里面

那么需要统计说

在这些tweets里面

访问了哪些网站

我们把这个叫做一个URL

有的tweets里面可能

会包含另外一个URL2

那么我们需要知道的是

比如说 在今天

URL1被发了多少条tweet

或者说有多少点击click

就是对这个URL有多少个点击

连到了相关的网站上去

那么这个时候

我们就需要对今天所有的

这个每一条tweets

可以想象是说

tweets1 tweets2等等等

我们都需要把它都进行统计

那么我们现在的问题就是说

如果对于每一条新发的tweets

那么我们的处理是不是都需要

比如说我们现在有了

twn+1

那么我们是不是需要把

所有的这些都拿过来再去做处理

还是说

我们有什么样的方法

能够只处理这个twn+1

所带来的这种增量的信息

而把前面的信息

有一定的这个保留

那么我们可以看到这是tweets

提供的一个服务叫做

twitter analytics

那么在这个服务里面

会看到它提供了当天

还有过去7天和过去30天

的相关的统计

这个统计的值

当然这个里面显示的

是过去7天的

显示的是过去7天里面

包含了这样一个URL的tweets

一共有2.4K

也就是说2400条

那么这2400条通过用户的点击

有多少这个

点击访问到了这个网站

有21.5K

也就是说大概

平均每一条在tweets上

包含了这个blog这个URL的

这样的一个tweets

会产生大概平均9次的

这样一个点击

这就是这样的一个统计数据

那么这是一个过去7天的

那么大家可以想像

如果我们需要当天的

这样一个统计的话

需要怎么样去做处理

也就是刚才

我提到的这样一个问题

大数据系统基础课程列表:

1. 绪论

-授课视频

--什么是大数据

--大数据典型应用

--大数据的特点

--大数据技术体系

--大数据生态系统

--大数据技术挑战

--课程内容

-1. 绪论--Quiz 1

2.云计算

-授课视频

--2.1大数据和云计算关系概述

--2.2并行化理念

--2.3规模经济理念

--2.4从仓库规模计算机到云

--2.5云计算商业模式概述

--2.6云计算带来的价值

--2.7云计算的分类

--2.8虚拟化技术概述

--2.9计算虚拟化

--2.10网络虚拟化:基础

--2.11网络虚拟化:软件定义网络

--2.12软件定义网络实现

--2.13存储虚拟化:用户接口

--2.14存储虚拟化:分布式存储实现方式

--2.15虚拟化技术总结

--2.16OPENSTACK

--2.17云计算小结

-2.云计算--Quiz 2

3.文件存储

-授课视频

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-3.文件存储--Quiz3

4. 处理框架

-授课视频

--4.1大数据的处理框架

--4.2MapReduce编程模型

--MapReduce执行过程

--4.4MapReduce数据流

--4.5MapReduce性能优化与容错

--4.6Hadoop

--4.7MapReduce总结

--4.8Pig Latin

--4.9Pig Latin语法

--4.10Pig Latin 嵌套数据类型

--4.11Pig Latin 实现与优化

--Pig Latin 实现与优化(2)

--4.13类似框架

--4.14章节总结

-4. 处理框架--Quiz4

5.内存计算

-授课视频

--5.1内存计算概述

--5.2并行计算挑战

--5.3并行计算的局限性

--5.4大数据处理并行系统

--5.5内存计算需求

--5.6MapReduce文件传递数据

--5.7内存计算的可行性

--5.8内存层次的延迟

--5.9内存计算实例-spark

--5.10SPARK-RDD

--5.11大数据并行系统

--5.12Spark编程接口

--5.13Spark编程实例——Log挖掘

--5.14Spark编程实例——WorkCount

--5.15Spark实现技术

--5.16复杂的DAG示例

--5.17RDD性能的提高

--5.18Spark应用和生态环境

--5.19Spark的局限性

-5.内存计算--Quiz5

6. NoSQL

-授课视频

--NoSQL与Cassandra

--数据模型、接口、语言

--系统架构与Gossip协议

--一致性哈希与数据分区

--数据副本及一致性

--节点本地数据存储

-6. NoSQL--Quiz6

7. 流计算

-授课视屏

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

--Video

-7. 流计算--Quiz7

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。