当前课程知识点:大数据系统基础 > 7. 流计算 > 授课视屏 > Video
我们来看刚才我们说的
这种类型应用的一个实际的例子
我们知道Twitter是一个
著名的这种社交信息的网站
那么它现在的速度
大概是每秒钟有
6000个tweets会被发出
那么每天大概要发5亿个tweets
当然这是一个平均值
这个也在有的峰值的时候
每天会超过10亿的tweets
那么要对这些tweets
和相关的点击进行统计
比如说
这些tweets中可能会包含一些
网站的链接
那么在某个人发的这个消息里面
那么需要统计说
在这些tweets里面
访问了哪些网站
我们把这个叫做一个URL
有的tweets里面可能
会包含另外一个URL2
那么我们需要知道的是
比如说 在今天
URL1被发了多少条tweet
或者说有多少点击click
就是对这个URL有多少个点击
连到了相关的网站上去
那么这个时候
我们就需要对今天所有的
这个每一条tweets
可以想象是说
tweets1 tweets2等等等
我们都需要把它都进行统计
那么我们现在的问题就是说
如果对于每一条新发的tweets
那么我们的处理是不是都需要
比如说我们现在有了
twn+1
那么我们是不是需要把
所有的这些都拿过来再去做处理
还是说
我们有什么样的方法
能够只处理这个twn+1
所带来的这种增量的信息
而把前面的信息
有一定的这个保留
那么我们可以看到这是tweets
提供的一个服务叫做
twitter analytics
那么在这个服务里面
会看到它提供了当天
还有过去7天和过去30天
的相关的统计
这个统计的值
当然这个里面显示的
是过去7天的
显示的是过去7天里面
包含了这样一个URL的tweets
一共有2.4K
也就是说2400条
那么这2400条通过用户的点击
有多少这个
点击访问到了这个网站
有21.5K
也就是说大概
平均每一条在tweets上
包含了这个blog这个URL的
这样的一个tweets
会产生大概平均9次的
这样一个点击
这就是这样的一个统计数据
那么这是一个过去7天的
那么大家可以想像
如果我们需要当天的
这样一个统计的话
需要怎么样去做处理
也就是刚才
我提到的这样一个问题
-授课视频
--什么是大数据
--大数据典型应用
--大数据的特点
--大数据技术体系
--大数据生态系统
--大数据技术挑战
--课程内容
-1. 绪论--Quiz 1
-授课视频
--2.2并行化理念
--2.9计算虚拟化
-2.云计算--Quiz 2
-授课视频
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-3.文件存储--Quiz3
-授课视频
--4.13类似框架
--4.14章节总结
-4. 处理框架--Quiz4
-授课视频
-5.内存计算--Quiz5
-授课视频
--数据副本及一致性
--节点本地数据存储
-6. NoSQL--Quiz6
-授课视屏
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
--Video
-7. 流计算--Quiz7