当前课程知识点:计算机文化基础 > 第9课:从图像传感器看世界的物联 > 讲座:如何在大数据中精准生活 > 探秘腾讯大数据平台
那么随着腾讯的整个的大数据平台的发展
我们现在大概分成3个阶段
第一个起步的阶段
是2009年到2011年
更多的是我们用
Hadoop
开源的技术
来搭建整个的腾讯的集群
那么在一些
效果广告
和搜索广告上
做了一些尝试
那么这是
这3年的时间
那么到第二个阶段
应该是发展阶段
是2012年开始
到2013年
我们整个上线了一个
全实时的
流程的
整个的推荐的系统
我们也初步建设了
基于实时消息中介间的
腾讯的TDBank
的数据的接入平台
同时我们也在2013年
下线了整个Oracle
那么这是我们的一个发展的阶段
那么在2014年开始
我们逐步壮大
我们整个的一个
技术体系
从我们2014年的3月
我们发布了JStorm
就是我们Java
重写了Storm这样的一个平台
实现了自己的
TRC整个的腾讯的流time的一个计算的
实时引擎的自主研发可控的
一个平台的上线
到2014年的5月份
我们把我们的TDW
开源给社会
让更多的人能来享受
腾讯所开源的整个使用的一套Hadoop技术
那么同时我们
基于9月份
我们上线了Gaia的平台
单集群数量达到了8800台
这是目前规模最大的
基于Yarn开源的
基础之上
修改的一套资源管理的平台
同时我们在2014年我们也
上线了Docker的发布
这样的话基于资源管理进行Docker的发布
来管理整个大数据的一个体系
基于这样的一个体系
其实我们的机器规模的发展是
大概在500到1000台
再到4400 再到8800
再到15000这么一个规模的
逐步的一个演进的过程
之于这么一个技术
其实我们完全可以看到
整个的腾讯的海量数据
无限未来
这目前只是我们一个小小的开始
那么每天我们大概的接入的数据量
是在两万亿条
那么这是一个上半年的数据
我们现在已经到了三万亿
那么我相信在今年年底
应该能达到四万亿到五万亿这么一个规模
所以在这个如此规模的
规模大的情况下
我们面临的很大的一个挑战
来自于技术 人才
和整个的技术架构
体系的一个挑战
在这样的一个过程中
其实我们更多的要应对
商业给我们的挑战
随着商业的需求逐步的繁多
和商业对我们的要求逐渐的苛刻
其实所以我们会对技术的挑战
更为深入的去
很好的去研究
那么大家可能会对我们
你的整体的
大数据平台的架构是怎么样的
接下来我会给大家介绍
整个的大数据架构的
具体的一个规模和分布
那么腾讯的整个的数据
它分为很多类
有社交类的
游戏类的
网络娱乐类的
即时通讯
移动应用
包括互联网金融
也有我们通过
消息推送
自己的一些自有的数据产品
叫信鸽这样的产品
腾讯分析
MTA
就相当于做
移动端的应用分析的这么一些
外部的数据源
来整个形成
腾讯的一个数据来源
那么我们在通过这样的一个体系
其实我们有4大块
来构建整个的
腾讯的大数据平台的架构
第一块就是数据采集
那刚才我给大家介绍的
叫TDBank
每天到目前为止
大概采集数据
在2.7万亿条
一天的这么一个流量
它把数据采集过来
会实时的
会传输到
两大计算平台
一个计算平台是基于
Hadoop的离线的
计算平台
那就是TDW
还有一个叫TRC
这是腾讯的实时计算平台
TDW里面
目前我们有120PB以上
日的数据增加量
在1个PB
那么计算量每天在10个PB以上
那么我们的任务数在100万以上
这么一个规模
那么实时计算
我们更多的是应对一些精准推荐
或者广告的这类的业务
或者监控的这类的业务
每天大概我们的计算量应该在
一万亿条左右
一万亿条左右
那么基于这两个计算平台
我们更多的是为精准推荐所服务
那么精准推荐每天接入的流量
大概超过了200亿条
每天这么一个流量
来提供广告
视频推荐
还有音乐推荐
等等的后续的一些游戏的道具推荐
这样的一些服务
来提供一些
支持的一个基础的平台
这是目前腾讯的
整个的大数据平台的一个架构体系
之于这个架构体系
那么我们重点来看一下TDW
其实大家理解的
Hadoop
那就是大数据
其实这个概念
从某种意义上来说
其实是不对的
Hadoop它只是
一个主键而已
它更多的是其中两块
存储主键和计算引擎的一个过程
HDFS是来存储数据的
那么计算引擎MR
是来做计算引擎的
如果Hadoop只有这两件东西
是构不成腾讯的一个
分布式的数据仓库的一个体系
它需要很多的配套的东西来配套
比如举个例子
一个房子如果你光有个框架
如果没有做一些装修和外围的一些配套设备
它是住不了人的
那么现在
其实我们的数据仓库也是一样
光一个Hadoop
它是解决不了
根本的整个的生态的问题
其实我们要形成生态
我们必须上面
需要有一个Hive
或者Pig这样的引擎
它有一种脚本语言
快速的可以给开发人员
提供这种SQL
或者脚本的语句
可以把它马上翻译成整个的一个
Java的语言
来去实现整个的一个计算的体系
至于这样的一个计算体系
我们为了快速的让
我们的开发人员进行快速的开发
还有整个项目的管理
那么所以我们要引进一个IDE
这样的一个集成开发环境
我们自研的一套
这样的开发环境
同时你要把这些程序
每天把它调度起来
把它的任务连接起来
那你需要有一个任务的调度平台
就是LHotse
那么同时你对小数据量的处理
那么你要做一个
联邦数据库
那么比如一些SPSS
Clementine
或者SAS啊
这样的软件
需要通过GDBC和ODBC去连接的
这么一个体系
Hadoop是解决不了的
那所以你要通过
传统的数据库
我们选用了Postgre
这样的一个开源的成熟的数据库
来跟Hadoop做一个联邦的对接
这样的话来实现
整个的小数据量的处理
快速的处理
那么对于一些实时数据查询
量非常大
写入数据量非常大
查询频率相对来说比较低的一种
一种的场景
那么我们更多的采用HBase的实时查询
来提供这样的一个
整个的一套解决方案
基于这些解决方案
我们更多的是来
外围提供一些应用的产品和工具
那么我们有自主化的报表
也有一个数据检索的一个过程
检索的一个工具
也有一个自主分析的工具
那么来提供更多的数据应用
只有这么一个完整的生态体系
才能形成一个离线的一个
分布式的数据仓库
才称之为我们的TDW的
这么一套体系
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖