当前课程知识点:计算机文化基础 >  第9课:从图像传感器看世界的物联 >  讲座:如何在大数据中精准生活 >  探秘腾讯大数据平台

返回《计算机文化基础》慕课在线视频课程列表

探秘腾讯大数据平台在线视频

探秘腾讯大数据平台

下一节:生活中的大数据

返回《计算机文化基础》慕课在线视频列表

探秘腾讯大数据平台课程教案、知识点、字幕

那么随着腾讯的整个的大数据平台的发展

我们现在大概分成3个阶段

第一个起步的阶段

是2009年到2011年

更多的是我们用

Hadoop

开源的技术

来搭建整个的腾讯的集群

那么在一些

效果广告

和搜索广告上

做了一些尝试

那么这是

这3年的时间

那么到第二个阶段

应该是发展阶段

是2012年开始

到2013年

我们整个上线了一个

全实时的

流程的

整个的推荐的系统

我们也初步建设了

基于实时消息中介间的

腾讯的TDBank

的数据的接入平台

同时我们也在2013年

下线了整个Oracle

那么这是我们的一个发展的阶段

那么在2014年开始

我们逐步壮大

我们整个的一个

技术体系

从我们2014年的3月

我们发布了JStorm

就是我们Java

重写了Storm这样的一个平台

实现了自己的

TRC整个的腾讯的流time的一个计算的

实时引擎的自主研发可控的

一个平台的上线

到2014年的5月份

我们把我们的TDW

开源给社会

让更多的人能来享受

腾讯所开源的整个使用的一套Hadoop技术

那么同时我们

基于9月份

我们上线了Gaia的平台

单集群数量达到了8800台

这是目前规模最大的

基于Yarn开源的

基础之上

修改的一套资源管理的平台

同时我们在2014年我们也

上线了Docker的发布

这样的话基于资源管理进行Docker的发布

来管理整个大数据的一个体系

基于这样的一个体系

其实我们的机器规模的发展是

大概在500到1000台

再到4400 再到8800

再到15000这么一个规模的

逐步的一个演进的过程

之于这么一个技术

其实我们完全可以看到

整个的腾讯的海量数据

无限未来

这目前只是我们一个小小的开始

那么每天我们大概的接入的数据量

是在两万亿条

那么这是一个上半年的数据

我们现在已经到了三万亿

那么我相信在今年年底

应该能达到四万亿到五万亿这么一个规模

所以在这个如此规模的

规模大的情况下

我们面临的很大的一个挑战

来自于技术 人才

和整个的技术架构

体系的一个挑战

在这样的一个过程中

其实我们更多的要应对

商业给我们的挑战

随着商业的需求逐步的繁多

和商业对我们的要求逐渐的苛刻

其实所以我们会对技术的挑战

更为深入的去

很好的去研究

那么大家可能会对我们

你的整体的

大数据平台的架构是怎么样的

接下来我会给大家介绍

整个的大数据架构的

具体的一个规模和分布

那么腾讯的整个的数据

它分为很多类

有社交类的

游戏类的

网络娱乐类的

即时通讯

移动应用

包括互联网金融

也有我们通过

消息推送

自己的一些自有的数据产品

叫信鸽这样的产品

腾讯分析

MTA

就相当于做

移动端的应用分析的这么一些

外部的数据源

来整个形成

腾讯的一个数据来源

那么我们在通过这样的一个体系

其实我们有4大块

来构建整个的

腾讯的大数据平台的架构

第一块就是数据采集

那刚才我给大家介绍的

叫TDBank

每天到目前为止

大概采集数据

在2.7万亿条

一天的这么一个流量

它把数据采集过来

会实时的

会传输到

两大计算平台

一个计算平台是基于

Hadoop的离线的

计算平台

那就是TDW

还有一个叫TRC

这是腾讯的实时计算平台

TDW里面

目前我们有120PB以上

日的数据增加量

在1个PB

那么计算量每天在10个PB以上

那么我们的任务数在100万以上

这么一个规模

那么实时计算

我们更多的是应对一些精准推荐

或者广告的这类的业务

或者监控的这类的业务

每天大概我们的计算量应该在

一万亿条左右

一万亿条左右

那么基于这两个计算平台

我们更多的是为精准推荐所服务

那么精准推荐每天接入的流量

大概超过了200亿条

每天这么一个流量

来提供广告

视频推荐

还有音乐推荐

等等的后续的一些游戏的道具推荐

这样的一些服务

来提供一些

支持的一个基础的平台

这是目前腾讯的

整个的大数据平台的一个架构体系

之于这个架构体系

那么我们重点来看一下TDW

其实大家理解的

Hadoop

那就是大数据

其实这个概念

从某种意义上来说

其实是不对的

Hadoop它只是

一个主键而已

它更多的是其中两块

存储主键和计算引擎的一个过程

HDFS是来存储数据的

那么计算引擎MR

是来做计算引擎的

如果Hadoop只有这两件东西

是构不成腾讯的一个

分布式的数据仓库的一个体系

它需要很多的配套的东西来配套

比如举个例子

一个房子如果你光有个框架

如果没有做一些装修和外围的一些配套设备

它是住不了人的

那么现在

其实我们的数据仓库也是一样

光一个Hadoop

它是解决不了

根本的整个的生态的问题

其实我们要形成生态

我们必须上面

需要有一个Hive

或者Pig这样的引擎

它有一种脚本语言

快速的可以给开发人员

提供这种SQL

或者脚本的语句

可以把它马上翻译成整个的一个

Java的语言

来去实现整个的一个计算的体系

至于这样的一个计算体系

我们为了快速的让

我们的开发人员进行快速的开发

还有整个项目的管理

那么所以我们要引进一个IDE

这样的一个集成开发环境

我们自研的一套

这样的开发环境

同时你要把这些程序

每天把它调度起来

把它的任务连接起来

那你需要有一个任务的调度平台

就是LHotse

那么同时你对小数据量的处理

那么你要做一个

联邦数据库

那么比如一些SPSS

Clementine

或者SAS啊

这样的软件

需要通过GDBC和ODBC去连接的

这么一个体系

Hadoop是解决不了的

那所以你要通过

传统的数据库

我们选用了Postgre

这样的一个开源的成熟的数据库

来跟Hadoop做一个联邦的对接

这样的话来实现

整个的小数据量的处理

快速的处理

那么对于一些实时数据查询

量非常大

写入数据量非常大

查询频率相对来说比较低的一种

一种的场景

那么我们更多的采用HBase的实时查询

来提供这样的一个

整个的一套解决方案

基于这些解决方案

我们更多的是来

外围提供一些应用的产品和工具

那么我们有自主化的报表

也有一个数据检索的一个过程

检索的一个工具

也有一个自主分析的工具

那么来提供更多的数据应用

只有这么一个完整的生态体系

才能形成一个离线的一个

分布式的数据仓库

才称之为我们的TDW的

这么一套体系

计算机文化基础课程列表:

第1课:说在前面的话

-由一个短片引出......

--由一个短片引出......

-梳理IT产业大脉络(上)

--梳理IT产业大脉络(上)

-梳理IT产业大脉络(下)

--梳理IT产业大脉络(下)

-你的第一门计算机入门课

--课程介绍及要求

-实践:图像处理入门

--实践小作业要求

--操作前的几点准备

--操作1:素材整体布局

--操作2:制作收割后裸露土地的效果

--操作3:人物主体抠像

--操作4:图像合成的余下步骤

-第1课习题作业

-第1课导学帖

--第1课导学帖

第2课:揭开计算机的神秘面纱

-现代计算机为什么是电子数字的?

--数字装置与模拟装置

-二进制与十进制有什么区别?

--了解二进制

-为什么莱布尼兹没有认识到二进制的重要性?

--与、或、非

--二进制数的数字实现

-从ENIAC到现代通用计算机

--ENIAC到现代计算机

--新材料带来新发展

-摩尔定律会失效吗?

--摩尔定律失效

-讲座:计算机世界中的巨无霸

--计算机世界中的巨无霸

-参观:感受世界巨无霸(太湖之光)

--神威太湖之光简介

--探秘神威太湖之光

--神威太湖之光应用领域

-参观补充:走进济南国家超算中心

--走进国家超算中心

-实践:我的计算机有多快?

--我的计算机有多快?

-第2课习题作业

-第2课导学帖

--第2课导学帖

第3课:数字世界中形形色色的“数”

-数码相机是如何“计算”出一张数字照片?

--照相机如何感知世界

--如何拍摄彩色照片

-认识图像数字化过程中的采样和量化

--采样和量化

--像素、分辨率和色深

-计算机是如何感知声音波形的?

--声音量化三要素

-换一种思路来数字化文本信息

--机内码是如何产生的

--字符集的发展历程

-实践:常用网络资源下载

--常见下载方法介绍

--常见文件类型下载

- 第3课习题作业

-第3课导学帖

--第3课导学帖

第4课:最熟悉的陌生人APP

-软件解决的目标是什么?

--软件的目的是什么

-我们使用的软件是怎么来的?

--软件是怎么来的1

--软件是怎么来的2

-操作系统拥有什么样的神力?

--开机过程发生了什么

--操作系统的演变1

--操作系统的演变2

--CPU的管理调度

--虚拟存储技术

--统一驱动外设的方法

-访谈:如何成功研发一款手机APP

--互联网模式下的APP

--ColorV的应用亮点

--如何在互联网中掘金

--ColorV操作讲解

-实践:如何利用注册表进行系统优化

--注册表概述

--用注册表进行系统优化

--注册表与信息安全

-第4课习题作业

-第4课导学帖

--第4课导学帖

第5课:数据如何安好

-数字存储前言

--梳理数字存储历史

--磁、光存储介质

--半导体存储介质

-怎样在存储介质上表示1和0?

--光盘怎样表示1和0

--磁带和半导体怎样表示

-怎样从存储介质读取1和0?

--怎样读取1和0(上)

--怎样读取1和0(下)

-如何找到所需的数据?

--如何找到数据(上)

--如何找到数据(下)

-实践:文章排版基本技能

--引言

--中文输入

--排版的基本编辑对象

--打印字符与非打印字符

--图文混排

--页面设置

--利用样式润色文件段落

--利用表格布局标题

--分栏和首字下沉

--设置页眉与页脚

--设置插图润色排版

--LaTeX入门

-第5课习题作业

-第5课导学帖

--第5课导学帖

第6课:演示文稿制作

-演示文稿制作准备

--操作前的几个概念

--实践前的环境准备

--参考上机练习完成制作

-制作演示文稿

--具体版式幻灯片制作1

--具体版式幻灯片制作2

--具体版式幻灯片制作3

--具体版式幻灯片制作4

--幻灯片切换动画效果

--幻灯片元素动画效果1

--幻灯片元素动画效果2

--幻灯片元素动画效果3

--设置超链接按钮

--设置超链接文本

--设置演示文稿背景音乐

-作品赏析

--咖啡作品:演示效果的普适性

--机器猫作品:路径动画和背景音效

--夏天的风作品:Mac OS制作

--游戏作品:密室逃脱(上)

--游戏作品:密室逃脱(下)

-第6课习题作业

-第6课导学帖

--第6课导学帖

第7课:从单机到联网

-联网目的和资源共享模式的变迁

--中央主机-终端联网

--资源共享模式

--异构网互联

-物联网连入互联网

--互联网与因特网

-访谈:PC在智能穿戴生态系统中的定位

--对话联想(上)

--对话联想(下)

-参观:联想创新中心掠影

--探秘联想创新中心

-第7课习题作业

-第7课导学帖

--第7课导学帖

第8课:+互联网

-从网络组织来描述计算机网络

--计算机网络的定义

--通信线路和设备(上)

--通信线路和设备(下)

--网络软件

-从功能角度来认识计算机网络

--网络体系结构

--IPv4(上)

--IPv4(下)

--IPv6

--查看IP地址/DNS

-实践:网络不通怎么办

--网络连接

--用ping测试连通性

--ipconfig确定配置

--默认网关的MAC地址

--如何知道数据走哪条路

-第8课习题作业

-第8课导学帖

--第8课导学帖

第9课:从图像传感器看世界的物联

-认识图像传感器

--认识图像传感器

--图像传感器的应用

--图像传感器的市场

--图像传感器发展阶段

-图像传感器的应用

--在汽车中的应用1

--在汽车中的应用2

--物联网中的应用

-了解图像传感器技术

--图像传感器的技术

-图像传感器的挑战

--问题与挑战

-讲座:如何在大数据中精准生活

--走进大数据

--探秘腾讯大数据平台

--生活中的大数据

-实践:HTML入门实践

--HTML作业要求

--HTML基本标记

--综合样例(上)

--综合样例(下)

-第9课习题作业

-第9课导学帖

--第9课导学帖

第10课:从信息为王到选择为王

-认识搜索引擎

--这就是搜索引擎

--著名的搜索引擎公司

--搜索引擎技术的发展

--搜索引擎的目标与广告

-信息检索背后的关键技术

--海量数据的获取

--建立快速有效的索引

--搜索结果排名

-搜索引擎的未来

--情境感知的搜索

--社会化搜索

--智能搜索

-实践:Aminer学术搜索

--Aminer介绍

-第10课习题作业

-第10课导学帖

--第10课导学帖

第11课:信息安全知多少

-信息安全的基本要求

--信息安全的基本要求

--早期的计算机安全

-新型的网络攻击有哪些

--联线网络信息安全专家

--信息泄露

--信息安全与社会工程学

--移动安全

-未知攻 焉知防

--未知攻焉知防

--未知攻焉知防2

--信息加密

--安全防范原则

-实践:Excel实践

--认识Excel表格

--实例操作

--实例操作2

--实例操作3

--绘制图表

-第11课习题作业

-第11课导学帖

--第11课导学帖

第12课:说在后面的话

-回顾与展望

--回顾与展望1

--回顾与展望2

--回顾与展望3

--回顾与展望4

-什么是计算

--什么是计算

-访谈:信息技术交叉应用

--对话风投专家1

--对话风投专家2

--对话风投专家3

-嘉宾分享:闲谈数字产业创新

--闲谈数字产业创新(上)

--闲谈数字产业创新(下)

-第12课习题作业

-第12课导学帖

--第12课导学帖

探秘腾讯大数据平台笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。