当前课程知识点:计算机文化基础 > 第9课:从图像传感器看世界的物联 > 讲座:如何在大数据中精准生活 > 走进大数据
大家好
我是数据平台部的
总经理
我叫蒋杰
我大概有10年以上的
数据的从业的经验
今天带大家来
走进介绍一下
走进大数据
感受一下腾讯大数据
让大家走进
大数据的真实的世界
那么接下来
我给大家介绍一下
看一张图
这个图里面
可以明显的反映出来
中国网民的一个状况
和互联网的普及率
这是CNCC
发布1月份
2015年1月份发布的一个
调查
这个调查可以明显的可以显示到
从2005年的1.1亿的网民
到现在2014年6.5亿的网民
那么从原来的
网民的普及率
8.5%到现在的47%
这个在这10年不到的时间
整整增加了5倍多
在这样的一个过程中
其实互联网的发展
是非常非常之大的
之于这样的一个之大
全球的互联网数据的发展趋势
也更为之大
其实大家可以从
互联网中了解到
一天互联网所产生的数据
大概是1.68亿张的DVD
所产生的的数据
那么发出的邮件
大概是有2940亿封的邮件
相当于美国
两年的纸质的一个数量
那么无论从社区中发的帖子
还有其实卖出的手机
大概全球也有
将近37.8万台
远远高出了
整个全球婴儿的出生
大概3.7亿万的
这么一个数量
在这个过程中
其实我们原来感受到的数据是TB级
到现在的
很多像我们公司是PB级
那么其实全球的互联网
已经到达了
EB级
到2020年
它会达到
4万个EB
所以这么如此大的
数据量
数据规模的如此快速的发展
是让我们能够
让我们感受到
大数据真的来临了
那么大数据
也在我们的身边
让大家看一个简单的例子
微软推出了一个
How-Old.net
用颜值来测试年龄的这么一个网站
基本上上线了48小时
就有100万人上传进行测试
大概每秒钟有700张的照片
来上传
而这个完全可以看到
通过一张照片里面
可以识别你是男女
是你的年龄和性别
这里面其实会用到很多技术
大部分是大数据相关的技术
有人像的识别
再加上机器学习
再加上大数据的及时分析
那么通过后台的数据来看
台湾人的颜值
普遍是最高的
那么走进腾讯
那腾讯也有很多
大数据来产生价值的地方
比如接下来看的QQ音乐
QQ音乐你们所感受到的
猜你喜欢
在猜你喜欢这个环节
完全是根据
大家平时的
这种浏览的行为
用户的浏览行为
用户的整个的喜好
和整个的
对你每天所产生的
日志进行一些分析
分析完以后
会来给你推荐
你最精准的
喜欢的音乐
其实这个已经
在市场上得到了非常好的应用
接下来再让大家来看一个
包括腾讯视频
腾讯视频的整个的
猜你喜欢这个环节
也是通过跟QQ音乐
一样的这种大数据的环节
来做一些精准推荐
根据腾讯已有的用户画像
来解决新用户的一些冷启动问题
在整个应用的过程中
达到了非常不错的效果
OK
接下来看一个
朋友圈的广告
宝马广告是第一个朋友圈的广告
这个朋友圈的广告
其实完全是根据
用户在腾讯体系里面
整个用户的行为的兴趣
进行一个精准投放的过程
可以让每个人
可以精准的收到
它想要的广告
而不是去过多的去骚扰客户
这么一个体系
OK
通过上面这三个例子
腾讯的三个例子
可以明确的感受到
大数据基本上有这么几个特征
第一个特征是
海量数据
海量
第二个是种类多
第三是处理速度快
第四是商业价值高
我们分别来解释一下
为什么会具有这么一个特征
首先海量数据
随着我们的
传感器越多
其实我们身边最主要的传感器
那就是手机了
通过发照片 视频
这样等等的一些信息
让我们的数据从GB到TB到PB
甚至到EB这么一个
快速的成长
那么数据种类多
那刚才我也说了
其实他不光是
有结构化数据
也有非结构化数据
并且维度越来越复杂
这么一个过程中其实让我们
有视频 音频
还有这样的一个
短视频
还有更多的这种日志的数据
这么种类非常繁多
处理速度快
其实随着数据的
产生 传输 处理 查询
这个频率
产品对我们的要求
会越来越快
有更好的这种速度的处理速度
我们的产品体验
可以做一个非常好的提升
那么价值
其实谈到这个价值
其实对价值这个来说
在海量的
在大数据领域
其实量大
其实是一个低质量
在低价值的数据中
如何能够获取更多的我们要的
这种精确的知识
也就是说大海捞针
对我们来说获得了一个
很好的挑战
那么在这个过程中
其实面临的
我们主要有两个方向的挑战
一个是思维方式的
如何演进
第二个挑战是
技术能力如何去应对
至于思维方式的如何演进
那当然我们应该有
多维交叉分析的这么一个过程
对于技术能力的提高
那所以我们需要对处理能力
存储能力和计算能力
能够有能力处理这么百PB
甚至几千PB的这样的数据的时候
是面临的一个非常大的挑战
接下来来看看
腾讯的数据
腾讯有哪些数据呢
腾讯主要是以
QQ的一个
这样的一个生态圈
来形成了一个QQ的一个行为的数据
我们对腾讯的整个数据进行处理
优化或者整个的一个包装以后
那么我们整个的一个过程
基本上分为几块
有用户的行为
用户的属性
用户的标签
用户的兴趣
还有用户的细分
他们的数据各自来自于
社交领域 游戏领域 电商领域
媒体领域
还有其他比如像广告
和电脑管家
这些等等的这些
浏览器这些领域
这些领域其实完善了整个
腾讯的用户画像
基于这个用户画像
其实我们更多的对整个的腾讯的
这些用户
去打标签
那么我们已经打了
一千万个标签
独立的标签
那么同时我们也生成了
600多个兴趣类目
万亿级的关系链
也有为150个产品以上
提供服务
也有大概三千万亿条的数据
每天日增在五千亿条的这么一个规模
这样的规模在国内
也是屈指可数的这么一个体量
我们来细分一下
整个的腾讯
社交类的数据
是腾讯的生命的资产
因为腾讯是做社交出生的
所以社交的数据相对来说
也是比较丰富的
大概有37个PB的
存储的数据
大概累积了
累积了大概175万亿条一个数据量
那么每天大概在
两千亿条的一个数据的新增
游戏类
游戏是腾讯一个主要的收入的来源
大概也累积了
也有很多的很有名的游戏的产品
大概有7个PB的数据
同时我们的日增的数据量
也大概达到了
一千六百亿条的数据
那么还有媒体类
有腾讯视频
腾讯音乐
QQ音乐
腾讯的网站
那么他们所产生的
数据量
也在6.5个PB
那每天日新增也在300亿左右
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖