当前课程知识点:大数据技术与应用 > 吴军:数据为王和机器智能的时代 > 大数据的重要性及特点 > 大数据的重要性及特点
好了我们现在接下来
就仔细讲讲数据的重要性
在解决智能问题上
这有两张表
这是2005年美国NIST
就是美国标准化局
对全世界所有机器翻译的系统
进行评测的一个结果
那么一边是从中文到英文
一边是从阿拉伯文到英文
为什么挑这样两个语言
翻译到英文来
因为当时觉得法语到英语
太简单了
所以大家找两个
相对难一点的语言
来进行翻译
这里头有一些数字
大家可以看到
30% 50%这些
这些数字什么意思呢
在学术上它叫Blue score
那么实际的含义呢
就是说把机器翻译的结果
和人翻译的结果进行比对
看看有多大的重复性
当然了 你不要想说
非要到什么百分之八九十
这个结果才能用
因为人和人翻译的一致性
也只有50%
因为这个跟那个
你听写 语音识别这个不一样
那么也就是说这个阿拉伯语
已经蛮实用了
这个汉语还差一点
这里头当然
就是说美国是说规定这样
你如果拿政府钱
你一定要来参加评测
你如果没拿了
你也可以参加评测了
可以来打比赛
那么像这里头
有些公司是拿了的
有些是没拿的
比如说Google是拿
没拿钱的
剩下来很多是拿了钱的这样子
这个里头大家可以
稍微我说一下
有三个单位的系统
其实本质上是一回事
一个是Google的
一个是这个
我看 对一个Google的
一个是南加州大学的
还有一个是德国亚琛工学院的
因为这三个系统都是一个人写的
这个人叫Franz Och
也是现在大概还是
就是全世界做机器翻译
最好的一个专家
他原来最早在亚琛工学院读书
他德国人 不懂中文
做了一个世界上最好的
中英翻译的这个系统
然后毕业以后
就到了美国南加州大学
他又把这个系统重新写了一遍
在南加州大学
这大概 前后就到了
这样到了一九
2004年左右
2003年的时候我在Google
就是和一些研究的
另外几个做研究人
他们就是开始想做
说能不能做机器翻译这样子
那么开始自己不是很懂
这个做起来就很艰难
后来说那我们就很简单
我们招一个全世界
最好的人就来了
所以在2004年
这个4月28号这一天
Franz Och就加入了Google
为什么日子我记这么清楚呢
很简单
因为这一天
是Google宣布IPO的日子
然后Google就说你今天来
这个吧 股价还便宜
晚了以后股价就变了
所以Google也是对员工
对好的员工 还是很好的
他来了一天以后呢
他学校这些事还没干完
他就又请了两个月假
回学校把课教完
考试把这些学生的考试考完
然后6月份才来到Google
这个评测是第二年
大概四五月份的事
所以不到一年的时间
他根本没时间做研究
只是到了Google
把所有的代码重新写了一遍
他也不能用原来的代码
那么评测结果出来以后
大家都很惊讶
大家不要小看
它比第二名差这5个百分点
你可以看第二名
一直到第五名
那个约翰霍普金斯和剑桥
那基本上是平的
没什么差别
差五个百分点
如果在学术界单纯用
这个过去理论研究的方法
需要努力大概八到十年的时间
提高这五个百分点
那他怎么做到这一点
他一连 你看时间都在写代码
当然有一些人帮他写代码
但是
但是没时间做研究的
所以大家都很好奇
他是怎么做的
根据NIST的规定呢
就是说你参加了评测
你一定要来讲一讲
交流交流你是怎么做的
但是他的方法讲出来了
大家也觉得
原来不过是这样子
怎么回事呢
因为他用了别人一万倍的数据
一万倍的数据
所以你就可以看到这个
数据的这个 它的重要性
那么所以我刚才讲了
在过去的四十年
决定未来经济发展的
是摩尔定律
在未来的二十年
真正要改变世界经济的
是这个大数据
所以这就回到了这个
这个系列的主题上
什么是大数据
这个说法各种各的都有
大概几个小时前
被一群人绑架到了
那个中关村一个什么咖啡屋
聚集了一些讨论大数据的人
在那边讲什么是大数据
然后我发现就是说
好多理解
包括甚至学术界上的理解
他都还比较局限
就是说这个
说觉得把大数据
和大量的数据混为一谈
大数据一定是大量的数据
但反过来不一定这是第一条
而且很多人就是说
这是结构化和那个非结构化
同构和异构
这些都是表面的现象
和那些浅层的一个关系
大数据有什么特征呢
有这么两个
我先讲两个特征和一个
两个比较实的特征
一个相对虚的特征
这个虚的特征也很重要
第一个就是在它的多维度上
怎么理解这个特征
我们讲一个例子
就是百度
实际上是百度知道的意思
这个可能写错了
不是百度百科
就是它在大概一年前左右
发布了一个
并不很引人注目的
一个一页纸的报告
当然有的时候是
内行看门道外行看热闹
我看它 就里头很有学问
全国吃货调查报告
什么意思呢
他就用百度知道
那里头有好多好多问题
大概是几千万的
已经被回答了的问题
然后他做了一件事
就是调查一下全中国
各个地方大家的一些饮食习惯
这个其实不同地方
因为发展阶段不同
他们饮食习惯是不同的
比如说广东人就问什么东西
和福建人啊
就是什么东西能吃
什么东西不能吃
什么东西不能吃
说一个广东人都知道
我说除了四条腿的桌子板凳
他都能吃 好吧
那个甘肃宁夏青海这边人就问说
什么东西能吃
那么即使是
关于什么东西能吃方面
那广东人和云南人问的
就是虫子能不能吃
那么西北一些地方人问的是
比如螃蟹能不能吃
因为他远离海了
那这个当然你可以大家
看看听听笑话
其实这里头不仅透过说
对一些简单的这个
饮食习惯的一些
一些报告
它还有很多的数据
其实它不愿意公布出来
公布出来了
就是你会发现很多惊人的现象
比如说它
因为这个数据是多维度
各个侧面映射过来的
比如说它根据你
到底这个问题是早上问的
上班时间问的
回家问的大概什么
大概能知道
你这一个人的上网习惯
生活习惯
你比如你一个夜猫子
你老是晚上十一点在那问问题
这是有可能的 这个吧
这些人饮食习惯
当然这个不是
也许你说不那么重要了
根据你用的电脑的水平
他知道你是什么样的电脑
什么型号的电脑
你就是一个
很好的苹果电脑
还是一个
我们现在(说)I3的那种
很笨重的台式机等等
它知道你不同收入水平的人
大概的这个饮食情况
当然地域性它这个已经有了
等等等等的吧
比方说用你的手机的
这些型号来讲
它知道你是男生女生
不同年龄代
这些都
都很容易这个
就是分析出来
当然即使在同一个地区
一群人里头
如果它其实有历史数据很多年了
因为这个服务已经上线很多年了
把不同时间点的这些描出来
那么就知道在不同的
经济发展阶段
这个人的饮食的变化
这件事你看
在这个大数据时代
有这样一些很多维的数据
你就要做好多事情
你都可以做得很容易
那么可能有人会问说
那这事我好像没有这些
所谓的大数据我也能做呀
你比如说我做一个
问卷调查就OK了
当然首先你这个问卷调查
设计起来就很麻烦
成本也很高
发散 发送出去呀
等等等等等等
而且关键是在于说
你如果这个一旦设计好了
我今天又想额外地
做一项统计
对不起 所有的东西都从头来
再关键是什么呢
就是这个大数据
待会儿我会讲啊
大数据的收集是一个无
常常是无意识的
这时候最真实地反映了实际情况
而有意识搜集的有些东西
可能它有偏差
这个我待会儿讲到
大数据的一些
关键技术的时候会讲
再有一个呢 就是说
大数据有一点叫做完备性
这个完备性很可怕
这有两张图
这两张图是
就是说在对美国二零零
2012年总统选举进行的一次预测
那么我们知道每年盖洛普它
每次那个总统选举
盖洛普都会做一些预测
然后就是有时对有时不对
而且关键在于美国这个总统竞选
常常最后差不了两个百分点
所以呢 你看它最后
那个上上下下
一会儿预测这个高
一会儿预测那个高
不是很准确
就是大家看看玩而已了
到了2012年出了一个
这个无名小子叫Silver
当然
那个当然了
当年那个1942年盖洛普
做这个事的时候
他也是无名小子好吧
后来成立了一个很有名的公司
Silver他就用大数据
来预测这件事
他怎么弄呢
他就是把他所有可能
找着在网上的这些数据
什么你微博就是美国的推特的
什么脸谱 什么新闻里头的
社区的有一些这种
就是说这种网站的讨论的
他反正能搜集来都搜集来
这是他预测的结果
这是他预测的结果
这个红色州在美国代表
那个共和党控
控制的州
就是选民倾向于共和党的州
颜色的深浅呢
代表就是说它优势
有多么明显好吧
蓝色都代表民主党那个
那个控制的州
他50个州他全部预测对了
这在美国历史上
历届大选中没有过
就是说那个
你用过去传统的方法做预测
盖洛普这些
甭管多大的公司没有过
所以这件事大家觉得
非常的震惊
这是怎么回事
这就是
其实就是一个完备性的
这个可怕之处
我们待会儿还会讲
这个完备性是很可怕的
那么还有一个非常重要一条
就是我们在谈大数据的时候
很多大数据忽略了
是一个大数据
其实它在某种程度上
它也是指这一种新的思维
和一个做事的方法
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接