当前课程知识点:大数据技术与应用 >  吴军:数据为王和机器智能的时代 >  大数据的重要性及特点 >  大数据的重要性及特点

返回《大数据技术与应用》慕课在线视频课程列表

大数据的重要性及特点在线视频

下一节:大数据中的因果关系与关键技术

返回《大数据技术与应用》慕课在线视频列表

大数据的重要性及特点课程教案、知识点、字幕

好了我们现在接下来

就仔细讲讲数据的重要性

在解决智能问题上

这有两张表

这是2005年美国NIST

就是美国标准化局

对全世界所有机器翻译的系统

进行评测的一个结果

那么一边是从中文到英文

一边是从阿拉伯文到英文

为什么挑这样两个语言

翻译到英文来

因为当时觉得法语到英语

太简单了

所以大家找两个

相对难一点的语言

来进行翻译

这里头有一些数字

大家可以看到

30% 50%这些

这些数字什么意思呢

在学术上它叫Blue score

那么实际的含义呢

就是说把机器翻译的结果

和人翻译的结果进行比对

看看有多大的重复性

当然了 你不要想说

非要到什么百分之八九十

这个结果才能用

因为人和人翻译的一致性

也只有50%

因为这个跟那个

你听写 语音识别这个不一样

那么也就是说这个阿拉伯语

已经蛮实用了

这个汉语还差一点

这里头当然

就是说美国是说规定这样

你如果拿政府钱

你一定要来参加评测

你如果没拿了

你也可以参加评测了

可以来打比赛

那么像这里头

有些公司是拿了的

有些是没拿的

比如说Google是拿

没拿钱的

剩下来很多是拿了钱的这样子

这个里头大家可以

稍微我说一下

有三个单位的系统

其实本质上是一回事

一个是Google的

一个是这个

我看 对一个Google的

一个是南加州大学的

还有一个是德国亚琛工学院的

因为这三个系统都是一个人写的

这个人叫Franz Och

也是现在大概还是

就是全世界做机器翻译

最好的一个专家

他原来最早在亚琛工学院读书

他德国人 不懂中文

做了一个世界上最好的

中英翻译的这个系统

然后毕业以后

就到了美国南加州大学

他又把这个系统重新写了一遍

在南加州大学

这大概 前后就到了

这样到了一九

2004年左右

2003年的时候我在Google

就是和一些研究的

另外几个做研究人

他们就是开始想做

说能不能做机器翻译这样子

那么开始自己不是很懂

这个做起来就很艰难

后来说那我们就很简单

我们招一个全世界

最好的人就来了

所以在2004年

这个4月28号这一天

Franz Och就加入了Google

为什么日子我记这么清楚呢

很简单

因为这一天

是Google宣布IPO的日子

然后Google就说你今天来

这个吧 股价还便宜

晚了以后股价就变了

所以Google也是对员工

对好的员工 还是很好的

他来了一天以后呢

他学校这些事还没干完

他就又请了两个月假

回学校把课教完

考试把这些学生的考试考完

然后6月份才来到Google

这个评测是第二年

大概四五月份的事

所以不到一年的时间

他根本没时间做研究

只是到了Google

把所有的代码重新写了一遍

他也不能用原来的代码

那么评测结果出来以后

大家都很惊讶

大家不要小看

它比第二名差这5个百分点

你可以看第二名

一直到第五名

那个约翰霍普金斯和剑桥

那基本上是平的

没什么差别

差五个百分点

如果在学术界单纯用

这个过去理论研究的方法

需要努力大概八到十年的时间

提高这五个百分点

那他怎么做到这一点

他一连 你看时间都在写代码

当然有一些人帮他写代码

但是

但是没时间做研究的

所以大家都很好奇

他是怎么做的

根据NIST的规定呢

就是说你参加了评测

你一定要来讲一讲

交流交流你是怎么做的

但是他的方法讲出来了

大家也觉得

原来不过是这样子

怎么回事呢

因为他用了别人一万倍的数据

一万倍的数据

所以你就可以看到这个

数据的这个 它的重要性

那么所以我刚才讲了

在过去的四十年

决定未来经济发展的

是摩尔定律

在未来的二十年

真正要改变世界经济的

是这个大数据

所以这就回到了这个

这个系列的主题上

什么是大数据

这个说法各种各的都有

大概几个小时前

被一群人绑架到了

那个中关村一个什么咖啡屋

聚集了一些讨论大数据的人

在那边讲什么是大数据

然后我发现就是说

好多理解

包括甚至学术界上的理解

他都还比较局限

就是说这个

说觉得把大数据

和大量的数据混为一谈

大数据一定是大量的数据

但反过来不一定这是第一条

而且很多人就是说

这是结构化和那个非结构化

同构和异构

这些都是表面的现象

和那些浅层的一个关系

大数据有什么特征呢

有这么两个

我先讲两个特征和一个

两个比较实的特征

一个相对虚的特征

这个虚的特征也很重要

第一个就是在它的多维度上

怎么理解这个特征

我们讲一个例子

就是百度

实际上是百度知道的意思

这个可能写错了

不是百度百科

就是它在大概一年前左右

发布了一个

并不很引人注目的

一个一页纸的报告

当然有的时候是

内行看门道外行看热闹

我看它 就里头很有学问

全国吃货调查报告

什么意思呢

他就用百度知道

那里头有好多好多问题

大概是几千万的

已经被回答了的问题

然后他做了一件事

就是调查一下全中国

各个地方大家的一些饮食习惯

这个其实不同地方

因为发展阶段不同

他们饮食习惯是不同的

比如说广东人就问什么东西

和福建人啊

就是什么东西能吃

什么东西不能吃

什么东西不能吃

说一个广东人都知道

我说除了四条腿的桌子板凳

他都能吃 好吧

那个甘肃宁夏青海这边人就问说

什么东西能吃

那么即使是

关于什么东西能吃方面

那广东人和云南人问的

就是虫子能不能吃

那么西北一些地方人问的是

比如螃蟹能不能吃

因为他远离海了

那这个当然你可以大家

看看听听笑话

其实这里头不仅透过说

对一些简单的这个

饮食习惯的一些

一些报告

它还有很多的数据

其实它不愿意公布出来

公布出来了

就是你会发现很多惊人的现象

比如说它

因为这个数据是多维度

各个侧面映射过来的

比如说它根据你

到底这个问题是早上问的

上班时间问的

回家问的大概什么

大概能知道

你这一个人的上网习惯

生活习惯

你比如你一个夜猫子

你老是晚上十一点在那问问题

这是有可能的 这个吧

这些人饮食习惯

当然这个不是

也许你说不那么重要了

根据你用的电脑的水平

他知道你是什么样的电脑

什么型号的电脑

你就是一个

很好的苹果电脑

还是一个

我们现在(说)I3的那种

很笨重的台式机等等

它知道你不同收入水平的人

大概的这个饮食情况

当然地域性它这个已经有了

等等等等的吧

比方说用你的手机的

这些型号来讲

它知道你是男生女生

不同年龄代

这些都

都很容易这个

就是分析出来

当然即使在同一个地区

一群人里头

如果它其实有历史数据很多年了

因为这个服务已经上线很多年了

把不同时间点的这些描出来

那么就知道在不同的

经济发展阶段

这个人的饮食的变化

这件事你看

在这个大数据时代

有这样一些很多维的数据

你就要做好多事情

你都可以做得很容易

那么可能有人会问说

那这事我好像没有这些

所谓的大数据我也能做呀

你比如说我做一个

问卷调查就OK了

当然首先你这个问卷调查

设计起来就很麻烦

成本也很高

发散 发送出去呀

等等等等等等

而且关键是在于说

你如果这个一旦设计好了

我今天又想额外地

做一项统计

对不起 所有的东西都从头来

再关键是什么呢

就是这个大数据

待会儿我会讲啊

大数据的收集是一个无

常常是无意识的

这时候最真实地反映了实际情况

而有意识搜集的有些东西

可能它有偏差

这个我待会儿讲到

大数据的一些

关键技术的时候会讲

再有一个呢 就是说

大数据有一点叫做完备性

这个完备性很可怕

这有两张图

这两张图是

就是说在对美国二零零

2012年总统选举进行的一次预测

那么我们知道每年盖洛普它

每次那个总统选举

盖洛普都会做一些预测

然后就是有时对有时不对

而且关键在于美国这个总统竞选

常常最后差不了两个百分点

所以呢 你看它最后

那个上上下下

一会儿预测这个高

一会儿预测那个高

不是很准确

就是大家看看玩而已了

到了2012年出了一个

这个无名小子叫Silver

当然

那个当然了

当年那个1942年盖洛普

做这个事的时候

他也是无名小子好吧

后来成立了一个很有名的公司

Silver他就用大数据

来预测这件事

他怎么弄呢

他就是把他所有可能

找着在网上的这些数据

什么你微博就是美国的推特的

什么脸谱 什么新闻里头的

社区的有一些这种

就是说这种网站的讨论的

他反正能搜集来都搜集来

这是他预测的结果

这是他预测的结果

这个红色州在美国代表

那个共和党控

控制的州

就是选民倾向于共和党的州

颜色的深浅呢

代表就是说它优势

有多么明显好吧

蓝色都代表民主党那个

那个控制的州

他50个州他全部预测对了

这在美国历史上

历届大选中没有过

就是说那个

你用过去传统的方法做预测

盖洛普这些

甭管多大的公司没有过

所以这件事大家觉得

非常的震惊

这是怎么回事

这就是

其实就是一个完备性的

这个可怕之处

我们待会儿还会讲

这个完备性是很可怕的

那么还有一个非常重要一条

就是我们在谈大数据的时候

很多大数据忽略了

是一个大数据

其实它在某种程度上

它也是指这一种新的思维

和一个做事的方法

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

大数据的重要性及特点笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。