当前课程知识点:大数据技术与应用 > 吴军:数据为王和机器智能的时代 > 大数据与机器智能 > 大数据与机器智能
好讲那么多大数据
我说题目是机器智能
我们再回到机器智能这个话题
它们是什么关系呢
机器智能我们说
今天来讲 将来未来
如果要完成机器智能
它有三个
就是一个鼎似的
有三条腿
这就是三条腿
第一个是摩尔定律
它要保证我们计算机的计算速度
不断的在增加
这是一个指数增加
我讲说这是一个非常可怕的
它导致说
这个将来会超过人的智能
第二个就是大数据
我讲了这么多
因为我们的思维方式
和解决问题的方式
已经改变了
这个数据量很大
当然我们要解决智能问题
计算机是算的快
我们又有一个数据
这样建立一个桥梁
使得这个计算机能够
解决智能问题
这个桥梁就是数学模型
那么这里头我讲了一个工具
就是在这本《数学之美》
这书里头会专门讲
说这个叫Google大脑
就是你们可能已经听到一些名词
Google大脑深度学习等等等等
这些东西说起来很吓唬人
其实内部一点儿也不神秘
它就是说Google大脑吧
它里头实际上是一个
人工神经网络
这个人工神经网络
你别听这个名字
又跟脑子联系起来
它其实就是一个很简单的
有向图
就是你们学计算机图论
那个
那个大学三年级就都学了
这样一个有向图
就是这么一个东西
那么当然他有一套
他可以用于模式识别等等等等
分类这些
做的很好
他有一套这个算法
这些为什么Google
这是机器学习的算法之一了
为什么Google来用它
而不是用其他更先进点的
机器学习算法来构建
这个Google大脑呢
原因是在于它的一个稳定性
也就是说在过去的
大概30多年里
说白了关于它的算法没什么提高
或者说没什么改进
很稳定
就是这样子
那它稳定性一个好
再有一个
它有一个通用性
就是说各种问题都能表述
当然了你可能说
对某些特定的智能问题
它效率不是最高
不过没关系
我们前面讲有摩尔定律
就是说这个计算机
那个计算速度会提高
它可以弥补这个不足
但是这个通用性有个很大的好处
那么用了Google大脑以后
会有什么结果呢
大概这回Google又做了一件事儿
这也是Jeff Dean
发明的
他做了就是说
原来是一两台计算机上实现的
那个人工神经网络
他能弄到几万台
甚至上百万台机器上来做
这样呢
原来你只能有几百个节点
它可以成千上万
十万个节点
这能做很大的智能问题
它什么好处呢
我们回到语音识别和自然语言
就是那个机器翻译这两个事儿
它呢
这回数据量也没增加
那个方法也没改
就是用这个作为所谓深度学习
重新把那个数学模型训练一遍
然后大概语音识别的错误率
就从大概百分之七点几吧
降到百分之五左右
大概提高了百分之十五六吧
大概这样子一个水平
别看这点
这要是完全用那个
按计算机科学家
或者电机工程的专家来做
这件事儿恐怕也要4年时间
就是他没做什么别的事儿
就是用这个深度学习弄了一遍
在机器翻译上
结果基本上跟这个吻合
好了
我们再接下来讲说
讲了这个东西
那说你能不能举一个例子
过去没有大数据的时候
解决不了例子
现在有了大数据以后
机器智能
你能解决一个机器智能的例子
这就是我一开始讲的这个
提问的问题
就让计算机回答复杂的问题
计算机那时候已经
能回答简单的问题
比如说习近平是哪天生的
或者是说中国人口多少
什么珠穆朗玛峰有多高
因为你写一些
学过计算机的
是吧
写一些那个模式匹配的这个
这个模型
那个template模块
你就能匹配上了
但是对天为什么是蓝色的
或者你怎么烤鸡烧鱼
这些问题你就
计算机是
过去没法回答的
那我就把这个任务
接下来再花差不多两年时间
大概有10几个那个教授
我们叫这个科学家吧
在加上那个十几个
不到20个工程师
有几个
我们有四摊
我们在Mountain View有一摊
纽约一摊
苏黎世一摊
以色列一摊
反正这么一些人
在一起干了两年多
基本上把这问题就
反正在很大程度上就解决了
要知道在以前
这些各种计算机科学家
他不断的发表论文在大学里
好
但几十年都没解决问题
我们花两年多
你看基本上解决了
你们看是不是
这个答案给出来
跟人回答的差不多了吧
已经无法判断
这是机器回答还是人回答的
原因奥秘在哪儿
并不是说我们这20几个人
就比过去那计算机
那么多专家做几十年强
是因为我们有他们没有的东西
机器智能本质上
是大数据的一个应用
也就是说你们其实
如果问
在那个百度上问一个问题
或者是在Bing上
在Google可能你们用不了
给封了
反正甭管吧
哪个搜索引擎
问一个问题
有的时候百度上
你呢问
不要问太简单的
稍微难一点的
你就把那个叫做什么
广告这些东西人为的给删了
就留前十条的自然搜索结果
然后你把这个打开
你读一读这个结果
你基本上应该是能知道
这个问题答案的
我们做了一个统计
大概百分之七十八十的时候
是能知道这个答案的
也就是说这个问题答案
其实是在这些数据中的
这些东西当然是那些大学
没有的了
做研究的
在数据中我讲大数据的完备性
刚才讲了这个重要性完备性
你可以认为它是完备的
关键是
但是呢有一条
你们看今天任何一种搜索引擎
你如果问它一个问题
你不把这个东西
像我说的这么做
光看它那几条摘要
只有百分之大概二十到三十的时间
你大概能知道它答案
也就是说这其实是人和机器
过去的一个差异
也就是说它机器读不懂
这些东西
读不懂这些答案
它无法合成这些答案
但是有一个前提
就是答案一定是在里头的
所以我们做这个问题是什么
怎么做法呢
跟以前那些计算机科学家
想问题的方式完全不一样
那些人就想
我这个东西我要有逻辑好吧
这个太阳光散射
波长长波长短
波长长那个渗透的
进来了
波长短给反射
他要有逻辑他是这样的
我还是说这个
但是我们这思维方式不一样
我们说这个答案可能是完备的
在里头
它有零星的这个片断
我们要把它找到
然后我们要给它拼成这个答案
拼成句子
拼成答案
这是一个完全不同的思维方式
其实具体到这个例子
我们说为什么夏天比冬天热
这个答案其实都在
这个大部分
都在这个里头
我们只是把它拼出来
所以这是一个完全不同的
思考方式
做文的一个方式
做事情的方式
这个就是我们说
由于大数据它最终
导致了机器智能
也就是说你看上去
它跟人的回答是差不多的
那我们再讲两个
那个具体好理解一点的例子
好吧
这边是一个自动驾驶的汽车
大家如果能
后面能看得见的话
你发现这座位上是没有人的
这个那个
开车的这座位上是没有人的
这个旁边passenger seat
他这座位上有人
这是Google在当时做一个原型
自动驾驶汽车的原型
为什么举这个例子呢
这是很有意思的一件事儿
在2004年的时候
有一些经济学家
他们当时已经发现了
这个由于摩尔定律的这个作用
使得计算机能够干越来越多
人干的事儿
他们就在说
那未来的世界什么事情
计算机干不了呢
他们就找了这个例子
这个开车
他说你想开车这事儿
我们过去说叫眼观六路
耳听八方
然后呢这个脑子要控制
手和脚要协调
你协调不好不行的
那么这个事儿恐怕比较难
计算机做不了
这是第一个
他们想象的原因
第二个原因就是说在2004年
也就是在这一年
美国也搞了一个这个
就是也是相当于这个政府那个
对那个研究项目做一些考核
搞了一个无人驾驶汽车拉力赛
跑第一名的是
卡内基梅隆大学的一辆车
跑了不到20公里就抛锚了
剩下来的车呢
还跑不了这个距离
不是抛锚了就是给
甚至给撞掉了
而且呢
你知道即使第一名的汽车
当时的时速只有每小时五英里
大概就是每小时八英里左右
比大家走路快一点
比骑自行车慢很多
就是这样一个水平
所以他就讲
你想这2004年才这个水平
所以觉得可能它真是代替不了人
这个开车
但是到了2010年的时候
当时纽约时报就报道出来了
说Google已经研制出
无人驾驶的汽车
它呢当时在高速公路上跑了11
不是高速公路上
就是所有的各种公路组合起来
跑了11万英里
就是差不多18万公里吧
那个包括上这个高速
比如说我们这儿上四环
跑到机场去
然后再进我们校园
在这个楼门口这个平行爬车
平行爬车不是那么容易的
平行爬车把它爬好
就做这样的事情
11万英里没出一次交通事故
出了一次
是后面有辆车把它给撞了
那个是这样的
说为什么短短6年时间里
会有这么大的一个飞跃呢
当然几个原因
第一个原因就是Google
每次很聪明
他就直接把那卡内基梅隆大学
那人先给招来
就是当年Franz Och
所以你们以后要办公
所以记住一定要找到合适的人
不要找一堆那个烂人
在那儿凑数
先把他招来这是第一
第二呢他呢
要知道这是Google街景项目的
一个延伸
就是它Google有一个扫街的
这个街景项目
现在其实我在腾讯管过
他们街景这个项目
现在其实能做到大概哪个水平呢
其实如果像咱们的这个北斗
这个导航是能做到毫米
厘米量级的
但是那GPS又差点
分米量级
当然对开车已经足够了
然后呢它扫过一遍
其实这个
它这个车到没去过的地方
它是开不了的
这跟卡内基梅隆大学的那个
当时那测试不太一样
那个是因为完全是个瞎子
不是叫瞎子
就是说第一次没去过的路
现在在那儿找路呢在那儿开
这个情况不一样
没去过的地方
它跑不了
它去的都是它扫过的街
因为它把所有这些扫过一遍
有个数据的完备性
所以我今天讲了好多遍的
这个完备性
有个数据的完备性
以至于它到哪儿
它都知道怎么开
到这儿一看周围它全熟
前边有多远
什么地方
该是什么样
它都知道
所以这个使得它占了
非常非常大的便宜
当然了到了那个
从2010年到2014年
他又做了很多改进
比如他那个传感器呢
各种各样传感器有十几个
然后每秒钟要扫几十次
各种各样的数据送出去
好几次
判断还是很准备
他又加了一些数据图案
这个出来一个
校车出来一个停止的牌子在这儿
它能知道马上停下来等等
或者一个什么
旁边一个东西什么突然倒了以后
它知道躲开这些
这些东西
所以这是它真正的
这500辆上街的这个车的
这个样子
这里头没有方向盘
你们能看见
没有方向盘
没有油门没有刹车
只有一个开关
当然后来那个美国公路局说
你加一个制动再
他又加了一个制动
大概这是真实的一个
这其实是
某种程度上是一个机器人了
但是你可以说这是一个
另一点来讲
本质上它是一个大数据的应用
那么再讲
那个几个例子
这是我投资的两个公司
一个是
这个是时代周刊对它的一个报道
这个是一个
是这样
放大了是这样子
这是一个智能的浇水的
一个机器人
在家里后院里
它就在家
你们家后院先走一走看一看
哪高哪低大概
就是水怎么能够浇到
然后呢湿度是多少等等
然后它就给你浇水
那么它还可以跟那个网上的
天气预报联上
就知道过两天下雨
它不给你浇了
那个
那么在很多地方他们测试
能省下来98%的这个水量
而且他们那个
卖出去很多台以后
有时候给我们写一个报告
有一次我一读很有意思
就是说很多人买了它以后
把它给hack了
就是重新的编程
干什么呢
就是说把它改成了一个洗车的
它就围着那个车转一圈
调整好那个
这个方向什么
变成了一个自动洗车的
这是一个无人机的
大家知道
这是也是我投的一家公司
这个无人机它
这个公司不光是
那个在运营这个无人机
这倒没什么特别的地方
关键在于他操作无人机的
所有东西
它全是机器人
你比如说当它停下来的时候
它停在这儿以后
会有这个机器人给它换电池
换
把硬盘这个数据拿出来等等
让它在接着起飞
那么人要做的什么事儿
非常简单
就是你定义它今天去干什么事儿
就是想说
今天去到苹果的上空
去把那工地照一圈回来
硬盘给我
大概就是这样它就好了
那么苹果公司
现在是他的一个客户
就是他们盖他的新的总部的时候
就用它
这个六架直升机每天飞七次
然后它
这个工地全部的进展
它那个公司内部一清二楚
这就是未来的一个
这个时代
到这儿来讲
我讲了这么多
你可能会觉得有点可怕了
是不是
那个未来的时代是机器的时代
还是人的时代
好吧
现在的这个
那个富士康的装配线
这个工人很辛苦的
每天重复这个劳动
这个工厂我看了
觉得很震憾
这个大概是这个
保不齐这个大厅的十几倍都有
那么未来富士康
那个郭台铭说
我以后不挣你们的血汗钱了
不剥削你们了
我用30万台机器人
也就是说在未来社会里
你要卖血卖汗
都没地儿去卖了
当然你说
我们清华的高大上
不会从事这个活动
好吧
我们就讲美国一个
最高大上的职业放射科医生
说这个
你不要想着说
我到这个
推着那个机子
给你在拍片子的那些人
那些叫技师
那不是放射科医生
什么是放射科医生
在美国呢
就是说那些能够看片子的
这个 这个专家
那么放射科医生
在美国是怎么炼成的呢
是这样的
那个美国本科是不能
那就是说不是
没有医学院的
就是你高中毕业不能读医学院
你一定是本科毕业完了以后
医学院算专科的这个研究生
然后你读医学
叫医学博士
这个本科毕业
就是你高中毕业以后
再过了四年
你假设一个同学
读一般的大学
他毕业了以后工作了
你呢很幸运
我们就说幸运儿
先进入医学院四年
然后过了四年以后呢
你医学院毕业
四年毕业也很快了
你的同学可能已经结婚了开始
你呢还是一个人呢
那个读医学院很累
然后呢你
接下来你很幸运
找了一个住院医
你的孩子
你的同学就一起结婚
结婚完生孩子去了
那个住院医当了四年以后
你出来以后就当
相当于它叫专科医生
全科医生
就相当于我们的普通内科
当完普通内科呢
你的孩子
那同学的孩子也生了
他可能这个
也都长到好几岁了
然后呢你要当这种专家
你还要再做两年
叫Fellow
就是说这种专科医生的训练
这个训练完了以后
你的同学可能也当了个小老板了
孩子也蛮大了
这时候你说哎呀
我才有第一份工作
怎么怎么
但是我的年薪30万美元
30万美元什么概念
你一个硕士毕业
斯坦福的硕士毕业
到了Google
当然起薪是10万美元
所以这是一个
这是绝对高大上的职业
就是现在的放射科医生
以后是这样
就是以后是这样
这个事儿我不是说
这个虚拟化了以后
因为现在这事儿已经发生了
就是有一些这个来识别
这种癌细胞这种片子的软件
现在做的已经足够好
能够取代这些放射科医生了
而且关键它有一个非常大的好处
在于什么
它有一个稳定性
你这个医生假设今天那个
比较道路拥挤
我想要往前挤一挤
结果给警察抓住了
然后呢今天一天不痛快
你看片子都看不准
但是它没这个问题
它天天一样的准
而且那个2012年的时候
Google也做了一个
那种科技竞赛
那么有个18岁的女生
她做了一个东西
那个当然我一直觉得
她们家有什么背景
她怎么了
她做一个东西
就是做那个乳腺癌
要做那个穿刺活检的那个
那样一个帮助
帮助的这么一个
检测的这么一个系统
就是说你要知道
假设这人可能有一点疑问
就是你看那个医学影像
有可能有癌细胞
好吧
你扎进去
或者也许是良性也许是恶性
你扎进去
你扎不好没扎对
你取出来你说没事儿没事儿
那其实就误诊了
你要扎不好
你要老乱扎它也不行
那这个给扩散了
好吧
她做了什么
她看了多少呢
她大概是用了两百万例的
这个
这个病例
这个
所以我老觉得她们家有点背景
要不然怎么来的这个
反正这两百万例弄完了以后
她那个召回率和准确率
都在98%以上
这个东西比
咱们凭心来说
比任何的专家都已经完全好了
这是什么
这是
你一个专家你看一辈子
能看多少个病例
那这个是两百万
是很惊人的
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接