当前课程知识点:大数据技术与应用 > 吴军:数据为王和机器智能的时代 > 大数据中的因果关系与关键技术 > 大数据中的因果关系与关键技术
我们怎么来理解这个事情呢
大家有没有想过
中文翻译大数据很容易
大数据三个字
英文叫Big data
为什么不叫Large data
为什么不叫Large data
谁说一下
或者谁说一下
这个Big和Large
到底这里头有什么差别
其实严格来讲细抠英文吧
这里头有一个非常细微的差别
Large有时候指
我们这个相对具体一些东西
比如说我这桌子非常大 Large
Big相对是一个抽象一些的东西
就是说虚一些的东西
Big data从某种程度上来讲
它不是说这个数据这个量大
而是说它是一个
抽象一些的概念
也就是说它是表示
一种思维的方式
和一种做事情的方式
我们就来看这个
比如说我们过去
在这个制药的时候
生物制药时候
我们在很多时候
尤其这个清华工科的学生
做事很要讲究因果关系
这个药我们比如说要治一种病
先是说找到这个病的原因
可能是哪种细菌感染
然后再琢磨琢磨
怎么才能杀死这种细菌
那么然后就根据这个
某一种这个成份可以杀死它
然后用这个成份制一种药
然后再进行小白鼠的试验
再进行这个临床
一期二期三期试验
看看这灵不灵
这是一种思维方式
那大数据是什么
刚才我讲了
数据的完备性很可怕
就是说我们以前是要推理完了
才知道答案
数据完备性很可怕
你先知道答案
你先知道答案
然后你回过头来
可能去分析这里头的原因
然后找
以快速的找了一个方法
比如说我们就说这制药
在美国基本上我们这个
你稍微知道点生物制药的
知道我们经常说叫十加十
什么概念
十年时间十亿美元
一种处方药研制
那么现在为什么呢
你因为有这套机理
然后基本上还不是说
从白老鼠做起
从果蝇开始做起
那个我的那女儿去年一个暑假
对 去年一个暑假
在NIH 就相当于美国医学院
做了一暑假的试验
就是天天养这苍蝇
养完了那做不出什么结果来
它这个很费劲的
那她自己也烦了
一个高中生你想想天天养苍蝇
那个那么大数据时代
是一个什么概念呢
她后来还有做一些IT
觉得IT有用
她想有没有IT和那个生物
能结合的地方 有
就是她就在今年暑假
在斯坦福医学院
做了一暑假的这方面的工作
叫做Computational biology
计算生物学
那么他们怎么做呢
这个斯坦福
比如斯坦福他们那个医院
他就发现
有一种治疗心脏病的药
对胃病很管用
至于什么原因他开始不知道
他就是看到统计的一些例子
等等这些东西
然后他们就接下来
这个就不用做果蝇试验了
直接(进入)小白老鼠
然后临床也不用做三期了
因为你对这种(现成药理)
毒性你是知道的
那么一期二期这就完了
这个事的成本是多高呢
大概一亿美元三年时间
所以你可以看
这个就完全改变了这个产业
所以这个大数据大
这个Big体现在这
它不用Large这个
那么所以我女儿
他们就暑假就做这个
那怎么做呢
这个它在美国处方药就五千种
没有大家想象那么多
五千种处方药
大概常见疾病一万种
就这么比对
那么很快的就找出了
这种有规律性的东西
然后就马上送出去
做白老鼠试验了
当然她这个一个暑假
做到这也就结束了
然后就有一篇很像样的论文
这个发表了
这个我讲说什么呢
这就说大数据最后一点
这个很关键
就为什么是大数据
讲到这顺带再讲那个一个事
就说这个Google内部的
这个做事情的一个例子
实际上这大数据
这几年比较热
用这种方法
其实很多年前就已经开始了
我刚到Google的时候
那时候大概
像Google中日韩文的这个搜索
跟英文的一样
那也连个分词都没有
经常时灵时不灵的
经常那一条搜索
连三个结果都找不着
我说这怎么行呢
我就重新要设计一套算法
重新设计一套算法
比如说原来的那个
相对的那个准确率
由50%就到70%
过两天就到75%
然后到什么78% 什么80%
这个上的很快
你算法的每一点提升
你都涨的很快
但是到一定程度以后
你就发现基本上走不动了
就像我说的
刚才机器翻译似的
十年涨五个百分点
这受得了
但是从2005年 2006年以后开始
Google搜集了
以前大量的历史数据
这个情况就不一样了
比如说某一项搜索你今天
你过去是说只发现了三次点击
你现在发现了三十次
而且从不同的地区来的
就多维度的
那么你就多多少少看看说
如果大家不点击第一条搜索结果
点击第三条
多多少少说明你第一条有问题
第三条可能好
那你就可以分析一下原因
这改进就快了
再过到2007年 2008年时候
这个数据量更大了
有些时候甚至
你还不知道这个原因的时候
你已经知道结果了
这时候你就有一个
思维方式的改变
你接受还是不接受这个结果
你当然最后你可能决定说接受
好吧
当然会有人
我以前讲也说 讲也说
有人说这会不会
遇到一些长尾的事件的时候
它不灵了
这就恰恰又是大数据的一个优势
而不是以前大量数据的这个特点
以前大量数据永远有长尾
而大数据在于它的多维度性
也就是说在一个维度里
看到是长尾问题
可能在其它维度它不是
所以这是真正大数据的本质
就是说我们回到这
再复习一下
千万以后再有人跟你卖弄说
大数据就是大量数据
我有多少数据
我有这么大量的数据
我是大数据
你说你不一定
我要仔细看一看
比如说华大基因的
杨焕明跟我讲说
你知道我们一个人
所有细胞DNA码下来
一个petabyte
这样一个规模的
这个比百度知道的数据量
大多了
但这不是大数据
因为你一个样本
你得不到什么太多的统计规律
好了
这样那我就说
我们现在正在经历一个
从过去说摩尔定律为王
到大数据为王的这么一个时代
在过去的四十年里
你如果相信了摩尔定律
就是说机器会不断的发展
智能化不断地在进程
我想大家在座有很多企业家
你已经得益了
在过去的四十年里
尤其中国改革开放三十年里
你如果不相信这一天
说这个摩尔定律
你可能会错失了好多机会
那今后我说大数据为王
就是说你如果相信这一点
可能大家就是说
又有二十年的继续的发展
那未来所有的公司
都是大数据的公司
大数据这个重要性
远不是说有的
我听有些所谓的专家学者
跑来作报告说
几亿美元 几十亿美元
奥巴马弄了一个两亿美元的基金
就怎么了
大数据什么国策
大家要知道两亿美元
连苹果半天的那营业额都不到
或者说这导致了
说有几十家的数据公司
一年有十亿的收入
十亿收入苹果两天的revenue
毫无意义
我们今天讲大数据在这讲
是因为它是一个几亿美元
几十亿人民币这样一个产业
因为它会把我们整个产业
洗一遍牌
改变你们思维
从一个从逻辑这么推的话
到直接得结果的一个结果
孙正义前一段有一句话说
以后所有的产业
你要么数字化
你要么不存在
就是这么简单
没有其它的道路
而今天所以说为什么很多人
它会看好这样一些
有大量数据的互联网公司
原因也就在这
那我们就讲讲
那就说你说了这么多
那传统行业
我不是IT公司
我也不是BAT
我跟这个有什么关系
很多人问我这个
我们就举三个例子
很好懂的例子
第一个我们先看
那个风力发电机
这是中国一家风力发电机的公司
他们老板给我讲了故事
叫金风公司这一家
可能有人听说过
就是这是世界占有率第二大的
一个那个公司
它虽然说是这个
世界占有率第二大
但是他说白了它也没挣多少钱
为什么没挣多少钱呢
因为他也不知道
他的一些东西都卖到哪去了
卖给谁了
然后人家是怎么用的
哪的风多 哪风少
他过去都不知道
当然现在就改了 改变了
为什么呢
因为待会儿我会讲
大数据关键技术时候
有一个传感器的技术
他在上边装了一堆传感器
把这些东西都可以连回来
送回来
然后他就可以知道整个
这个东西因为你要知道
大数据我讲一个全
它是一个全面性
你当它所有的这个风车
全转的时候在全世界
你想想他得到什么结果
全世界的风能分布他都知道
而且关键是你甭管中间
经手了多少经销商到外国
因为他到外国
他常常不能施工
是当地的卖给那些施工公司
给他装了
装到哪去不知道
他有时候去维修
有时候甚至维修都不需要他的
但他这些东西都是知道的
这是第二条
再有一个就说这个风车的叶片
实际上因为你比如说
冬天冷 夏天热实际上
还包括其实那个
直升机的那个叶片
这些到时间都得换的
要不然你就砸下来了
至于多长时间换
过去一般我们就讲说
一个统计规律
比如说八到十年
八到十年你就换吧
那可能
因为这要打保险系数的
因为它可能用十五年
也可能用二十年
那你不敢这样用
这些是一个成本
尤其像直升机这种
就是说它是一个非常高的成本
就是说大部分的时候
叶片到它的三分之一时间
就得换掉
那么它装了好多这个传感器
它监测它的这个
金属疲劳的强度
也就是说如果它真能用二十年
它也许到十五年的时候再换
而不是八到十年的时候换
这是很大的节省成本
那么你看它这个做事方式
这就是一个大数据的思维方式
那么在这样一个方式下
它的这个业务
和以前的业务就完全不同了
这是一个
再讲一个就是这个故事
这个Prada这个时装的
以前我们你比如
你到这个时装的精品店也好
到百货店也好
你去看这货架上
摆着各种各样的衣裳
那为什么这个摆前头摆后面
那到底怎么摆
能够卖的好
其实谁也不知道
但就是试一试
这个摆了卖不好放旁边去
咱换一个来大概是这样
而对这个做衣裳的也是
这个衣裳那个做出来没卖好
到底是摆的不好
还是这个衣裳做的不好
其实也没人知道
那么Prada它就做了一件
其实非常简单的事
什么事情呢
就我们知道这个
有些你买一些好衣裳
在上面有给你(抹)一些墨水
好吧
因为怕这个衣裳你直接拿走了
这个墨水上
他们就在同样的地方
就放一个这个芯片
在试衣间放一个传感器
那么当你把这个衣裳
从这个拿到试衣间试的时候
他能知道试了多少次
然后试了多长时间
如果这个衣裳总有人拿进去试
那就说明至少这个
第一眼看上去还不错
那试了如果没买
这就老有原因
试了
如果尤其试的时间比较长没买
就有原因
他通过这个东西
就提升了它的销售
这是第二个例子
第三个例子是
美国第二大的那个百货连锁店
叫TARGET那个例子
TARGET大家就理解成家乐福
就好了 好吧
它以前就是
美国里比如说买东西
它给你打一张发票
你揣兜里
可能有人保留这发票
到月底了
跟那个信用卡那账对一对
那个那么你很快的
各种发票弄一摞子你也烦
所以他跟你说
你愿不愿意说
把E-mail地址给我
我把这个邮寄给你
这样你也有一个存底
很多人就愿意
在以前的时候
他给你打印很多发票
你其实他根本不知道你是谁
那么当他邮寄给你的时候
E-mail的时候
邮给你的时候
他实际上知道你是谁
那么后来这个TARGET
他们雇了一个学统计的硕士
还不是什么了不起的科学家
或者是工程师
就是一个学统计的硕士
来了以后说你看
我们有不少数据
你看看能做点什么事
他就分析
他作了很多分析
他发现很多有趣的现象
比如说这个孕妇吧
怀孕的时候
在不同的阶段
他的这个购买东西
是有一些规律性可行的
比如说你三到六
我不知道
三到五个月的时候
你可能要买孕妇服
然后后来腿开始肿了
要买特殊的鞋或者鞋垫等等
然后到了什么快生的时候
要买小孩的奶粉或者尿布
然后等等等等这些东西
这些都是可以预测的
然后他要通过这个
给那些候产期的人
发这个优惠券
后来有一天
这个TARGET有一个经理
就接到了一个
非常愤怒的父亲打来电话
乌里乌噜说了半天
因为他很愤怒
表达也不是很清楚
经过这个经理
把他引导完了以后
他就明白了怎么回事
原来这个父亲就说
我的女儿才十五岁
你们就给寄这些那个孕妇的
和那个什么小孩的这些东西
婴儿的东西
那这经理就说
看这还是有不灵的时候
这个搞错了
赶快地向他赔礼道歉
把他反正安抚下来了
安抚下来以后
过了一段时间他就在想说
我得了解了解
他这个他是否满意
我们的客服处理
他又打电话回去
一个星期以后
回访一下这个父亲
这位父亲就说
对不起上一次是我搞错的
我的女儿真怀孕了
那么到
我不是想讲这怀孕的故事
我就在想讲
就是说我不知道
你们各位有多少
双十一的时候
今天又是双十二了
你们去淘宝抢东西去了
或者你们有多少时候
在淘宝上不断地这么买东西
我跟你们讲
将来淘宝比你们大家
更知道你明天需要什么
好了
现在讲一下那个
大数据的这个关键技术
第一个大数据的收集
他很重要
也跟以前不一样是无意识的
当然收集的数据
也是非结构化的
它不会像调查问卷似的
搞出结构化的东西
或者说你原来调查姓名
什么班级 性别
什么什么什么这些东西
再有一个就是我举例子
这个收集为什么很重要
你比如说Google
你看有些时候
你看它公司好多商业行为
它是不在表面
而是在背后
它能做一些什么事
那比如说它买了这个
一个公司Nest
就是这个天上装一个
像那个WIFI
能工作你们家的这个空调
能省点电的
花了三十亿美元
它可不是为了
说替你们省点电这么简单
花三十亿美元来干这事
他实际上是来搜集
你无意中的很多数据
为什么我要强调
这个无意中的这个重要性呢
因为有时有意刻意收集的数据
不真实
那个六月份的时候
我跟那个罗胖子
就是那个罗辑思维的
那个主持人他聊
他原来不是那个
电视的主持人吗
他就给我讲这个电视台的故事
他就说以前电视台
怎么了解收视率呢
就搞这个问卷调查发上去
然后你们就填
后来当然有了机顶盒
就不用做这个了
是直接统计上来了
然后他们就对比着前后就会发现
以前那些所谓的
高大上的电视节目
或者是这些名嘴主持的节目
收视率都被明显地提高了
因为你填问卷调查的时候
你总不好意思写
我就爱看《非诚勿扰》
这种东西对吧
我倒不是说它不高大上
我就说它总要写一些
我爱看比如说崔永元的
什么什么节目
就显得我很有知识文化
好吧
那就是说你无意中
搜集的数据
它才有真实性
大数据
任何数据只有它有真实性的时候
才有意义
这是第一个
就是数据搜集
其实说怎么搜集到真实的数据
数据存储也是一个问题
大家不要觉得
有了摩尔定律
今天所有东西
都变得很便宜
所以我可以能存
因为当大数据起来的时候
人家想到的是
要搜集更多的这个数据进来
所以这个本身
可能一下子大家搜集数据的时候
数据量比想象的要大
刚才就是说基因那例子
那个杨焕明讲
一个人整个这基因解剖下来
一个Petabyte
你要是全中国的人
是多大的一个数据量
大家可以想一想
现在说一句
如果把人类的基因
这个DNA连起来是86光年
那个数据的存储是一个问题
那么更难的一个问题
是数据的表示 检索
和随机访问
因为为什么呢
因为大数据是杂乱无章的
那么你怎么看上去
能比较的那个有点头绪
这是很难的一件事
而且我们以前计算机
常常处理的数据量
比如说一个字段
或者一个piece一块
都是相对小的
你在互联网检索
你的索引的单位就是一个词
你做一个图象处理
那个一个图象
大概也就几百K到几兆
大概这样
视频也不会到太多
你要到DNA的数据
可是那个常常这个一块
可就是大概一百多个mega
那么这些东西
你怎么随机的访问
怎么来使用这是一个问题
你总不可能说
为了查这个东西
从头到尾扫一遍
这个东西受不了
那么所以在Google里头
像那个Google最好的
一个工程师Jeff Dean
他也是美国工程院院士
同时是Google云计算
大部分的工具
比如说Map Reduce
然后Big Table
还有那个GFS这些东西的
主要的发明人和创造者
他现在的关键的挑战就是说
如何能够表示好
这个医疗数据
这是一个非常大的数据
当然了
光有这些数据
也是杂乱无章的
就像一堆这个沙子
里头有好多金子
但是你光有这个还是不够的
你要有一些善于使用
和挖掘这些数据
就是说沙子里头能挖到金子
那么我就在讲
像Google到今天为止
它 其实它已经
这个公司很大程度
已经具有了这个大数据的思维
它40%以上的工程师
天天做的工作
就是在这挖掘数据
然后看看这里头
能够找到什么规律性
来改进产品
所以它的改进产品的思路
已经从原来
我说我很早加入这个公司的时候
从我先有一个有预见性的方法
然后拿到这个
拿到这个方法以后
来开始做试验
然后得到结果
改成了我可能先知道
这个实验结果
然后我去找到方法
然后改进产品
这样一个思路
那么大数据也带来很多其它问题
就不讲了
非技术性的
比如说安全性 隐私性
甚至尤其在大数据进行交换
和共享的时候
这些问题会变得非常严重
那么包括一些公司
现在考虑这些事情
比如说intel
他们在考虑一些芯片
或者一些标准
使得说
这个大数据你是可以不断用的
所有人都可以用
但是你不知道它是个什么东西
你可以通过它做一些东西
但是你不知道
每个数据是什么东西
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接