当前课程知识点:大数据技术与应用 > 吴甘沙:大数据分析师的卓越之道 > 数据的分析 > 数据的分析
所以我讲了数据的质量
数据的表示
而这些呢都是数据准备过程
下一个阶段就是我们数据分析师
最关心的过程 分析
说到数据分析
这个我们每一个数据分析师
都感觉跟不上时代变化的潮流
这个是来自于SAS一张图
大家可以看到
在这里面有很多不同的圈
最早的数据分析
对于我们数据分析师来说
不就是数据库嘛
我用sql语言
写一些查询 写一些分析
到后面产生了统计学的理论
统计学它是从数学这边过来
不是从computer science那边过来
它通过统计学来去验证我的参数
去验证我的模型
去估计我的参数
接着呢machine learning发展起来了
machine learning它怎么来的呢
又是从大的人工智能
这个领域过来的
然后人工智能大家知道最早
可能是一些问题求解
接着可能是一些专家系统
基于规则的人工智能
而人工智能当中
两个大的一个进展
一个就是模式识别
他能够针对
甚至是一些非结构化数据
来去发现里面的模式
而另外一个就是机器学习
我有一部分数据了以后
我能够根据这些标记的数据
能够去学习到
这整个数据的规律出来
所以我们现在说的数据挖掘
Data Mining
事实上就是三个学科的交叉
数据库 机器学习和统计
这三个的交叉
大家可以看到
这个Data Mining在中间
而现在大数据阶段
我们发现Data Mining都不够了
因为Data Mining出来的
intelligence不够
我们现在要KDD
所以呢又有一个更大的框
叫KDD
叫Knowledge Discovery Mining等等
所以呢它把一个
用一个更大的框
把它能够框下来
而在另一边大家可以看到
我这个传统的AI可能也不够了
现在又有新的Neurocomputing
所谓Neurocomputing
大家可以想象成
我们所谓的神经网络
人工的神经网络
或者生物的神经网络
或者是像我们现在sparse coding
这样一种从神经元的工作机制
启发出来的一些新的
数据分析手段
所有这些形成了我们现在看到的
这个数据分析技术的landscape
对我们来说挑战非常之大
当然我们光懂数据分析还不行
这个数据分析最终还是一种
计算的形态体现出来
所以我们做计算的
做系统的人
还是要跟做数据分析的人
需要来一起去解决这些问题
那么对于我们普通的
数据分析师来说
第一件事情要做的就是
检查一下我自己的装备
是不是够用
那么现在数据分析当中
使用的四种最流行的语言呢
就是SAS R语言 SQL Python
当然它们可能也有不同的侧重
比如说R语言
可能比较偏向于统计一些
SQL它可能是比较偏向于
对数据库的查询分析
Python呢
它可能对机器学习比较适合
那总体上来说
所有这些都来去应付
我们现在数据分析当中
碰到的两大类的难题
一类的难题就是基于查询的分析
而另外一类难题呢
就是更复杂的基于像线性代数
这样的一些模型的分析
我相信很多数据分析师
已经拥有了这样一件
或者是几件的武器
那么这些武器能不能应用到
大数据的场景里面呢
可能现在我们更多的分析师
还需要去学习一些新的一些武器
比如说Java
比如说Scala
因为Java是现在我们
大数据的基础设施的
一个通用的一个语言
Scala大家知道
Spark就是用Scala写的
那么你要在处理大数据的
可视化的时候
你可能还需要学习一些新的语言
你比如说现在非常流行的
一种可视化的库
叫做D3
它是用JavaScript来写的
所以你可能还需要学习JavaScript
把所有这些组成了
我们数据分析师的武器库
那么比较好的一点就是
现在所有这些语言
它都有了下层的
大数据基础设施的支撑
使得你不用改语言
不用改你的程序
能够自然而然的去处理
更大量的数据
比如说现在我们听说过
SQL on Big Data
或者叫Big SQL
你像SQL可以运作在
Cloudera的IMPALA上面
可以运作在
Apache的Hive上面
可以运作在presto等等等等
所有这些
都是能够对SQL语言
进行解释和处理的
大数据的基础设施
Python
它可以运行在Spark上面
SAS和R语言
现在也能够运行在Hadoop MapReduce 和 Spark上
这对于我们分析师来说
绝对是一个好消息
还有更好的消息
现在我们越来越看到
机器学习流水线这么一个名词
叫ML Pipeline
所谓流水线就是把数据的采集
清洗 特征提取 分析
可视化等等
把整个流水线都放到一个站上面
让大家能够一站式的
能够去获得这样一种能力
还有一个好消息
我们看到现在大数据
越来越愿意去拥抱云的世界
最早的时候
大数据和云似乎是格格不入的
因为谁愿意把自己的数据
尤其是拥有敏感信息的一些数据
放到云里面去呢
大家知道大数据
非常有名的一家公司叫Cloudera
Cloudera什么意思
Cloud Era
也就是云时代
它在创建这家公司的时候
在2008年创建这公司的时候
他是想我这数据
能不能放到云里面呢
但事实上现在已经过去了七八年
过了七八年现在大数据跟云的
这样一种姻缘才开始发生
它发生有它的背景
有它的原因
那么大家可以看到
现在在幻灯片上面
列出来的是很多很多
不同的大数据的工具
你可能数据的存储需要HDFS
也需要MySQL
数据的处理的话
可能是最早是ETL
然后做查询分析
做更复杂的像MapReduce
像R这样的分析
而这些所有的能力
都是被分布在不同的工具里面
所以有人开玩笑
这大数据站就是一动物园
为什么说动物园呢
因为大数据的不同的工具
它的吉祥物都是不同的动物
比如说Hadoop
它的吉祥物是一头小象
那Hive它是做查询分析的
它吉祥物是蜜蜂 蜂巢
像IMPALA是羚羊
像MySQL是海豚
所以大家说这个大数据的处理站
就是一动物园
而且是你必须得到不同的
动物园里面去访问不同的动物区
而现在有了云以后呢
我把所有的东西都放到一起
这样你就可以一站式的获得
所有的能力
你可以在一个地方
把所有的动物全都访问了
这样对于我们大数据未来的部署
带来了极大好处
所以呢我们数据分析师
也要去拥抱云的世界
所以我刚才讲的这些东西
对于我们数据分析师来说
都是利好的消息
我们传统的工具都能够
自然而然的支持大数据了
我们Machine Learing Pipeline都可以在一起
一站式的获得
而所有这些工具
都可以在云里面获得了
这些都是好消息
但是我想强调的是
有这些东西
并不能保证我们能够成为
大数据时代的一个很好的分析师
因为在分析技术本身
我们需要进行升级
这里面想要引用
一个统计学大师的话
他是说所有的模型都是错误的
但有一些呢是有用的
统计学分析大师
他叫George Box
所以在我们大数据时代
简直是太正确了
为什么呢
因为我们大数据太复杂
太多样化
它需要不同的模型去处理
那这里面就涉及到一个比喻
这个比喻是一个叫以赛亚的
这么一个哲学家他说的
他把人分成两类
一类是刺猬
一类是狐狸
刺猬是什么呢
它是一招鲜吃遍天
它拥有了一个技术
它把自己封闭了起来
它永远用这么一个技术
去处理所有的问题
而狐狸呢
它是更开放的
它愿意用不同的技术
去处理不同的问题
所谓的用一把钥匙去开一把锁
而用另外一把钥匙开另外一把锁
在大数据时代
我们该做刺猬还是狐狸呢
我觉得我们如果能够掌握
一项非常好的技术
把它用到极致是非常有用的
我给大家举个例子
在美国有个非常著名的分析师
叫Nate Silver
他写了一本书
叫做《信号与噪声》
大家可以买来看
他非常擅长于使用贝叶斯
这么一个工具
他把这个工具用来去预测
奥斯卡的获奖者
去预测美国总统的选举
去预测美国议员的选举
预测棒球
他把这个工具用到了极致
你看上去他像一种刺猬
但事实上他是有一种
非常开放的心态
他能够把这种技术
跟不同的问题结合起来
那么在大数据里面
可能把一种技术用到极致还不够
你还需要把各种不同的技术
都能够灵活的应用起来
那这里面就涉及到一个问题
我要选择什么样的模型
我选择复杂的模型
还是选择剪刀的模型
我们传统上听说过
一个叫做奥卡姆剃刀原理
这种原理让我们倾向于
选择简单的模型
事实上在大数据刚刚开始的时候
也有一种思维是说
在大数据里面
我用简单的模型
加上更多的数据
是可以比复杂模型
有限的数据做得更好的
所以很多人说
在大数据里面
要用简单的模型
问题是怎么定义这个简单
我们说简单是跟问题要匹配的
是要能够去解释
这些数据的所有模型当中的
最简单的模型
如果你不能解释这个数据
如果你不能很好的
去利用这些数据
那简单
它一定不是一个最好的量度
那么在简单模型里面
人们往往引用的是
谷歌的一个数据分析师
他叫做Peter Norvig
这个分析师大家熟悉吴军的话
他曾经是吴军的老板
他写了一本书非常好
叫做《人工智能一种现代方法》
那么他在前面几年写了一篇文章
叫做The Unreasonable Effectiveness of Data
就说数据具有一种
不可名状的效率
我把更多的数据喂给一个
所谓的简单的模型里以后
这个模型的它的有效性
极大的获得了提升
它超过了一些
传统上复杂的模型
所以大家现在都在说
简单模型好
所以我这里面想要跟大家
分享一下
并不是所有的情况下
都是简单的模型
而且你要去定义什么是简单
是这个模型的公式比较简单
还是模型的特征
它的参数比较简单
往往这些都不意味着同一件事情
你比如说Peter Norvig
他用的例子
他是用了n-gram这样一种模型
来去处理Web分析当中
很多的文本处理方式
n-gram大家都不陌生
这种语言模型
可能在自然语言处理
在云识别当中
也大量使用
他就说这是一种非常简单的模型
那我用更多的web的数据
喂进去以后
发现它的有效性极大的提升
但是n-gram你看公式是很简单
但你看它的特征来说
事实上是相当复杂的
词汇表里面每一个单词
都有可能是它的一个特征
在一个特定的问题里面
他可能他的特征数
跟你的training的data数
是差不多了
所以呢你有更多的数据喂进去
他肯定是能够更好
所以我们在大数据里面呢
我们要去个别问题去个别分析
而有的模型
我喂进去更多的数据没好处
是因为它这个太于简单
那么我需要更复杂的模型
而另外一些模型呢
它可能在小数据量的时候
它overfit
它太复杂了
那么我喂进去更多的数据呢
事实上也能够带来好处
所以我们需要去对问题进行分析
在大数据分析里面
我们需要做到的一个
最重要的目标
就是怎么能够
在数据更多的情况下
我能够获得更好的边际效益
也就是说你越多的数据进来
我这个数据分析的它的一个效率
它的精确度能够更高
这个我刚才已经讲过了
简单模型加上大数据
比复杂模型加上小数据好
我们需要具体问题具体分析
那么在这个数据本身
可能是存在着以模型
单个模型没办法
最好利用的情况下呢
可能你利用多种模型
对它进行分析
再把分析结果通过
像平均这样一种方式
来进行组合
最后呢可能能够获得
更好的分析的精确性
这个在机器学习里面
有很多方法
比如说像boot straping
像bagging 像ensemble
这样一些的方式
事实上这个现在已经成为了
在数据竞赛当中
被往往使用的一种方式
大家应该听说过NetFlix
它有一个百万美金的大奖
那么它的一个大奖的目的就是
希望能够把它电影推荐的
效率提升10%
全世界有几万个人参加这个竞赛
最终就是发现
我单个模型没办法能够去达到
这么一个10%的提升
就是然后他们通过了Ensemble
这样的一种方式
多个模型组合起来
一举突破了10%的这么一个目标
拿到了百万美金的大奖
所以呢大家参加
数据竞赛的时候呢
数据分析竞赛的时候
可以去考虑Ensemble这种方式
Ensemble在现实的世界当中
也并不一定实用
因为像刚才所说的Netflix
这样一个最终获奖的算法
并没有得到实际的使用
因为多种算法的Ensemble
它带来了复杂度的提升
那么这样一种提升
那么使得跟这个10%的比较呢
使得Netflix它并不愿意去付出
这样的更多的计算资源
那在另外一个场景下
IBM的沃森事实上
也是利用了Ensemble这种方式
他对近百种算法进行同时的计算
最后打分获得最终的结果
那么在IBM的
这么一个基础设施上
他认为对一百种算法进行Ensemble
他是可以接受的
所以我们必须得向狐狸那样
去有针对性的去考虑这些问题
还有就是混合模型
大家经常看到对这些机器学习
数据分析的模型有不同的分类
比如说带参的模型和无参的模型
传统上认为带参的模型
非常的只能够适合小数据
而无参的模型
可能对大数据更适合
同样线性的模型
对于小数据可能比较适合一点
而非线性的模型
对大数据更好一点
判定的模型对小数据更适合一点
生成性的模型
对大数据更适合一点
但是问题是在于
往往对大数据更适合的模型呢
他的计算的复杂度非常高
而数据量又大
复杂度越高
往往使得你没办法很好的
去实际的部署这些模型
那这里面很好的方法
就是采用混合的模型
比如说数据本来是多个维度的
是稀疏的
在有些维度事实上是可以
利用传统的无参的线性的模型
而对于有些维度呢
你可以刚才是说对于有些维度
可以使用传统的带参
和线性的模型
而另外一些维度呢
可以使用新的无参的
和非线性的模型
通过这样一种混合模型
来更好的去平衡数据的大
以及模型的复杂度
那么在继续说下去之前呢
我还是想强调一下
虽然我一直在说
比如说线性模型
更适合于小数据
但并不意味着线性
这样一种模型
在大数据的场景下不能用
我可以告诉大家
在一些公司刚刚开始使用
深度学习
来去处理你像传统的广告
这样的一些问题之前
非常大的广告的这样一种计算
都是基于线性模型
你像逻辑回归
大规模的逻辑回归
你像谷歌
刚才预测流感
它就是采用了线性回归
更简单的一种线性模型
谷歌来去预测票房的
它的未来的走向
它也是用的非常简单的
线性的模型
为什么呢
我们刚才强调了
有一类分析是需要可解释性的
而这样一种线性的
带参的模型
它的可解释性非常好
我这个未来票房该怎么走
一定是跟这几样因素是相关的
所以他分析起来就非常好
所以我这里面还是说
大家也不要去忽略了
这些传统的模型
但是传统模型
它不能解决的一个最重要的问题
就是它没办法感知长尾的信号
我们刚才说过了
大数据很重要的
是要倾听每一个个体的声音
而这些个体就是在长尾上面
传统的一些分析模型
它都有一些假设
最典型的就是这样一种
指数的假设
而指数曲线
大家可以知道
它是迅速的降低
最终趋向于零
把这个长长的尾巴是割掉的
那这样呢导致了你没办法去发现
在长尾里面的信号
所以呢你需要一些新的一些
分析方法
新的一些模型的来去解决
这些感知长尾信号的问题
你比如说现在
我们用深度神经网络
就能够很好的去解决这些问题
所有这些都是说
在大数据的场景下面
所有的模型都是错误的
但是我要找到最适合于
这个问题的模型
那么有了模型呢
事实上另外一个要考虑的就是
你这个模型进行学习了以后
我具体在处理的时候
分析的时候
他是不是能够达到
我们四个V当中的一个V
Velocity
那么所以现在我们看到的Interactive query
为什么强调Interactive query
这是基于一个对分析师的
很多工作的这么一个观察
我一个分析师
如果能够在60秒之内
完成一个问题
另外一个分析师
能够在六分钟完成一个问题
他们的差距是不是就是六呢
其实不是的
他们的差距是天壤之别
因为一旦你这个
分析的过程拉长了以后
它会极大的降低
分析师进一步去改进这个模型的
他的动机
极大的降低它的创造力
所以我们要强调快
强调交互式的分析
而有些数据
它是源源不断的进来
所以我们要做流式的计算
你比如说时空的数据
物联网的一些数据
我们要通过流计算的方式来完成
我们传统的分析是一种
叫做离线的学习
也就是说我这个数据
已经进来了
然后呢我对这些数据呢
进行training
进行很长时间的training
大家知道深度学习
往往整个training的过程
花一个月的时间
training训练出来他的模型以后
我来进行学习
但这样一种离线的学习的方式
带来的一个不好的一个方面
就是在于数据随时在变化
我们刚才说这个世界
是一个不确定的这个世界
如果说你的模型还是基于
一个月以前的数据
你肯定是没办法做最好的推理
最好的决策
所以呢我们又强调在线的学习
流式的学习 增量的学习
我一边training
一边来进行做classification
所以这些需要我对模型呢
做异步的更新
我能够做在线的部署
当然了
我们很多模型
它本身的复杂度
是没办法降低的
数据量又这么大
怎么办呢
这时候你就必须得去懂系统
这时候你的传统的分析师
跟基础设施的工程师
必须得坐在一块
去解决 去优化这些问题
我们现在有个名词叫做Big Learning System
就是要强调
我有了这么一个模型和数据以后
我怎么来对它进行加速
加速的一个最重要的方式
就是并行化
或者分布式化
我要做数据的并行
有时候模型非常大的时候
也要做模型的并行
我要对系统进行调优
系统的调优做到极致
是说你所有的随机访问
都会在CPU的缓存里面完成
而对于磁盘的访问都是顺序的
高通量的访问
这需要很多数据调优的知识
你又比如说在大数据里面
我们刚才说大量的数据站
软件站都是基于Java的
而Java里面
它的虚拟机
一个很重要的一个组件
叫做垃圾回收
而大数据呢
它的内存
它的heap又是特别大
所以垃圾回收的代价非常高
那你现在就必须得考虑
怎么来降低垃圾回收
它的代价
这些都是系统调优的能力
这些能力交互式查询也好
流计算 在线学习 增量学习
还有系统调优
都是为了最终能够velocity
那么刚才这么多模型当中
我想有两个东西
值得再进一步的探讨一下
第一个呢就是深度学习
现在已经变得非常火了
大家知道深度学习
最早是从云识别开始的
然后用于图像的理解
再进一步用于自然语言来理解
那这些事实上已经变成了
我们人工智能的标配了
当然现在我们也看到了深度学习
模型本身的进展
从最早的DNN CNN
所谓的卷积神经网络
再到现在的RNN
递归的神经网络
包括现在都大量的在
运用像叫long short term memory
这样的一些方式
来去更好的去处理自然语言
处理语音识别
那下一步呢
可能会从这样一种简单的认知
在扩展到复杂的认知
所谓简单认知
就是我们每个普通人都能够做的
我能够语音识别
我能够图像理解
而更复杂的认知就是
这些专家才能做的
你比如说在医学里面
只有这个专家才能够看得懂的
这一张CT的片子
或者核磁共振的片子
意味着什么
这个东西是一个癌
还是是一个false alarm
所以呢我们现在看到了一个趋势
就是把深度学习
在做领域的特化
把它运用到专家的认知领域里面
另外一个发展呢
就是从认知任务
到非认知的任务
我们上面所有的这些
都是认知的任务
人去干的任务
而下面的话
深度学习可能
可以应用到很多
非认知的任务里面
你比如说百度
把它应用在了搜索广告里面
Netflix把它应用到推荐里面
比如说这个制药的公司
把它运用到drug discovery
机器人把它应用到
机器视觉里面
包括现在自动驾驶汽车
把它运用到
自动驾驶这个场景里面
所有这些非认知的任务
都能够很好的利用深度学习
而且现在有一个所谓的叫
automated lab这么一个说法
也就是说我这个深度学习
可能不是针对一个具体的任务
来去完成的
而是七天24小时
随时的在发生
我这个机器随时在利用深度学习
才去感知这个环境
再去获取知识
那么深度学习的发展呢
跟开源离不开
像Pylearn2, Theano, Caffe这些都是开源的
深度学习的工具
而且不但是这些代码开源
更多的模型都在开源
其实我们去年我们研究院
去年在做深度学习的时候
我们用了开源的Caffe
但是呢很多模型
可能是需要我们根据论文
自己去build这些模型
而现在所有这些模型
都开放了出来
我觉得未来
这样一种Collaborative Open Computer Science的愿景
会极大的促进
包括深度学习在内的科学探索
所谓的Collaborative Open Computer Science
就是促进一种更开放的协作的
这样一种创新
最近大家看到了GitXiv出现
GITXIB
它就是arXiv, Github
还有我们的BBS stackoverflow
等等很多这样工具的整合
你的想法
你的论文放在arXiv
你的代码放在Github里面
数据可能也放在里面
讨论可能是在另外一个地方
而现在呢通过GitXiv
你可以把所有的这些东西
能够整合在一个地方
能够更好的去促进协作的
开放的计算机科学
除了深度学习之外
另外一个值得去讲的
叫做Sparse Coding
说实话这个东西
远远的超过了我原来对它的看法
这张slide是从哈佛的
孔祥重教授
H·T·Kung那边拿来的
他把一种传统的数据表示的方法
Sparse Coding
跟现在的一些分类的
一些机器学习的方法结合起来
发现它特别能够适用于
一些信噪比特别低
或者是数据的veracity
数据的真实性非常差的场景里面
而且它把Sparse Coding应用到了
很多不同的领域
大家可以看到
他在14年 15年
发表了很多的论文
都是利用Sparse Coding
他解决了像比如说Twitter geolocation
这样的一种问题
facial emotion classification的问题
或者是你可穿戴设备
你测到的这个数据的
它的一个理解的问题
或者是你无线通讯
你这个link-layer
他发生很多fluctuation的问题
image object classification的问题
等等等等很多很多的问题
极大的拓展了这样一种模型
它的一个应用的范围
所以这也是我非常推荐
大家能够进一步的去
深入的去探讨的
那么大数据情况下呢
我们往往会去讨论一个
标注数据的问题
我这个传统的机器学习
需要对数据进行标注
那么当然现在我们大数据里面
现在强调了unsupervised learning
非监督学习
非监督学习是不需要标注数据的
传统的机器学习的方法
也有unsupervised
你比如说聚类
那现在像深度学习
这样的一些新的方法
它能够更好的自动的去学习特征
在没有标注数据的前提下
能够做好很好的工作
当然还有很多的
其他的一些机器学习的方法
是需要标注数据
你比如说传统的supervised learning
大家可以看这边的举了几个例子
这个是从吴文达那边拿来的
那么传统的supervised classification
你需要大象的很多的标注数据
需要犀牛的很多的标注数据
这样你才能够让你的模型
能够更好的发挥作用
但现在已经出现了
所谓的semi-supervised learning
什么叫semi-supervised learning
你只要有一小部分标注数据
大象的犀牛的就行了
我再附之于一些未标注的数据
也能够达到很好的
机器学习的效果
那么现在又有了所谓的transfer learning
这个是香港杨强教授
他做出了杰出贡献的一种做法
大家可以看到
他除了大象和犀牛的
标注数据之外
他也提供了一些像羚羊 马
这样的标注数据
利用这样一些
其他领域的标注数据
来帮助你这个领域的学习
这就是我们所谓的举一反三
叫做transfer learning
当然还有一种叫做self-taught learning
你有一些标注数据
还有一些完全不相关的一些数据
来self-taught learning
当然这种是吴文达
好多年前在做的
最近的进展不是特别大
但上面这几种semi-supervised learning, transfer learning
还有unsupervised learning
实际上在大数据里面
得到了很广泛的应用
那么在整个这个过程当中
我们要去分析一下人的角色
人在这么一个
数据分析的过程当中
应该起到一个什么样的作用
我这里面特别想引用
海银资本的王煜全老师
他提出的一个词叫做Human Machine Intelligence
我们传统上一直是说Machine Intelligence
现在叫Human Machine Intelligence
什么意思
就说在现在
这种大数据的时代里面
我这个人能够利用机器
来实现我的目标
来完成我的任务的Intelligence
人怎么能够更好的去利用机器
利用工具
是让在整个的计算机
科学的发展过程当中
人的角色事实上
是不停的是在被弱化的
在机器学习里面也一样
传统的数据分析里面
很重要的一个步骤
决定了你未来机器学习
你的数据分析
是不是能够达到最好的结果的
一个很重要的因素
叫做特征工程
feature engineering
也就是说我们要靠一支
非常有经验的工程师团队
来去人工的去抽取这些特征
去优化这些特征
使得它能够最好的跟我这个模型
能够表述我这个问题
而现在呢
事实上我们发现
人工的特征工程
它事实上有很多的限制
我往往做了几个月以后
它的下面的边际效益
就非常低了
而我们现在深度学习这样的一种
非监督的学习方法
它能够自动的去学习
从数据当中抽取出来的特征
所以我们更多的可以去依赖工具
那是不是同样
我还有一个例子
像MLBase或者VizDeck
这样的一些工具
它能够自动化的做分析
能够选择最好的模型
和可视化的方式
这是不是意味着我们人
我们数据分析师
会丢失工作呢
未必
如果说我们的人跟机器
能够更好的去搭配
往往能够获得最佳的性能
就像现在我们计算机的
国际象棋战胜了
人类的国际象棋大师
但是现在最厉害的倒并不是说
这个计算机超级计算机
而是人跟一台小小的计算机
能够配合起来
事实上能够打败这个超级计算机
所以呢我们数据分析师
也要跟工具 跟机器
能够配合起来
达到最佳的性能
比如说这里面我们提的一个例子
叫做Exploratory analytics/visualization
也就是说我不是让工具一次性的
对这个数据进行分析
而是我人先提出一个问题
然后让工具进行分析
然后人根据这个结果
进一步的去refine你的问题
或者进一步的提出新的问题
循环往复的exploratory
叫探索性的去分析
而在这个过程当中
人的角色是不可或缺的
而在一些现在一些
新的一些大数据的问题当中
可能需要大规模的人跟人
人跟机器的协作的分析
我这里面举一些例子
比如说Kaggle
它是一个把数据分析外包的
这么一个平台
往往我企业可以把一个问题
扔到这个平台上
然后成千上万的数据分析师
一起来去解决这个问题
而这个东西
一定是远远超过单个机器
它所能够提交的性能
又比如说众包式的解决问题
像CrowdDB
就是这么一个问题
大家知道我们数据库里面
最难解决的一个问题
叫做DB Hard的一个问题是什么
就是数据的字段
本身的语意是有歧义的
或者是模糊的
应该表述IBM
有的字段是IBM
有的字段是蓝色巨人
有的字段是国际商业机器公司
你很难去把这些字段
归一化成为同样的语意
那碰到这样的DB Hard问题
Berkely他就做了
这么一个CrowdDB
通过众包的方式
来做这么一个语义的
归一化的问题
像DataHub
它提供了一个很好的数据存储
和原地分析的平台
让很多不同数据分析师
能够进行协作
但一旦协作
会产生什么样的问题呢
大家知道我们GitHub
大规模的分布式的开发
很重要的一个问题就是
版本控制的问题
所以DataHub它也提供了
数据的版本控制
还有现在一个非常热门的词
叫做人类计算
像Duolingo
就是这么一个人类计算的
一个典型的案例
Duolingo是谁做的呢
是CMU 卡内基梅隆的
一个教授
他叫做路易斯·冯·安
我非常推荐大家
去可以看看他的论文
这个人很有趣
他最早做了一个工具
这个工具叫做ReCapture
事实上我们每个人
每天都在不知不觉当中
在使用它
大家知道我们现在网站登录
我要输入我的用户名密码
还有一个是校验码
这个校验码
事实上是为了防止
大量的机器进行登录
以至于对这个网站进行了攻击
是吧
那么这个校验码就是采用了
机器没办法识别出来的东西
让你人去识别
然后来去验证
这个路易斯·冯·安
就是发明了这么一个东西
但是后来他就非常后悔
为什么呢
因为每个人每天都要花几秒钟
去再输入校验码的话
全世界范围内
有大量时间的浪费
后来呢他这个技术被谷歌采用了
谷歌他想要digitize
所有的书嘛
他想要把几千万本书
全都数字化
那么绝大多数
他可以通过OCR
通过机器的字符识别
来去完成
但是很多书它是有褶皱的
有污痕的
很多东西
事实上OCR识别不出来
怎么办呢
他就把这些单词
作为校验码
发给亿万计的人去
让人工去识别
所以他就是一个
最原始的人类计算
那么后面路易斯·冯·安
又发明了很多新的
人类计算的方法
你比如说我们刚才说
机器学习当中
很大的一个问题
就缺乏标注数据
那我可以通过
这种人类计算的方式
来让大量的人
参与来去标注这个数据
他发明了一个游戏
这个游戏就是让参与者
去对这个图片进行打标签
这样就完成了数据标记的问题
包括这个Duolingo
Duolingo是一个外语学习的平台
我们每个人可以上去
每天学习一些外语
学习的过程当中
就是我要对一个句子进行翻译
比如说我要学习英文
我是中国人
那我可能要把中文翻译成英文
而这些翻译题是哪来的呢
可以从整个互联网上过来
那这样事实上学习的过程
就是对互联网进行翻译的过程
它的威力有多大呢
我给大家举一个例子
一百万个用户
他学习80个小时
就能够把Wikipedia
从英文翻译到西班牙文
大家想想Wikipedia有多大
一百万个用户
学习80个小时
就能够把完整的Wikipedia
从英文翻译到西班牙文
所以人类计算
所以大家可以看到
很多这样的工作
事实上是机器不能完成的
可以通过人和机器的配合
通过人和机器的协作
通过大规模的人跟人的协作
来去完成
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接