数据的分析慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

所以我讲了数据的质量

数据的表示

而这些呢都是数据准备过程

下一个阶段就是我们数据分析师

最关心的过程分析

说到数据分析

这个我们每一个数据分析师

都感觉跟不上时代变化的潮流

这个是来自于SAS一张图

大家可以看到

在这里面有很多不同的圈

最早的数据分析

对于我们数据分析师来说

不就是数据库嘛

我用sql语言

写一些查询写一些分析

到后面产生了统计学的理论

统计学它是从数学这边过来

不是从computer science那边过来

它通过统计学来去验证我的参数

去验证我的模型

去估计我的参数

接着呢machine learning发展起来了

machine learning它怎么来的呢

又是从大的人工智能

这个领域过来的

然后人工智能大家知道最早

可能是一些问题求解

接着可能是一些专家系统

基于规则的人工智能

而人工智能当中

两个大的一个进展

一个就是模式识别

他能够针对

甚至是一些非结构化数据

来去发现里面的模式

而另外一个就是机器学习

我有一部分数据了以后

我能够根据这些标记的数据

能够去学习到

这整个数据的规律出来

所以我们现在说的数据挖掘

Data Mining

事实上就是三个学科的交叉

数据库机器学习和统计

这三个的交叉

大家可以看到

这个Data Mining在中间

而现在大数据阶段

我们发现Data Mining都不够了

因为Data Mining出来的

intelligence不够

我们现在要KDD

所以呢又有一个更大的框

叫KDD

叫Knowledge Discovery Mining等等

所以呢它把一个

用一个更大的框

把它能够框下来

而在另一边大家可以看到

我这个传统的AI可能也不够了

现在又有新的Neurocomputing

所谓Neurocomputing

大家可以想象成

我们所谓的神经网络

人工的神经网络

或者生物的神经网络

或者是像我们现在sparse coding

这样一种从神经元的工作机制

启发出来的一些新的

数据分析手段

所有这些形成了我们现在看到的

这个数据分析技术的landscape

对我们来说挑战非常之大

当然我们光懂数据分析还不行

这个数据分析最终还是一种

计算的形态体现出来

所以我们做计算的

做系统的人

还是要跟做数据分析的人

需要来一起去解决这些问题

那么对于我们普通的

数据分析师来说

第一件事情要做的就是

检查一下我自己的装备

是不是够用

那么现在数据分析当中

使用的四种最流行的语言呢

就是SAS R语言 SQL Python

当然它们可能也有不同的侧重

比如说R语言

可能比较偏向于统计一些

SQL它可能是比较偏向于

对数据库的查询分析

Python呢

它可能对机器学习比较适合

那总体上来说

所有这些都来去应付

我们现在数据分析当中

碰到的两大类的难题

一类的难题就是基于查询的分析

而另外一类难题呢

就是更复杂的基于像线性代数

这样的一些模型的分析

我相信很多数据分析师

已经拥有了这样一件

或者是几件的武器

那么这些武器能不能应用到

大数据的场景里面呢

可能现在我们更多的分析师

还需要去学习一些新的一些武器

比如说Java

比如说Scala

因为Java是现在我们

大数据的基础设施的

一个通用的一个语言

Scala大家知道

Spark就是用Scala写的

那么你要在处理大数据的

可视化的时候

你可能还需要学习一些新的语言

你比如说现在非常流行的

一种可视化的库

叫做D3

它是用JavaScript来写的

所以你可能还需要学习JavaScript

把所有这些组成了

我们数据分析师的武器库

那么比较好的一点就是

现在所有这些语言

它都有了下层的

大数据基础设施的支撑

使得你不用改语言

不用改你的程序

能够自然而然的去处理

更大量的数据

比如说现在我们听说过

SQL on Big Data

或者叫Big SQL

你像SQL可以运作在

Cloudera的IMPALA上面

可以运作在

Apache的Hive上面

可以运作在presto等等等等

所有这些

都是能够对SQL语言

进行解释和处理的

大数据的基础设施

Python

它可以运行在Spark上面

SAS和R语言

现在也能够运行在Hadoop MapReduce 和 Spark上

这对于我们分析师来说

绝对是一个好消息

还有更好的消息

现在我们越来越看到

机器学习流水线这么一个名词

叫ML Pipeline

所谓流水线就是把数据的采集

清洗特征提取分析

可视化等等

把整个流水线都放到一个站上面

让大家能够一站式的

能够去获得这样一种能力

还有一个好消息

我们看到现在大数据

越来越愿意去拥抱云的世界

最早的时候

大数据和云似乎是格格不入的

因为谁愿意把自己的数据

尤其是拥有敏感信息的一些数据

放到云里面去呢

大家知道大数据

非常有名的一家公司叫Cloudera

Cloudera什么意思

Cloud Era

也就是云时代

它在创建这家公司的时候

在2008年创建这公司的时候

他是想我这数据

能不能放到云里面呢

但事实上现在已经过去了七八年

过了七八年现在大数据跟云的

这样一种姻缘才开始发生

它发生有它的背景

有它的原因

那么大家可以看到

现在在幻灯片上面

列出来的是很多很多

不同的大数据的工具

你可能数据的存储需要HDFS

也需要MySQL

数据的处理的话

可能是最早是ETL

然后做查询分析

做更复杂的像MapReduce

像R这样的分析

而这些所有的能力

都是被分布在不同的工具里面

所以有人开玩笑

这大数据站就是一动物园

为什么说动物园呢

因为大数据的不同的工具

它的吉祥物都是不同的动物

比如说Hadoop

它的吉祥物是一头小象

那Hive它是做查询分析的

它吉祥物是蜜蜂蜂巢

像IMPALA是羚羊

像MySQL是海豚

所以大家说这个大数据的处理站

就是一动物园

而且是你必须得到不同的

动物园里面去访问不同的动物区

而现在有了云以后呢

我把所有的东西都放到一起

这样你就可以一站式的获得

所有的能力

你可以在一个地方

把所有的动物全都访问了

这样对于我们大数据未来的部署

带来了极大好处

所以呢我们数据分析师

也要去拥抱云的世界

所以我刚才讲的这些东西

对于我们数据分析师来说

都是利好的消息

我们传统的工具都能够

自然而然的支持大数据了

我们Machine Learing Pipeline都可以在一起

一站式的获得

而所有这些工具

都可以在云里面获得了

这些都是好消息

但是我想强调的是

有这些东西

并不能保证我们能够成为

大数据时代的一个很好的分析师

因为在分析技术本身

我们需要进行升级

这里面想要引用

一个统计学大师的话

他是说所有的模型都是错误的

但有一些呢是有用的

统计学分析大师

他叫George Box

所以在我们大数据时代

简直是太正确了

为什么呢

因为我们大数据太复杂

太多样化

它需要不同的模型去处理

那这里面就涉及到一个比喻

这个比喻是一个叫以赛亚的

这么一个哲学家他说的

他把人分成两类

一类是刺猬

一类是狐狸

刺猬是什么呢

它是一招鲜吃遍天

它拥有了一个技术

它把自己封闭了起来

它永远用这么一个技术

去处理所有的问题

而狐狸呢

它是更开放的

它愿意用不同的技术

去处理不同的问题

所谓的用一把钥匙去开一把锁

而用另外一把钥匙开另外一把锁

在大数据时代

我们该做刺猬还是狐狸呢

我觉得我们如果能够掌握

一项非常好的技术

把它用到极致是非常有用的

我给大家举个例子

在美国有个非常著名的分析师

叫Nate Silver

他写了一本书

叫做《信号与噪声》

大家可以买来看

他非常擅长于使用贝叶斯

这么一个工具

他把这个工具用来去预测

奥斯卡的获奖者

去预测美国总统的选举

去预测美国议员的选举

预测棒球

他把这个工具用到了极致

你看上去他像一种刺猬

但事实上他是有一种

非常开放的心态

他能够把这种技术

跟不同的问题结合起来

那么在大数据里面

可能把一种技术用到极致还不够

你还需要把各种不同的技术

都能够灵活的应用起来

那这里面就涉及到一个问题

我要选择什么样的模型

我选择复杂的模型

还是选择剪刀的模型

我们传统上听说过

一个叫做奥卡姆剃刀原理

这种原理让我们倾向于

选择简单的模型

事实上在大数据刚刚开始的时候

也有一种思维是说

在大数据里面

我用简单的模型

加上更多的数据

是可以比复杂模型

有限的数据做得更好的

所以很多人说

在大数据里面

要用简单的模型

问题是怎么定义这个简单

我们说简单是跟问题要匹配的

是要能够去解释

这些数据的所有模型当中的

最简单的模型

如果你不能解释这个数据

如果你不能很好的

去利用这些数据

那简单

它一定不是一个最好的量度

那么在简单模型里面

人们往往引用的是

谷歌的一个数据分析师

他叫做Peter Norvig

这个分析师大家熟悉吴军的话

他曾经是吴军的老板

他写了一本书非常好

叫做《人工智能一种现代方法》

那么他在前面几年写了一篇文章

叫做The Unreasonable Effectiveness of Data

就说数据具有一种

不可名状的效率

我把更多的数据喂给一个

所谓的简单的模型里以后

这个模型的它的有效性

极大的获得了提升

它超过了一些

传统上复杂的模型

所以大家现在都在说

简单模型好

所以我这里面想要跟大家

分享一下

并不是所有的情况下

都是简单的模型

而且你要去定义什么是简单

是这个模型的公式比较简单

还是模型的特征

它的参数比较简单

往往这些都不意味着同一件事情

你比如说Peter Norvig

他用的例子

他是用了n-gram这样一种模型

来去处理Web分析当中

很多的文本处理方式

n-gram大家都不陌生

这种语言模型

可能在自然语言处理

在云识别当中

也大量使用

他就说这是一种非常简单的模型

那我用更多的web的数据

喂进去以后

发现它的有效性极大的提升

但是n-gram你看公式是很简单

但你看它的特征来说

事实上是相当复杂的

词汇表里面每一个单词

都有可能是它的一个特征

在一个特定的问题里面

他可能他的特征数

跟你的training的data数

是差不多了

所以呢你有更多的数据喂进去

他肯定是能够更好

所以我们在大数据里面呢

我们要去个别问题去个别分析

而有的模型

我喂进去更多的数据没好处

是因为它这个太于简单

那么我需要更复杂的模型

而另外一些模型呢

它可能在小数据量的时候

它overfit

它太复杂了

那么我喂进去更多的数据呢

事实上也能够带来好处

所以我们需要去对问题进行分析

在大数据分析里面

我们需要做到的一个

最重要的目标

就是怎么能够

在数据更多的情况下

我能够获得更好的边际效益

也就是说你越多的数据进来

我这个数据分析的它的一个效率

它的精确度能够更高

这个我刚才已经讲过了

简单模型加上大数据

比复杂模型加上小数据好

我们需要具体问题具体分析

那么在这个数据本身

可能是存在着以模型

单个模型没办法

最好利用的情况下呢

可能你利用多种模型

对它进行分析

再把分析结果通过

像平均这样一种方式

来进行组合

最后呢可能能够获得

更好的分析的精确性

这个在机器学习里面

有很多方法

比如说像boot straping

像bagging 像ensemble

这样一些的方式

事实上这个现在已经成为了

在数据竞赛当中

被往往使用的一种方式

大家应该听说过NetFlix

它有一个百万美金的大奖

那么它的一个大奖的目的就是

希望能够把它电影推荐的

效率提升10%

全世界有几万个人参加这个竞赛

最终就是发现

我单个模型没办法能够去达到

这么一个10%的提升

就是然后他们通过了Ensemble

这样的一种方式

多个模型组合起来

一举突破了10%的这么一个目标

拿到了百万美金的大奖

所以呢大家参加

数据竞赛的时候呢

数据分析竞赛的时候

可以去考虑Ensemble这种方式

Ensemble在现实的世界当中

也并不一定实用

因为像刚才所说的Netflix

这样一个最终获奖的算法

并没有得到实际的使用

因为多种算法的Ensemble

它带来了复杂度的提升

那么这样一种提升

那么使得跟这个10%的比较呢

使得Netflix它并不愿意去付出

这样的更多的计算资源

那在另外一个场景下

IBM的沃森事实上

也是利用了Ensemble这种方式

他对近百种算法进行同时的计算

最后打分获得最终的结果

那么在IBM的

这么一个基础设施上

他认为对一百种算法进行Ensemble

他是可以接受的

所以我们必须得向狐狸那样

去有针对性的去考虑这些问题

还有就是混合模型

大家经常看到对这些机器学习

数据分析的模型有不同的分类

比如说带参的模型和无参的模型

传统上认为带参的模型

非常的只能够适合小数据

而无参的模型

可能对大数据更适合

同样线性的模型

对于小数据可能比较适合一点

而非线性的模型

对大数据更好一点

判定的模型对小数据更适合一点

生成性的模型

对大数据更适合一点

但是问题是在于

往往对大数据更适合的模型呢

他的计算的复杂度非常高

而数据量又大

复杂度越高

往往使得你没办法很好的

去实际的部署这些模型

那这里面很好的方法

就是采用混合的模型

比如说数据本来是多个维度的

是稀疏的

在有些维度事实上是可以

利用传统的无参的线性的模型

而对于有些维度呢

你可以刚才是说对于有些维度

可以使用传统的带参

和线性的模型

而另外一些维度呢

可以使用新的无参的

和非线性的模型

通过这样一种混合模型

来更好的去平衡数据的大

以及模型的复杂度

那么在继续说下去之前呢

我还是想强调一下

虽然我一直在说

比如说线性模型

更适合于小数据

但并不意味着线性

这样一种模型

在大数据的场景下不能用

我可以告诉大家

在一些公司刚刚开始使用

深度学习

来去处理你像传统的广告

这样的一些问题之前

非常大的广告的这样一种计算

都是基于线性模型

你像逻辑回归

大规模的逻辑回归

你像谷歌

刚才预测流感

它就是采用了线性回归

更简单的一种线性模型

谷歌来去预测票房的

它的未来的走向

它也是用的非常简单的

线性的模型

为什么呢

我们刚才强调了

有一类分析是需要可解释性的

而这样一种线性的

带参的模型

它的可解释性非常好

我这个未来票房该怎么走

一定是跟这几样因素是相关的

所以他分析起来就非常好

所以我这里面还是说

大家也不要去忽略了

这些传统的模型

但是传统模型

它不能解决的一个最重要的问题

就是它没办法感知长尾的信号

我们刚才说过了

大数据很重要的

是要倾听每一个个体的声音

而这些个体就是在长尾上面

传统的一些分析模型

它都有一些假设

最典型的就是这样一种

指数的假设

而指数曲线

大家可以知道

它是迅速的降低

最终趋向于零

把这个长长的尾巴是割掉的

那这样呢导致了你没办法去发现

在长尾里面的信号

所以呢你需要一些新的一些

分析方法

新的一些模型的来去解决

这些感知长尾信号的问题

你比如说现在

我们用深度神经网络

就能够很好的去解决这些问题

所有这些都是说

在大数据的场景下面

所有的模型都是错误的

但是我要找到最适合于

这个问题的模型

那么有了模型呢

事实上另外一个要考虑的就是

你这个模型进行学习了以后

我具体在处理的时候

分析的时候

他是不是能够达到

我们四个V当中的一个V

Velocity

那么所以现在我们看到的Interactive query

为什么强调Interactive query

这是基于一个对分析师的

很多工作的这么一个观察

我一个分析师

如果能够在60秒之内

完成一个问题

另外一个分析师

能够在六分钟完成一个问题

他们的差距是不是就是六呢

其实不是的

他们的差距是天壤之别

因为一旦你这个

分析的过程拉长了以后

它会极大的降低

分析师进一步去改进这个模型的

他的动机

极大的降低它的创造力

所以我们要强调快

强调交互式的分析

而有些数据

它是源源不断的进来

所以我们要做流式的计算

你比如说时空的数据

物联网的一些数据

我们要通过流计算的方式来完成

我们传统的分析是一种

叫做离线的学习

也就是说我这个数据

已经进来了

然后呢我对这些数据呢

进行training

进行很长时间的training

大家知道深度学习

往往整个training的过程

花一个月的时间

training训练出来他的模型以后

我来进行学习

但这样一种离线的学习的方式

带来的一个不好的一个方面

就是在于数据随时在变化

我们刚才说这个世界

是一个不确定的这个世界

如果说你的模型还是基于

一个月以前的数据

你肯定是没办法做最好的推理

最好的决策

所以呢我们又强调在线的学习

流式的学习增量的学习

我一边training

一边来进行做classification

所以这些需要我对模型呢

做异步的更新

我能够做在线的部署

当然了

我们很多模型

它本身的复杂度

是没办法降低的

数据量又这么大

怎么办呢

这时候你就必须得去懂系统

这时候你的传统的分析师

跟基础设施的工程师

必须得坐在一块

去解决去优化这些问题

我们现在有个名词叫做Big Learning System

就是要强调

我有了这么一个模型和数据以后

我怎么来对它进行加速

加速的一个最重要的方式

就是并行化

或者分布式化

我要做数据的并行

有时候模型非常大的时候

也要做模型的并行

我要对系统进行调优

系统的调优做到极致

是说你所有的随机访问

都会在CPU的缓存里面完成

而对于磁盘的访问都是顺序的

高通量的访问

这需要很多数据调优的知识

你又比如说在大数据里面

我们刚才说大量的数据站

软件站都是基于Java的

而Java里面

它的虚拟机

一个很重要的一个组件

叫做垃圾回收

而大数据呢

它的内存

它的heap又是特别大

所以垃圾回收的代价非常高

那你现在就必须得考虑

怎么来降低垃圾回收

它的代价

这些都是系统调优的能力

这些能力交互式查询也好

流计算在线学习增量学习

还有系统调优

都是为了最终能够velocity

那么刚才这么多模型当中

我想有两个东西

值得再进一步的探讨一下

第一个呢就是深度学习

现在已经变得非常火了

大家知道深度学习

最早是从云识别开始的

然后用于图像的理解

再进一步用于自然语言来理解

那这些事实上已经变成了

我们人工智能的标配了

当然现在我们也看到了深度学习

模型本身的进展

从最早的DNN CNN

所谓的卷积神经网络

再到现在的RNN

递归的神经网络

包括现在都大量的在

运用像叫long short term memory

这样的一些方式

来去更好的去处理自然语言

处理语音识别

那下一步呢

可能会从这样一种简单的认知

在扩展到复杂的认知

所谓简单认知

就是我们每个普通人都能够做的

我能够语音识别

我能够图像理解

而更复杂的认知就是

这些专家才能做的

你比如说在医学里面

只有这个专家才能够看得懂的

这一张CT的片子

或者核磁共振的片子

意味着什么

这个东西是一个癌

还是是一个false alarm

所以呢我们现在看到了一个趋势

就是把深度学习

在做领域的特化

把它运用到专家的认知领域里面

另外一个发展呢

就是从认知任务

到非认知的任务

我们上面所有的这些

都是认知的任务

人去干的任务

而下面的话

深度学习可能

可以应用到很多

非认知的任务里面

你比如说百度

把它应用在了搜索广告里面

Netflix把它应用到推荐里面

比如说这个制药的公司

把它运用到drug discovery

机器人把它应用到

机器视觉里面

包括现在自动驾驶汽车

把它运用到

自动驾驶这个场景里面

所有这些非认知的任务

都能够很好的利用深度学习

而且现在有一个所谓的叫

automated lab这么一个说法

也就是说我这个深度学习

可能不是针对一个具体的任务

来去完成的

而是七天24小时

随时的在发生

我这个机器随时在利用深度学习

才去感知这个环境

再去获取知识

那么深度学习的发展呢

跟开源离不开

像Pylearn2, Theano, Caffe这些都是开源的

深度学习的工具

而且不但是这些代码开源

更多的模型都在开源

其实我们去年我们研究院

去年在做深度学习的时候

我们用了开源的Caffe

但是呢很多模型

可能是需要我们根据论文

自己去build这些模型

而现在所有这些模型

都开放了出来

我觉得未来

这样一种Collaborative Open Computer Science的愿景

会极大的促进

包括深度学习在内的科学探索

所谓的Collaborative Open Computer Science

就是促进一种更开放的协作的

这样一种创新

最近大家看到了GitXiv出现

GITXIB

它就是arXiv, Github

还有我们的BBS stackoverflow

等等很多这样工具的整合

你的想法

你的论文放在arXiv

你的代码放在Github里面

数据可能也放在里面

讨论可能是在另外一个地方

而现在呢通过GitXiv

你可以把所有的这些东西

能够整合在一个地方

能够更好的去促进协作的

开放的计算机科学

除了深度学习之外

另外一个值得去讲的

叫做Sparse Coding

说实话这个东西

远远的超过了我原来对它的看法

这张slide是从哈佛的

孔祥重教授

H·T·Kung那边拿来的

他把一种传统的数据表示的方法

Sparse Coding

跟现在的一些分类的

一些机器学习的方法结合起来

发现它特别能够适用于

一些信噪比特别低

或者是数据的veracity

数据的真实性非常差的场景里面

而且它把Sparse Coding应用到了

很多不同的领域

大家可以看到

他在14年 15年

发表了很多的论文

都是利用Sparse Coding

他解决了像比如说Twitter geolocation

这样的一种问题

facial emotion classification的问题

或者是你可穿戴设备

你测到的这个数据的

它的一个理解的问题

或者是你无线通讯

你这个link-layer

他发生很多fluctuation的问题

image object classification的问题

等等等等很多很多的问题

极大的拓展了这样一种模型

它的一个应用的范围

所以这也是我非常推荐

大家能够进一步的去

深入的去探讨的

那么大数据情况下呢

我们往往会去讨论一个

标注数据的问题

我这个传统的机器学习

需要对数据进行标注

那么当然现在我们大数据里面

现在强调了unsupervised learning

非监督学习

非监督学习是不需要标注数据的

传统的机器学习的方法

也有unsupervised

你比如说聚类

那现在像深度学习

这样的一些新的方法

它能够更好的自动的去学习特征

在没有标注数据的前提下

能够做好很好的工作

当然还有很多的

其他的一些机器学习的方法

是需要标注数据

你比如说传统的supervised learning

大家可以看这边的举了几个例子

这个是从吴文达那边拿来的

那么传统的supervised classification

你需要大象的很多的标注数据

需要犀牛的很多的标注数据

这样你才能够让你的模型

能够更好的发挥作用

但现在已经出现了

所谓的semi-supervised learning

什么叫semi-supervised learning

你只要有一小部分标注数据

大象的犀牛的就行了

我再附之于一些未标注的数据

也能够达到很好的

机器学习的效果

那么现在又有了所谓的transfer learning

这个是香港杨强教授

他做出了杰出贡献的一种做法

大家可以看到

他除了大象和犀牛的

标注数据之外

他也提供了一些像羚羊马

这样的标注数据

利用这样一些

其他领域的标注数据

来帮助你这个领域的学习

这就是我们所谓的举一反三

叫做transfer learning

当然还有一种叫做self-taught learning

你有一些标注数据

还有一些完全不相关的一些数据

来self-taught learning

当然这种是吴文达

好多年前在做的

最近的进展不是特别大

但上面这几种semi-supervised learning, transfer learning

还有unsupervised learning

实际上在大数据里面

得到了很广泛的应用

那么在整个这个过程当中

我们要去分析一下人的角色

人在这么一个

数据分析的过程当中

应该起到一个什么样的作用

我这里面特别想引用

海银资本的王煜全老师

他提出的一个词叫做Human Machine Intelligence

我们传统上一直是说Machine Intelligence

现在叫Human Machine Intelligence

什么意思

就说在现在

这种大数据的时代里面

我这个人能够利用机器

来实现我的目标

来完成我的任务的Intelligence

人怎么能够更好的去利用机器

利用工具

是让在整个的计算机

科学的发展过程当中

人的角色事实上

是不停的是在被弱化的

在机器学习里面也一样

传统的数据分析里面

很重要的一个步骤

决定了你未来机器学习

你的数据分析

是不是能够达到最好的结果的

一个很重要的因素

叫做特征工程

feature engineering

也就是说我们要靠一支

非常有经验的工程师团队

来去人工的去抽取这些特征

去优化这些特征

使得它能够最好的跟我这个模型

能够表述我这个问题

而现在呢

事实上我们发现

人工的特征工程

它事实上有很多的限制

我往往做了几个月以后

它的下面的边际效益

就非常低了

而我们现在深度学习这样的一种

非监督的学习方法

它能够自动的去学习

从数据当中抽取出来的特征

所以我们更多的可以去依赖工具

那是不是同样

我还有一个例子

像MLBase或者VizDeck

这样的一些工具

它能够自动化的做分析

能够选择最好的模型

和可视化的方式

这是不是意味着我们人

我们数据分析师

会丢失工作呢

未必

如果说我们的人跟机器

能够更好的去搭配

往往能够获得最佳的性能

就像现在我们计算机的

国际象棋战胜了

人类的国际象棋大师

但是现在最厉害的倒并不是说

这个计算机超级计算机

而是人跟一台小小的计算机

能够配合起来

事实上能够打败这个超级计算机

所以呢我们数据分析师

也要跟工具跟机器

能够配合起来

达到最佳的性能

比如说这里面我们提的一个例子

叫做Exploratory analytics/visualization

也就是说我不是让工具一次性的

对这个数据进行分析

而是我人先提出一个问题

然后让工具进行分析

然后人根据这个结果

进一步的去refine你的问题

或者进一步的提出新的问题

循环往复的exploratory

叫探索性的去分析

而在这个过程当中

人的角色是不可或缺的

而在一些现在一些

新的一些大数据的问题当中

可能需要大规模的人跟人

人跟机器的协作的分析

我这里面举一些例子

比如说Kaggle

它是一个把数据分析外包的

这么一个平台

往往我企业可以把一个问题

扔到这个平台上

然后成千上万的数据分析师

一起来去解决这个问题

而这个东西

一定是远远超过单个机器

它所能够提交的性能

又比如说众包式的解决问题

像CrowdDB

就是这么一个问题

大家知道我们数据库里面

最难解决的一个问题

叫做DB Hard的一个问题是什么

就是数据的字段

本身的语意是有歧义的

或者是模糊的

应该表述IBM

有的字段是IBM

有的字段是蓝色巨人

有的字段是国际商业机器公司

你很难去把这些字段

归一化成为同样的语意

那碰到这样的DB Hard问题

Berkely他就做了

这么一个CrowdDB

通过众包的方式

来做这么一个语义的

归一化的问题

像DataHub

它提供了一个很好的数据存储

和原地分析的平台

让很多不同数据分析师

能够进行协作

但一旦协作

会产生什么样的问题呢

大家知道我们GitHub

大规模的分布式的开发

很重要的一个问题就是

版本控制的问题

所以DataHub它也提供了

数据的版本控制

还有现在一个非常热门的词

叫做人类计算

像Duolingo

就是这么一个人类计算的

一个典型的案例

Duolingo是谁做的呢

是CMU 卡内基梅隆的

一个教授

他叫做路易斯·冯·安

我非常推荐大家

去可以看看他的论文

这个人很有趣

他最早做了一个工具

这个工具叫做ReCapture

事实上我们每个人

每天都在不知不觉当中

在使用它

大家知道我们现在网站登录

我要输入我的用户名密码

还有一个是校验码

这个校验码

事实上是为了防止

大量的机器进行登录

以至于对这个网站进行了攻击

是吧

那么这个校验码就是采用了

机器没办法识别出来的东西

让你人去识别

然后来去验证

这个路易斯·冯·安

就是发明了这么一个东西

但是后来他就非常后悔

为什么呢

因为每个人每天都要花几秒钟

去再输入校验码的话

全世界范围内

有大量时间的浪费

后来呢他这个技术被谷歌采用了

谷歌他想要digitize

所有的书嘛

他想要把几千万本书

全都数字化

那么绝大多数

他可以通过OCR

通过机器的字符识别

来去完成

但是很多书它是有褶皱的

有污痕的

很多东西

事实上OCR识别不出来

怎么办呢

他就把这些单词

作为校验码

发给亿万计的人去

让人工去识别

所以他就是一个

最原始的人类计算

那么后面路易斯·冯·安

又发明了很多新的

人类计算的方法

你比如说我们刚才说

机器学习当中

很大的一个问题

就缺乏标注数据

那我可以通过

这种人类计算的方式

来让大量的人

参与来去标注这个数据

他发明了一个游戏

这个游戏就是让参与者

去对这个图片进行打标签

这样就完成了数据标记的问题

包括这个Duolingo

Duolingo是一个外语学习的平台

我们每个人可以上去

每天学习一些外语

学习的过程当中

就是我要对一个句子进行翻译

比如说我要学习英文

我是中国人

那我可能要把中文翻译成英文

而这些翻译题是哪来的呢

可以从整个互联网上过来

那这样事实上学习的过程

就是对互联网进行翻译的过程

它的威力有多大呢

我给大家举一个例子

一百万个用户

他学习80个小时

就能够把Wikipedia

从英文翻译到西班牙文

大家想想Wikipedia有多大

一百万个用户

学习80个小时

就能够把完整的Wikipedia

从英文翻译到西班牙文

所以人类计算

所以大家可以看到

很多这样的工作

事实上是机器不能完成的

可以通过人和机器的配合

通过人和机器的协作

通过大规模的人跟人的协作

来去完成

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

数据的分析在线视频

数据的分析课程教案、知识点、字幕

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

吴甘沙：大数据分析师的卓越之道

董飞：硅谷公司的大数据实战分析

杨光信：数据系统架构

时磊：大数据网络可视化

彭元：网络安全与大数据

钟义信：“人工智能与大数据”的创新研究

吴军：数据为王和机器智能的时代

苏中：从大数据到认知计算

王新锐：金融大数据的法律实践

刘鹏：互联网变现与计算广告

杨保华：区块链与数据科学

杨紫陌：个性化内容推荐

陆祁：用户行为大数据

阳任科：大数据与AI的内容分析

王栋：美团外卖的大数据应用

赵楠：商业思维与大数据技术在美团旅行业务中的结合

陈彧：美团点评金融服务的大数据与人工智能

毛波：阿里全息大数据构建与应用

韩定一：在线营销中的竞价机制与数据价值

龚笔宏：大数据在工业界中的经典案例分享

[补充] 郝井华：即时配送中的人工智能

[补充] 陈辉：数据驱动营销

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

[补充] 郑宇：大数据驱动智能城市

讨论专题

数据的分析笔记与讨论

也许你还感兴趣的课程: