大数据技术创新1慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

那我们再看看技术的一些创新

技术上面我们刚才讲了

所谓的大数据就是

基本上就是关于非结构化数据

非结构化数据是非常难处理的

我记得我在读书的时候

我那时候我的研究的

一个方向是做图像的infomation retrieval

我的mental他跟我讲

我跟他第一次聊

他跟我讲他说这个题目

苏中你可以做50年

我说为什么

他说他的老师跟他讲

就可以做50年

他当时40岁刚刚从国外回来

他说做50年

所谓50年是什么

我们知道50年是一个很长的时间

清华说我们要健康的

为祖国工作50年

其实意思就说你要健康的

给祖国工作一辈子

这个很长的时间

因为在图像里面是非常非常难的

因为当时我们也做嘛

比如说做图像我们

要做图像理解怎么做呢

后来说图像分割

那好难啊

图像怎么分割呢

我穿个花衬衫和穿个白衬衫

这就整个这个纹理就不一样了

很多是基于理解的分割

但是你在第一步就是要做分割

你在分割以后你才能理解

反正这有点鸡生蛋

蛋生鸡的关系在里头

然后你特征怎么提取呢

我记得那会儿就是

我们做图像特征的时候就说

OK我们做颜色空间的特征

做直方图的提取 GB值 GB不好

所以还得用其他一些方法

所以很多这方面的一些讨论都

所以很多人也因此

得了很多好的题目

我相信那会儿你要是选择图像

这样一个方向来去做研究的话

随便都能找一个题目

我当时就是大概很快就找到个题目

然后做

然后也能出很多的论文

因为这个问题太难了

一个实用的系统

我们做的非常非常好的系统

检索的精度在一个开放速率机上

也就是二十几

二十几的percent

所以这是很难的

但是我们现在看很多技术

似乎因为大数据的原因突破了

图像尤其在图像的

这种分类识别上

大家可能知道在image net上

现在有很多工作

最新的工作是微软研究院做的

他们用了一百多层的一个CNN

我也不知道要用那么多层

但是他确实用了那么多层

然后把这个整个图像的

识别精度错误已经降到了5%以下

5%是什么概念呢

这个图里面大家也看到human error

就是人的错误

在这样的image net上

这个人的错误率

大概是从5%到百分之十几

12%这个空间

大家有时候觉得图像分类

为什么会有百分之十几

人为什么会犯这种错误呢

其实很容易的

即便是一种狗

它肯定有好几百种

我只认识京巴

除此之外都不认识了

所以它是一个很细的分类

那这样一个error rate

就说明现在我们如果基于大数据

比如说我来做这种猫和狗的识别

我给它一百万张图的猫狗

计算机就可以做到用deep network

用CNN就可以做到非常高

甚至做的比人还好

它的能力来源其实不是算法

因为算法CNN好多年前

十几二十年前就已经提出来了

它很大的一个能力的来源

是来自于数据

因为有了那么多的数据

当然还有一点

是说计算能力也提高了

我记得那会儿

我当时进实验室的时候

我同学他那会儿是拿了RNN

这个循环神经元网做speech recognition

不复杂的一个数据集

它基本上不说这个训练了

它编译

那会儿用五个机的

好像是VC刚刚出来不久

就是一点编译键

就可以基本上中午回去吃饭了

下午回来编译完成了

所以说计算机是非常慢的

你知道吗

那现在我们知道我们可以随便

实验室现在也有钱了

买上一个机器装上几片网卡

几片显卡

每个显卡上面都有几个CPU

这个计算能力可能是

那个时候的几百上千倍都不止

所以由于这个大数据的存在

由于这个能力

也许算法本身没有提高

但是数据的存在让这个图像检索

图像识别这个问题

可以解决了已经

那另外一个角度我们看到

在speech recognition上现在有很大的一个提高

现在大家已经可以用speech in了

1997年的时候IBM在中国做了

We are voice中文版

当时我都觉得很震惊

因为那会儿的话

我们在实验室里用那个系统

我们实验室里当时

也有一些老师在做语音识别

大家做到什么程度

能做短句识别

在一个封闭集合的

比如说两百个句子

两百个词实际上

那四字的是

做短句识别

能干嘛呢

就可能干比如说

现在你要是开关电视机可以

开电视换频道

大概你可以准备几十个命令行

计算机可以做语音识别作用

但当时让我们觉得

很惊讶是1997年

IBM We are voice

当然现在也是我们的同事

他们做的

做连续语音识别

它识别最好的是人民日报

那我后来知道它是用北京青年报

甚至那个数据语料训练的

人民日报社论你对着它直接读

唯一的就是你要喊逗号句号

然后就识别精度非常准

但是它的词错误率其实是很高的

因为你只是用人民日报

你用新闻是很好的

我们后来试了一下

随便找了一个小说一读就不行

就是因为它的语料不是那个语料

你再换一个其他的场景更不行

而且你要用播音腔去读

你要是用普通的

我们随便讲讲也不行

你当中为什么要加逗号句号呢

因为逗号句号

是最好被识别做断句的地方

那会儿你说你

在正常我们读两个人对话

对话时候会用逗号吗

比如说我很想今天跟你吃顿饭

感叹号

不会有这样的场景的

所以是我们当然是说

但是已经是很大的突破了

但那个时候

大概字错误率在30%左右

二十几到三十就开放空间的

还是英文

中文可能更高

你可以看到这个曲线在

也是在2008年开始有个大的drop

到达大概也在5%之内

那最新的IBM我们在美国的实验室

做到了也做到了人的错误率区间

也是原因很简单

因为现在有很多的语料

原来的语料你需要做人工的校验

我们现在为什么有很多语料

我不需要做人工校验呢

比如说我现在参加很多的会议

前一段时间我还参加人工智能大会

他们也录音

录完音以后

就会有人

把它那个录音材料写出来

发言稿写出来

就相当于说你有一段这个

speech的这种voice的information

然后有人把它人工校验

把它变成一个text

你只需要做个voice和text的蓝本

这个很容易做

你就可以得到

一个很好质量的一个语调

因为那个人是check过了

所以这样的素材非常多

原来你的训练库里面可能就说

几十个小时的数据已经很luxury

非常非常奢侈了

现在我随便就可以找到几千个小时

上万个小时

我们现在有时候

大家看we check上也有这功能

说一句话

说一句话因为在比如说会场上

不能听一句话呀

你可以用语音识别一下

就变成一个文字

然后就那本身如果是

它也是一个语料

产生了一个新的语料

所以这样的数据很多

那speech recognition最关键的算法还是hidden markov mode(HMM)

但是在feature的部分

我可以用这样的deep learning network

通过大数据的训练

让它选择得更准

原因很简单

其实我后来仔细想过这个问题

因为我做过图像的分类

我们做图像里面有很多主观的因素

这个主观的因素

来自于这个人本身

举个很简单例子

我做图像分割

我为什么在那个地方做分割

因为我觉得我的人眼

看到的这个感觉

这样的分割就是是比较容易

设定个阈值把它分开的所以这有很多假定在里头

然后还有个是说什么呢

我随便那儿试

那我有很多的师兄弟

师弟们那时候

做图像分割的题目还很高兴

就不断的试

各种各样试法

试出来一组你看

苏中你过来看一下

你看我这个分割

好像就更比以前好一点了

它是一个非常主观的过程

但是我真的要用

一个deep neural network来去计算的话

实际上neural network的好处是说

它对一个数据的fit可以做到

它基本上就是说你层数够深

它一定的fit到你的数据上

而且它还有一定的泛化能力

它从当中能找到很多的

你看不到的一些规则

这些规则实际上是人没法看到的

而且可能是最优的

因为它最后是

用一种分类的错误率

或者是一种

这种目标识别的准确率

来作为一个衡量指数

所以这个过程当中

实际上它有很多的东西

是人没法去穷尽的

而我们以往都是靠一些主观的

你运气好这个

所以为什么说做图像特征的人

很多是学其他的

学摄影或者学什么光学的

他可以做

因为举个很简单的例子

那次我记得是说

我们电视机为什么不是RGB

电视机是光亮度

对比度还有什么

他说这个从光学角度

人是这样的

它为什么是RGB呢

因为人的眼睛只能识别这三原色

我们的这个眼睛上的

这种细胞只能对这个适应

换句话说其他动物

并不是对这个RGB更敏感

也许有些动物视力比我们还好

它也许对紫色或者其他颜色

其他几种这种

赤橙黄绿青蓝紫的颜色更敏感一点

所以这里面有很多主观的东西

但是通过这种deep neural network

通过大数据把一些

主观的东西给滤掉了

那我相信这样的技术

再往前走还会有发展

当然它讲一点是说

大数据带来的这种所谓的智能

它还是一种数据上的智能

或者说它不是真正的智能

这是我一直的一个观点

但是它能真的帮你解决问题

那另外一点是说

这里面旁敲岔开一点话题

就说我们看到是说

我们做人工智能

人工智能今年是60周年

其实不止60年

在计算机一开始提起的时候

人们就希望计算机

是有人的智慧的

由此上溯到这个

很多我们的古希腊一些

像亚里士多德这些人

他提出了很多的这种思想

都是我们现在讲的一些这个演绎

这种归纳都是那时候提出的

所以人工智能历史

也许有两千多年了

那做人工智能很喜欢的

一种办法就说

我们是想试图用脑子

跟脑PK嘛

两个人说下棋好不好

决定了这个人是不是聪明

IBM在这个方面

我们其实也做了很多工作

有很多开创性的工作

比如说第一个这个就是Arthur Samuel

他非常非常有名气

他如果大家看wikipedia

他是号称是叫做什么machine learing之父

确实是这样

他在早年间

在这个是具体1956年

1956年可能在座都

基本没有出生的年龄

他已经在IBM701机器上

做了一个下棋的程序

下的是一个跳棋

这个跳棋程序战胜了

美国的一个州立冠军

那时候已经开始电视直播了

或者是电视转播我也不知道

它跟今天alpha go战胜李世石

是同样的轰动

因为第二天IBM股票

涨了百分之十几

我觉得还要轰动

因为突然人们觉得一个打卡机

因为IBM那时候做的机器是打卡机

那时候程序录入是连线和打孔

它不是高级语言

它做了这个机器居然可以下棋

很了不起

所以那时候人工智能很火

那个年代也很有意思

五几年还发生过一件事情

在机器翻译上

IBM当时也是在IBM701的机器

我觉得一定是很好的

一个销售干的事情

做了一个什么呢

因为那时候俄罗斯的

经济和科技发展得非常快

所以当时很多美国也有很大的担心

觉得俄罗斯会不会各方面超过美国

所以他们很关注俄罗斯的信息

但是普通美国人科学学者

他们就觉得这个

我怎么能了解俄罗斯的动态呢

机器翻译可能是很好的一个场景

所以当时在某个小城

我已经忘记那个具体的城了

有一个实验

用了60句俄文

涉及到各种各样的俄文

可能关于文化的

体育的科技的都有

然后有一个机器翻译系统

确实是一个程序语言

但是我想那个程序语言

我相信它一定是

我们叫hardcode

很多规则进去的

就是它只能翻译那60句话

而且那60句话翻的很好

可能60句话换了第61句

可能就翻译得很糟糕

但是当时的效果非常好

就是说整个翻译完了以后

这个确实很震撼

机器还可以做机器翻译

当时人们就乐观的估计

可能机器翻译这个问题

五六年以内就解决了

世界将来就只有一种语言

你只需要会一种语言

然后你可以周游世界

因为机器可以翻译

但是后来证明这个是错的

到现在机器翻译仍然没有做好

这就讲岔开了

那当然1997年IBM

在这个深蓝战胜卡斯帕罗夫

也是很重要的一件事情

当时也会引起很大轰动

但是所有之前的这些系统

所有之前的系统

虽然用到机器学习

它都是专家系统

它是小数据集的

小数据集有带来很大的障碍

比如说深蓝的系统是这样的

深蓝的系统1996年

深蓝和卡斯帕罗夫下过一次

输了

1997年深蓝赢了

但是你仔细看

它第一场是输的

后来是卡斯帕罗夫精神崩溃了

觉得跟计算机下

怎么都算不过计算机所以输了

但是后来

卡斯帕罗夫心态摆正以后说

我还要跟深蓝下一次

我觉得我还是赢得了它的

后来IBM把那机器给毁掉了

我不跟你下了

为什么呢

因为大家可能

我不知道在座有没有

学过人工智能这门课的

其实它用了很简单的搜索

αβ剪枝是一个搜索树的问题

它里面用了什么的专家呢

当时在这个深蓝的团队里

有好多国际象棋大师

它搜索树里面很大一个点

就是说我对于棋局的评价

需要做个评价函数

然后我有了评价函数

我就可以做到盘面谁好谁坏

那αβ剪枝的一个假定是这样

就说我走一步好棋

我也假定我的对手也走一步好棋

在这种互相走好棋的前提下

我最后赢

那棵树是我要走的那棵树

这是它很简单的一个规则

当然这个搜索的深度是足够高的

所以为什么是需要一些这种优化

所以在当时讲深蓝的一个突破

实际上是一个并行计算的突破

因为如果没有

这样的并行计算的能力

实际上它没法跟人下棋

因为它走一步可能要算个一年

它没法下

所以很多机器一起算

这是一个

第二个就是评估函数

评估函数怎么做呢

当然是说很多

基本的下棋的人都知道

我不下国际象棋

但下中国象棋我看过

很多中国象棋的系统

那时候也有很容易定义

比如一个子粒

我们看街头摆摊的

你有时候反正爱下棋的人都喜欢

喜欢去看棋

你怎么评价现在是优呢

特简单

数一下车马炮

这个人有两个车一个马

那个人只剩个马一个炮了

很清楚

子粒决定了你这个棋盘的优势

第二子的位置

我的兵

这边的兵都还在你的兵位上

那边的兵都顶到了

你的这个象眼快顶到象眼了

这个兵就顶上半个车了

子粒的位置决定了子

那还有一些特别的规则

连环马

连环马互相保护

进可攻退可守

它有些特殊的

所以你可以写一些

简单的一些评价函数

计算机当搜索到足够深度的时候

你可以试着去写一个中国象棋

我觉得在座各位

可以看一下马老师

（马绍平）老师那个人工智能导论

里面看αβ剪枝那一章

随便拿什么高级语言试一下

然后写个中国象棋的

评价函数很简单

老将比如设1000分

马比如车设10分

一个车等于两个马两个炮

那就炮马就是各5分

兵就是1分

过河的兵算2分

你就简单那个规则一算

如果你的搜索深度足够深的话

普通人是下不过它的

很有意思吧

但是当然现在计算机很快了

1997年计算机还很慢呢

所以它是个并行计算

那为什么那些国际象棋

它大师在那儿呢

因为还有多复杂的情况

比如今天深蓝输了

大师们会研究

到底哪个地方是拐点

拐点说明计算机判断它是好的点

但是实际上它是个分水岭

计算机判断错误

那很简单嘛

我在这里面再加一条新的规则

所以可以讲以前的下棋的过程

它是个小数据是个专家系统

专家系统是很有用的

应该讲在很多方面

是非常有实用价值

比如说在医院里面

专家系统用得很好

事实上在上世纪六七十年代

多专家系统已经证明

有它很大的价值

比如说把一个

当时美国做过这个方面的

一些专家系统

把一些疾病

我忘记是什么疾病

比如说心血管疾病

或者一些什么样中风的

一些特别的场景

把所有的专家的知识

其实专家的知识

基本上就是一个规则

一个规则一个decision tree

如果是这个它就是这个

还有这种情况

就是if then else或者switch case

这样一个tree下来就可以了

你要经过这几步检查

检查完了以后

这个指标如果高的话

那你考虑它是什么情况

基本上都可以总结成规则

如果把十几个专家

比如把中国最好的心脏病的专家

关于高血压心脏病的专家

把他弄在一起的话

可能总结出两三百条规则

它一定是很好的一个点

这个现实也是这么做的

因为我们无论是中国还是美国

我们都会有一些叫clinic guideline

就是所谓的这种医疗指南

医疗指南就是一些好的专家

他们在一起比如说

关于这样II型糖尿病怎么治

它会把这所有的专家的这些知识

聚会在一起形成一本书

这本书实际上就是一个规则树

进来以后首先它是什么

它要做哪些检查

检查指标有哪些点要看

如果是什么情况

建议你使用什么样的情况

这是很有用的

因为事实上我们发现

即便是在北京这样医院里面

这么好的医生

50%的医生是不follow

不是follow这个clinic guideline

这个guide是卫生部下来的

就说明是说这种专家系统其实是很

在很多行业里很重要的

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

大数据技术创新1在线视频

大数据技术创新1课程教案、知识点、字幕