当前课程知识点:大数据技术与应用 > 苏中:从大数据到认知计算 > 大数据技术创新1 > 大数据技术创新1
那我们再看看技术的一些创新
技术上面我们刚才讲了
所谓的大数据就是
基本上就是关于非结构化数据
非结构化数据是非常难处理的
我记得我在读书的时候
我那时候我的研究的
一个方向是做图像的infomation retrieval
我的mental他跟我讲
我跟他第一次聊
他跟我讲他说这个题目
苏中你可以做50年
我说为什么
他说他的老师跟他讲
就可以做50年
他当时40岁刚刚从国外回来
他说做50年
所谓50年是什么
我们知道50年是一个很长的时间
清华说我们要健康的
为祖国工作50年
其实意思就说你要健康的
给祖国工作一辈子
这个很长的时间
因为在图像里面是非常非常难的
因为当时我们也做嘛
比如说做图像我们
要做图像理解怎么做呢
后来说图像分割
那好难啊
图像怎么分割呢
我穿个花衬衫和穿个白衬衫
这就整个这个纹理就不一样了
很多是基于理解的分割
但是你在第一步就是要做分割
你在分割以后你才能理解
反正这有点鸡生蛋
蛋生鸡的关系在里头
然后你特征怎么提取呢
我记得那会儿就是
我们做图像特征的时候就说
OK我们做颜色空间的特征
做直方图的提取 GB值 GB不好
所以还得用其他一些方法
所以很多这方面的一些讨论都
所以很多人也因此
得了很多好的题目
我相信那会儿你要是选择图像
这样一个方向来去做研究的话
随便都能找一个题目
我当时就是大概很快就找到个题目
然后做
然后也能出很多的论文
因为这个问题太难了
一个实用的系统
我们做的非常非常好的系统
检索的精度在一个开放速率机上
也就是二十几
二十几的percent
所以这是很难的
但是我们现在看很多技术
似乎因为大数据的原因突破了
图像尤其在图像的
这种分类识别上
大家可能知道在image net上
现在有很多工作
最新的工作是微软研究院做的
他们用了一百多层的一个CNN
我也不知道要用那么多层
但是他确实用了那么多层
然后把这个整个图像的
识别精度错误已经降到了5%以下
5%是什么概念呢
这个图里面大家也看到human error
就是人的错误
在这样的image net上
这个人的错误率
大概是从5%到百分之十几
12%这个空间
大家有时候觉得图像分类
为什么会有百分之十几
人为什么会犯这种错误呢
其实很容易的
即便是一种狗
它肯定有好几百种
我只认识京巴
除此之外都不认识了
所以它是一个很细的分类
那这样一个error rate
就说明现在我们如果基于大数据
比如说我来做这种猫和狗的识别
我给它一百万张图的猫狗
计算机就可以做到用deep network
用CNN就可以做到非常高
甚至做的比人还好
它的能力来源其实不是算法
因为算法CNN好多年前
十几二十年前就已经提出来了
它很大的一个能力的来源
是来自于数据
因为有了那么多的数据
当然还有一点
是说计算能力也提高了
我记得那会儿
我当时进实验室的时候
我同学他那会儿是拿了RNN
这个循环神经元网做speech recognition
不复杂的一个数据集
它基本上不说这个训练了
它编译
那会儿用五个机的
好像是VC刚刚出来不久
就是一点编译键
就可以基本上中午回去吃饭了
下午回来编译完成了
所以说计算机是非常慢的
你知道吗
那现在我们知道我们可以随便
实验室现在也有钱了
买上一个机器装上几片网卡
几片显卡
每个显卡上面都有几个CPU
这个计算能力可能是
那个时候的几百上千倍都不止
所以由于这个大数据的存在
由于这个能力
也许算法本身没有提高
但是数据的存在让这个图像检索
图像识别这个问题
可以解决了已经
那另外一个角度我们看到
在speech recognition上现在有很大的一个提高
现在大家已经可以用speech in了
1997年的时候IBM在中国做了
We are voice中文版
当时我都觉得很震惊
因为那会儿的话
我们在实验室里用那个系统
我们实验室里当时
也有一些老师在做语音识别
大家做到什么程度
能做短句识别
在一个封闭集合的
比如说两百个句子
两百个词实际上
那四字的是
做短句识别
能干嘛呢
就可能干比如说
现在你要是开关电视机可以
开电视换频道
大概你可以准备几十个命令行
计算机可以做语音识别作用
但当时让我们觉得
很惊讶是1997年
IBM We are voice
当然现在也是我们的同事
他们做的
做连续语音识别
它识别最好的是人民日报
那我后来知道它是用北京青年报
甚至那个数据语料训练的
人民日报社论你对着它直接读
唯一的就是你要喊逗号句号
然后就识别精度非常准
但是它的词错误率其实是很高的
因为你只是用人民日报
你用新闻是很好的
我们后来试了一下
随便找了一个小说一读就不行
就是因为它的语料不是那个语料
你再换一个其他的场景更不行
而且你要用播音腔去读
你要是用普通的
我们随便讲讲也不行
你当中为什么要加逗号句号呢
因为逗号句号
是最好被识别做断句的地方
那会儿你说你
在正常我们读两个人对话
对话时候会用逗号吗
比如说我很想今天跟你吃顿饭
感叹号
不会有这样的场景的
所以是我们当然是说
但是已经是很大的突破了
但那个时候
大概字错误率在30%左右
二十几到三十就开放空间的
还是英文
中文可能更高
你可以看到这个曲线在
也是在2008年开始有个大的drop
到达大概也在5%之内
那最新的IBM我们在美国的实验室
做到了也做到了人的错误率区间
也是原因很简单
因为现在有很多的语料
原来的语料你需要做人工的校验
我们现在为什么有很多语料
我不需要做人工校验呢
比如说我现在参加很多的会议
前一段时间我还参加人工智能大会
他们也录音
录完音以后
就会有人
把它那个录音材料写出来
发言稿写出来
就相当于说你有一段这个
speech的这种voice的information
然后有人把它人工校验
把它变成一个text
你只需要做个voice和text的蓝本
这个很容易做
你就可以得到
一个很好质量的一个语调
因为那个人是check过了
所以这样的素材非常多
原来你的训练库里面可能就说
几十个小时的数据已经很luxury
非常非常奢侈了
现在我随便就可以找到几千个小时
上万个小时
我们现在有时候
大家看we check上也有这功能
说一句话
说一句话因为在比如说会场上
不能听一句话呀
你可以用语音识别一下
就变成一个文字
然后就那本身如果是
它也是一个语料
产生了一个新的语料
所以这样的数据很多
那speech recognition最关键的算法还是hidden markov mode(HMM)
但是在feature的部分
我可以用这样的deep learning network
通过大数据的训练
让它选择得更准
原因很简单
其实我后来仔细想过这个问题
因为我做过图像的分类
我们做图像里面有很多主观的因素
这个主观的因素
来自于这个人本身
举个很简单例子
我做图像分割
我为什么在那个地方做分割
因为我觉得我的人眼
看到的这个感觉
这样的分割就是是比较容易
设定个阈值把它分开的所以这有很多假定在里头
然后还有个是说什么呢
我随便那儿试
那我有很多的师兄弟
师弟们那时候
做图像分割的题目还很高兴
就不断的试
各种各样试法
试出来一组你看
苏中你过来看一下
你看我这个分割
好像就更比以前好一点了
它是一个非常主观的过程
但是我真的要用
一个deep neural network来去计算的话
实际上neural network的好处是说
它对一个数据的fit可以做到
它基本上就是说你层数够深
它一定的fit到你的数据上
而且它还有一定的泛化能力
它从当中能找到很多的
你看不到的一些规则
这些规则实际上是人没法看到的
而且可能是最优的
因为它最后是
用一种分类的错误率
或者是一种
这种目标识别的准确率
来作为一个衡量指数
所以这个过程当中
实际上它有很多的东西
是人没法去穷尽的
而我们以往都是靠一些主观的
你运气好 这个
所以为什么说做图像特征的人
很多是学其他的
学摄影或者学什么光学的
他可以做
因为举个很简单的例子
那次我记得是说
我们电视机为什么不是RGB
电视机是光 亮度
对比度还有什么
他说这个从光学角度
人是这样的
它为什么是RGB呢
因为人的眼睛只能识别这三原色
我们的这个眼睛上的
这种细胞只能对这个适应
换句话说其他动物
并不是对这个RGB更敏感
也许有些动物视力比我们还好
它也许对紫色或者其他颜色
其他几种这种
赤橙黄绿青蓝紫的颜色更敏感一点
所以这里面有很多主观的东西
但是通过这种deep neural network
通过大数据把一些
主观的东西给滤掉了
那我相信这样的技术
再往前走还会有发展
当然它讲一点是说
大数据带来的这种所谓的智能
它还是一种数据上的智能
或者说它不是真正的智能
这是我一直的一个观点
但是它能真的帮你解决问题
那另外一点是说
OK
这里面旁敲岔开一点话题
就说我们看到是说
我们做人工智能
人工智能今年是60周年
其实不止60年
在计算机一开始提起的时候
人们就希望计算机
是有人的智慧的
由此上溯到这个
很多我们的古希腊一些
像亚里士多德这些人
他提出了很多的这种思想
都是我们现在讲的一些这个演绎
这种归纳都是那时候提出的
所以人工智能历史
也许有两千多年了
那做人工智能很喜欢的
一种办法就说
我们是想试图用脑子
跟脑PK嘛
两个人说下棋好不好
决定了这个人是不是聪明
IBM在这个方面
我们其实也做了很多工作
有很多开创性的工作
比如说第一个这个就是Arthur Samuel
他非常非常有名气
他如果大家看wikipedia
他是号称是叫做什么machine learing之父
确实是这样
他在早年间
在这个是具体1956年
1956年可能在座都
基本没有出生的年龄
他已经在IBM701机器上
做了一个下棋的程序
下的是一个跳棋
这个跳棋程序战胜了
美国的一个州立冠军
那时候已经开始电视直播了
或者是电视转播我也不知道
它跟今天alpha go战胜李世石
是同样的轰动
因为第二天IBM股票
涨了百分之十几
我觉得还要轰动
因为突然人们觉得一个打卡机
因为IBM那时候做的机器是打卡机
那时候程序录入是连线和打孔
它不是高级语言
它做了这个机器居然可以下棋
很了不起
所以那时候人工智能很火
那个年代也很有意思
五几年还发生过一件事情
在机器翻译上
IBM当时也是在IBM701的机器
我觉得一定是很好的
一个销售干的事情
做了一个什么呢
因为那时候俄罗斯的
经济和科技发展得非常快
所以当时很多美国也有很大的担心
觉得俄罗斯会不会各方面超过美国
所以他们很关注俄罗斯的信息
但是普通美国人科学学者
他们就觉得这个
我怎么能了解俄罗斯的动态呢
机器翻译可能是很好的一个场景
所以当时在某个小城
我已经忘记那个具体的城了
有一个实验
用了60句俄文
涉及到各种各样的俄文
可能关于文化的
体育的科技的都有
然后有一个机器翻译系统
确实是一个程序语言
但是我想那个程序语言
我相信它一定是
我们叫hardcode
很多规则进去的
就是它只能翻译那60句话
而且那60句话翻的很好
可能60句话换了第61句
可能就翻译得很糟糕
但是当时的效果非常好
就是说整个翻译完了以后
这个确实很震撼
机器还可以做机器翻译
当时人们就乐观的估计
可能机器翻译这个问题
五六年以内就解决了
世界将来就只有一种语言
你只需要会一种语言
然后你可以周游世界
因为机器可以翻译
但是后来证明这个是错的
到现在机器翻译仍然没有做好
这就讲岔开了
那当然1997年IBM
在这个深蓝战胜卡斯帕罗夫
也是很重要的一件事情
当时也会引起很大轰动
但是所有之前的这些系统
所有之前的系统
虽然用到机器学习
它都是专家系统
它是小数据集的
小数据集有带来很大的障碍
比如说深蓝的系统是这样的
深蓝的系统1996年
深蓝和卡斯帕罗夫下过一次
输了
1997年深蓝赢了
但是你仔细看
它第一场是输的
后来是卡斯帕罗夫精神崩溃了
觉得跟计算机下
怎么都算不过计算机 所以输了
但是后来
卡斯帕罗夫心态摆正以后说
我还要跟深蓝下一次
我觉得我还是赢得了它的
后来IBM把那机器给毁掉了
我不跟你下了
为什么呢
因为大家可能
我不知道在座有没有
学过人工智能这门课的
其实它用了很简单的搜索
αβ剪枝是一个搜索树的问题
它里面用了什么的专家呢
当时在这个深蓝的团队里
有好多国际象棋大师
它搜索树里面很大一个点
就是说我对于棋局的评价
需要做个评价函数
然后我有了评价函数
我就可以做到盘面谁好谁坏
那αβ剪枝的一个假定是这样
就说我走一步好棋
我也假定我的对手也走一步好棋
在这种互相走好棋的前提下
我最后赢
那棵树是我要走的那棵树
这是它很简单的一个规则
当然这个搜索的深度是足够高的
所以为什么是需要一些这种优化
所以在当时讲深蓝的一个突破
实际上是一个并行计算的突破
因为如果没有
这样的并行计算的能力
实际上它没法跟人下棋
因为它走一步可能要算个一年
它没法下
所以很多机器一起算
这是一个
第二个就是评估函数
评估函数怎么做呢
当然是说很多
基本的下棋的人都知道
我不下国际象棋
但下中国象棋我看过
很多中国象棋的系统
那时候也有很容易定义
比如一个子粒
我们看街头摆摊的
你有时候反正爱下棋的人都喜欢
喜欢去看棋
你怎么评价现在是优呢
特简单
数一下车马炮
这个人有两个车一个马
那个人只剩个马一个炮了
很清楚
子粒决定了你这个棋盘的优势
第二子的位置
我的兵
这边的兵都还在你的兵位上
那边的兵都顶到了
你的这个象眼快顶到象眼了
这个兵就顶上半个车了
子粒的位置决定了子
那还有一些特别的规则
连环马
连环马互相保护
进可攻退可守
它有些特殊的
所以你可以写一些
简单的一些评价函数
计算机当搜索到足够深度的时候
你可以试着去写一个中国象棋
我觉得在座各位
可以看一下马老师
(马绍平)老师那个人工智能导论
里面看αβ剪枝那一章
随便拿什么高级语言试一下
然后写个中国象棋的
评价函数很简单
老将比如设1000分
马比如车设10分
一个车等于两个马两个炮
那就炮马就是各5分
兵就是1分
过河的兵算2分
你就简单那个规则一算
如果你的搜索深度足够深的话
普通人是下不过它的
很有意思吧
但是当然现在计算机很快了
1997年计算机还很慢呢
所以它是个并行计算
那为什么那些国际象棋
它大师在那儿呢
因为还有多复杂的情况
比如今天深蓝输了
大师们会研究
到底哪个地方是拐点
拐点说明计算机判断它是好的点
但是实际上它是个分水岭
计算机判断错误
那很简单嘛
我在这里面再加一条新的规则
所以可以讲以前的下棋的过程
它是个小数据是个专家系统
专家系统是很有用的
应该讲在很多方面
是非常有实用价值
比如说在医院里面
专家系统用得很好
事实上在上世纪六七十年代
多专家系统已经证明
有它很大的价值
比如说把一个
当时美国做过这个方面的
一些专家系统
把一些疾病
我忘记是什么疾病
比如说心血管疾病
或者一些什么样中风的
一些特别的场景
把所有的专家的知识
其实专家的知识
基本上就是一个规则
一个规则一个decision tree
如果是这个它就是这个
还有这种情况
就是if then else或者switch case
这样一个tree下来就可以了
你要经过这几步检查
检查完了以后
这个指标如果高的话
那你考虑它是什么情况
基本上都可以总结成规则
如果把十几个专家
比如把中国最好的心脏病的专家
关于高血压心脏病的专家
把他弄在一起的话
可能总结出两三百条规则
它一定是很好的一个点
这个现实也是这么做的
因为我们无论是中国还是美国
我们都会有一些叫clinic guideline
就是所谓的这种医疗指南
医疗指南就是一些好的专家
他们在一起比如说
关于这样II型糖尿病怎么治
它会把这所有的专家的这些知识
聚会在一起形成一本书
这本书实际上就是一个规则树
进来以后首先它是什么
它要做哪些检查
检查指标有哪些点要看
如果是什么情况
建议你使用什么样的情况
这是很有用的
因为事实上我们发现
即便是在北京这样医院里面
这么好的医生
50%的医生是不follow
不是follow这个clinic guideline
这个guide是卫生部下来的
就说明是说这种专家系统其实是很
在很多行业里很重要的
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接