当前课程知识点:大数据技术与应用 > 苏中:从大数据到认知计算 > 大数据技术创新3 > 大数据技术创新3
那2011年IBM做了一个
很有意思的一件事情
我不知道这个声音我能放多大
jeopardy watson
我就不让大家看完了
这个视频也很长了
这是2011年IBM的一个比赛
2011年是个特殊的年份
如果大家知道的话
是清华大学百年
清华大学百年也是IBM的百年
所以在这个之前
其实我们研究部门
很多同事都在想
我们百年做一件什么样
一个伟大的事情来庆祝它
所以就当时选了
这个问答这个问题
QA这个问题是很难的
因为语言parsing很难
当时已经有实用的系统
在一个窄领域
比如在一个旅游的领域
一个QA系统
大家可以用了可以用
可以用的程度
如果是个开放领域
这个jeopardy这个比赛
是个开放领域的问题
很难
应该讲参加这个比赛
最后获得冠军的人都是一些神人
都是一些过目不忘的人
很厉害的人
都是一些很有天赋的人
那这里面的问题都很难
为什么说很难
它有很多推理在里头有很多推理
那就涉及到不光是说你理解问题
你同时要理解网上的内容
然后在这里面做足够的推理
然后才能得到这样
如果大家关注的话
IBM system journal在这之后
大概2012年的时候
发了一个special issue
关于说的watson
当时中国研究院也参加了
我们有四五个同事
参加了这个项目
这个项目做了六年做了很长时间
全球几十位同事一起做
应该讲是个很大的突破
最后我们也没有想到
计算机最后能赢到人
当然这里面很大的一个挑战
不是说这大数据的挑战
实际上我们最后用到的什么
用到的是wikipedia data
因为我们做了一个测试
就是jeopardy watson历史的
那个节目是很有名的
从大概二次大战结束之后
就开始有那节目
每个礼拜都有
几十年的题目
删破了一些题目
就是random选择了
比如说一万个题目
然后到wikipedia找答案
那还有九十九点几
很高的一个数字
都能在wikipedia找到答案
也就意味着说
它不是个大数据问题
它不是个大数据问题
就说我们只要
把wikipedia数据足够的理解
计算机就能战胜人
前提是说你一定能够理解它
因为人类的选手的正确率
当时我们做了个曲线
发现说他们在回答
百分之九十几的问题的情况下
他们正确率也是百分之九十几
好
当时我们做了个base1ine系统
base1ine系统不是一个很差的系统
是把当时最好的
不光包括IBM
我们还把很多业界
学校里面最好的系统都放在一起
大概也只有百分之二十几
所以大家做系统的知道说
做搜索的知道
你把百分之二十几的
一个不是start of art
是说已经把所有的能力
十八般武艺都打完了
然后你要到百分之九十几
这个跳跃度太大了
当然最后应该讲
这个不是大数据的胜利
这是机器学习的胜利
这个系统后来
用了很多的学习算法
整个系统上用了很多
如果大家感兴趣可能比如说
类似于boosting方法
我对很多的分类器
对每个parser我去分析
它对什么样的问题
它的正确率更高
如果用boosting大家知道
一个random的一个分类器
它只要比random分类器好一点
如果你有一个分类器
它只要比random做得好
比如掷色子掷个硬币
50%正确率是个平均
如果你只要做到51%
然后如果你有独立不相关的
足够多的分类器
你就能做出一个百分之九十几的
一个分类器
其实思想是一样的
只是说我们用这样思想
来指导一个自然语言的系统
那最后的结果也是非常棒的
它最后战胜了人类
所以它打开一个什么样的一个
当然具体的细节如果大家关心的话
做自然语言理解
可以去看这个论文
算一个线条
那说明说好像感觉语言
这个功课也不是那么难
也不是那么难
还是有一些办法
来用一些方法把它达到的
所以如果我们这样去总结
我们再去回想这个思路
大数据
大数据里面最大的
就是非结构化数据
非结构化数据里面最大的
就是一个是我们社交数据
人产生的数据是与人相关的数据
一个就是图像
一个就是视频一个就是语音
像这样的数据在一起
如果计算机都能很好的处理的话
那将来可能是个不一样的社会
所以我们讲是说
一个认知时代的到来就是这样
就说我从数据里面
我刚才讲了很多例子
说我如何在数据里得到洞察
这个洞察可以帮助我的业务
然后来解决这个问题
所以在这之后IBM
做了一个很大的anouncement
我们现在整个公司
我们都叫做认知的一个公司
整个所有的产品
都会往那个方向走
所以一个新的时代就到来了
那后面我会再介绍介绍
在硬件方面的一些变化
当然在jeopardy watson这个比赛以后
整个研究团队做了很多的工作
我们有些新的
比如说我们不光
让waston能够理解语言
也希望它能够理解图片
当然我们理解图片
不是一些普通图片
比如说我们希望它像医生一样
一个这个叫做radiation
就是放射科医生
他一样来去读一个X光片
大家觉得是说这个好像不难吧
其实是不难
为什么讲不难呢
因为我们所有的图片
现在都电子化了
因为电子化的前提下
这些电子化的数据
也很多都被标注了
比如说你要
当然不希望大家去医院了
如果你到医院你会看到
那些文档拿过以后
都有医生会有
在上面做很多的标注
现在我们的那个CT机
它也会做一些自动标注
你将来大家有孩子的时候
去医院B超的话
大概每隔半个月一个月
都要去医院里扫一下
你看到它都会做很多标注
就是说很多图片上
也有很多标注数据
那在这种场景下
我们说有大数据存在
图片处理有很多的技术
所以可以让机器来去读图
读X光片读CT片读胸片都可以
我们在这边做了很多的工作
而且它读的会比人读的更精准
原因是人会疲劳
人也会懒
因为举个简单的例子
一个核磁的一个机器
当然小陆是专家
我听到的说拍出来片子
可能有几千张
但最终可能只会
有几十张呈现出来
但这里面就很大的风险
万一你有问题了
是在你筛掉的那些片子里呢
机器是不知疲倦的
可以一直的读
另外在语言上面我们主要是说
我们在jeopardy wastion里面
都是回答这种what
why who这样的事实型的问题
真正的人类的交流里面
当然比这复杂得多
但是有一些问题比如说
我们要总结很难回答的why
今天为什么迟到了呀
为什么睡觉起得晚了呀
为什么
你把一个问题
问到五个为什么时候
就能找到它的原因
how怎么办呢
我这毕业了我怎么办呢
都是这样的问题
这样的问题很难呢
其实我们在做语言学分析
这也开始这方面问题的挑战
那一个很简单的场景说
我希望看比如辩论会
就是这样的场景
我们看现在好像不太流行了
我读书那会儿
还有什么大专辩论会
有好几位辩手
现在都变成了知名的主持人
一个辩题似是而非
大家引经据典来互相来辩论
我们在做这方面的工作
那我想讲两个硬件相关的
这个可以快速过一下
就说我们现在看到一个新的
刚才讲很多的变化
其实在计算机里面
也有很大的变化
这个变化的原因是说
遇到了个瓶颈
这个瓶颈有很多原因造成的
其中一个原因
是由摩尔定律造成的
因为摩尔定律当时说我的半导体
可以每隔18个月还是多少月
可以这个集成度大一倍
越来越
芯片可以做得越来越小
这样它成本也会越来越低
将来大家知道就说这芯片
怎么造出来就知道
实际上它就是相当于底片
你做得越小
你同样的一个晶圆上面
大概现在是12英寸
就可以做出更多的
半导体的芯片出来
而它整个工艺流程是一样的
拍一张照片
洗一张照片的成本是一样的
所以你一个流程下来
可以做三百个chip
还是做二百个chip
所以它成本就会降低很多
所以这个摩尔定律实际上
这个计算机的成本越来越低
但摩尔定律的一个前提说
我们现在这个材料是硅
硅的分子直径是有限度的
我听说到有几个不同的答案
我听说有一种说法是两个纳米
当然我们知道现在
我们现在知道
最新的已经做到10个纳米了
就是半导体里面
做了10个纳米了
如果两个纳米是对的话
10个纳米就意味说
你半导体里面的这些门
就只有大概几个分子的宽度
就已经不能再小了
已经不能再小了
所以摩尔定律
走到一定程度就很难了
所以就是计算机
不像以前那样的发展了
那还有一点是说我们现在发现
尤其是非结构化数据处理
就大家看到比如说
很热点的deep neural network
它的无数次的迭代
这个迭代是非常非常痛苦的
比如一张图
假定就是一张普通的图
我们现在手机的拍摄的清楚的
也是几百万像素吧
这一个图每个RGB值
在计算机里过一遍
它都是每个点都会算一遍的
那这个算法和我们真正的
我们的眼睛识别是不一样的
我今天来到清华我一看到LOGO
我瞬间就知道我来到是清华
很庄重的一个地方我的母校
我没有计算这个LOGO里面
这一个地方是什么
一个pixel一个pixel读
人不是这么去辩的
说明我们的人脑在做这种pattern recognition
尤其这种非结构化数据
我听到一个人说话
他说的什么
我没有经过这样的迭代的运算
那说明这个方法是有问题的
这个问题大概什么
主要是在总线上发生了一个问题
就是数据都需要在总线里
那脑不是这样工作的
举个很简单的例子
脑首先主频没有那么快
我们计算机现在都是几个giga赫兹
脑是多少赫兹
大家猜一下
我这上面有答案
脑里面有一些神经元的细胞会产生
像这个CPU里面的时钟信号
大概是10-100赫兹
我们大脑里面大概10-100赫兹的
说这个很慢嘛
一秒钟跳10遍
我们那时候初中
那个高中做的打点计时器
一秒钟还几十下
大脑比那个打点计时器还慢
那个很不可理解
但是你要知道脑的特征
不是这样的
我们脑里面大概有100个million的neoron
就是1000亿个神经元
我们脑里面有1000亿个计算单元
而且它们是充分互联的
每一个计算单元
每一个neoron平均
和超过一千个neoron连接
而且这连接还会自然生长的
这带来一个什么样一个点呢
虽然脑很慢
一个neoron假定被激发的话
在下一个
假定这个人的思维
就是比普通的慢
你看10-100赫兹嘛
那说明有人快是100
有人慢是10的吧
就算那个人很慢好了
10
下十分之一秒
一个点激发就变成一千个点
再过了十分之一秒
一K就到了一兆
再过十分之一秒
你要知道一千的
就是以一千的平方立方下去
很可怕的一件事情
所以很快它就会充斥整个大脑
就是希望关联的地方
所以脑虽然慢
但是因为那的充分互联
造成它的反应并不慢
第二个大家觉得
神经的速度有多快
我们说神经里传输的是电信号
它其实不是
因为电的传输速度和光是一样的
神经的传输速度是
你可以试一下你试一下
你做这个动作一秒钟做几次
可以试一下你可以就算出来了
这个速度大概是你脚的速度的一倍
你拿脚指头也试一下
大家试的
我估计大家的鞋子的都在动呢
为什么会一倍呢
很简单嘛
因为大脑指挥这是大脑指挥的
膝跳反射不是大脑指挥
这是大脑指挥的
大脑指挥的这个距离
一般只要你身材比例
还比较合适的话
这个大概是比腿
脚指甲那个地方
大概是一倍的距离
所以脚指头会慢一点也很正常的
如果你的脚指头动得比手还快
你可以去当运动员绝对的是
所以就是脑你会它很慢的机器
它比那个最近流行的
动画片里面那个树懒还要慢
但是它在识别像这种图像语音
它比计算机快很多
就说明一定something wrong
something wrong
我们做了很多实验
这是一些解剖学的实验
IBM在里面做了很多
解剖猴子做了很多 神经
把大脑都分开了
各个神经估计
都一些很可怕的实验
但是我们公司没有做这个实验
把这数据拿过来了
发现脑虽然是分区域
同时它还有些关联
就说不同的大脑皮层之间
是有关联的
呈现一些长线关联
这就是解释了很多现象
解释了为什么
我看到一个好吃的东西我会流口水
就说虽然也许它往脑的不同部分
但是它可以有一些shortcut
一下就能被激发到
因为流口水是本身
需要很多化学反应的
所以那其实我们现在对于脑的认识
和几十年前没有太大变化
在跟在深度学习上就能看到
我们现在在模拟一个neoron
还仍然用的很简单的模式
仍然用很简单的模式
说明就说人工智能现在下一步
真的要就被解放了
是需要你最根源的就是脑到底
脑的工作机理是什么样的要了解
我们现在了解
还仍然是在几十年前的状态
大家觉得它被激发
和不激发的状态上
它有个函数
这个函数是一个非线性的
神经元网就是这样的
然后我们就看一下
从我们的这个计算机的发展历史
我们看这是很悲哀的一件事情
为什么叫很悲哀的一件事情
在右边这个图可以看到说
计算机的发展是一个
我们如果把纵轴是这个功率的功耗
为什么说计算机摩尔定律
是让计算机越来越便宜
不是让它是越来越快
越来越快是由于主频
系统的主频
当然线宽越低
它也会频率变高
因为它在单位距离上面
它如果窄了的话
它肯定跑得更快
所以门的激发的速度更快
但基本上还是频率
频率决定了这个CPU的速度
那频率就带来一个什么问题
计算机的频率
会跟它的这个功耗成正比
平方甚至立方的关系
那当然我们现在会发现说
那怎么办法降低功率呢
当然我可以降电压
电压降低它也会功率降低
但电压降低到一定程度
也会有问题
所以我们看到是说
实际上在2004年的时候
计算机的主频CPU的主频
到达一个瓶颈
这个瓶颈就是很清楚
就说以线性的发展的话
现在的这个CPU早不是giga赫兹了
是再上一个量级了
那时候已经停下来
停下的原因是什么
是因为实在是散热散不起
早期我们读书的时候
那时候386 486的芯片
是没有散热的
或者是贴了个散热片
直到奔腾的时候才开始有风扇
当然是PC CPU
我见过最离谱的就是当时power PC
出现新的产品还用水冷
需要用液体的冷
那当然在水冷就风冷不一样了
它需要一些
那因为这个散热造成的原因
就说你CPU你没法做很高的集成
所以计算机的
这个发展曲线是往右上的
但是我们刚刚讲脑不是这样的
脑是一个非常慢的
我们大脑的功耗
大概就是20瓦就是20瓦
人total大概60瓦
三分之一在大脑上
所以说明我们就是做错一件事情
就是对于这样
脑计算这样东西是反了
好
那我就不细讲
就说IBM我们在这里面
做了一些工作
这个工作叫SyNAPSE
它取了这个突触的这个名字
但实际上它每个字母
都是有含义的
它基本的思路就说
它做了一个新的
一个计算机体系架构
它体系架构里面有几点特点
第一个为什么计算机很耗呢
是因为计算机里有主频
我们有时钟
只要有时钟存在
计算机就没有idle的时候
计算机的所有的CPU里面都在运算
只是说它运算是idle的运算
那我能不能让它在那时候歇着
所以在这个SyNAPSE的芯片上
是没有时钟的是没有时钟的
我们大脑里也没有时钟
虽然我们刚刚讲
大脑是10赫兹到100赫兹
你仔细想想我们大脑里面
你感觉到那个振荡在存在吗
没有
只是某些神经元有这个特性
它都是reactive的
也就说我现在不知道怎么回事
但突然有人在后面拍我一下
我这部分的神经受到了刺激
让它传到我大脑
然后我会下意识的回头
我会下意识回头
它是reactive的
也就是说当那个事情发生的时候
它才会变化
所以大脑是这样工作的
它不是一个我的大脑
在这时时准备着
任何时候谁不管
拍我一下掐我一下踹我一脚
我都在准备着
不是这样的
所以没有一个时钟周期
第二个是说
OK
我这个chat好像少了几页
第二个就说脑里面
它不是精确计算的
我们现在CPU里面
经常干一件什么事吗
就是说精确度
定点运算改成浮点运算
浮点运算改成高级的
那个这种双位的浮点计算非常精确
非常非常精确
小数点后面好多位都在
就是在座的仔细想
如果我们的大脑是这么运算的话
我们现在就不需要计算器了
那脑神经就只有两个状态0和1
这个事情是证明了
就是当时我们在人工智能实验室
当时做神经元网
曾经也火过一段时间
九十年代八九十年代曾经也火过
用硬件实现了一个神经元网络
把它的权值都设置好了
硬件连线连好了
当时做了一个什么实验
随便拿剪刀剪掉几个线
它识别率还是可以的
说明就说它还是有很大鲁棒性的
就是人脑是
有充分的这个容错能力的
所以它肯定
传出的信号都是很简单
否则它会有很大问题
如果你精度后面的
小数点后面的第八位变化一点
可能会产生蝴蝶效应
那说明你的算法一定是有问题的
所以所有这一切
所以我们这个芯片的
一个基本思路
大家也可以看到了
就是说它没有时钟
它是它的里面都是神经元
它里面有一个million的神经元
你可以看到那一个million
都是一些神经元网络的一个节点
然后它的输出
每个神经元的输出都是0和1
很简单的
它能做什么事情呢
它能解决事情是说
比如说像模式识别里面做图像
比如说右下角这个图
这我们传统我们做computer vision里面
经常见到一个场景
比如在这个楼里面我布个摄像头
我看到多少人走进这个楼
有多少自行车推进这个楼
做这样的一个分析
现在在高速公路上
在很多的交通里都有这样的
那现在的做法当然说
我做一个模式识别的算法
跑在CPU上
如果做的高清的用CPU做的话
单核的CPU现在还是做不了的
可能要多核的才能
做到实时的单摄像头
大家知道一个CPU
可能没有感觉了
一个CPU大概多少瓦
不知道有没有人感觉
一两百瓦一两百瓦
一般的这种服务器CPU
大概一两百瓦
所以你到服务器机房里头很吵的
那不是人待的地方非常非常吵
因为那个一个这个很热
所以需要很多的风扇的声音特别响
那用这样的芯片70毫瓦就可以了
70毫瓦就是单棵CPU
就可以做到实时的处理
所以它是非常非常节能的
而且它识别率非常准
那如果这个做完了以后
如果这个东西还能往前走的话
我们发现很多的一些场景会发生变化
比如说我们会看到我们讲
刚才讲IOT的设备
IOT所谓Internet Of Things
就说当物物相连的时候
物
我们现在在物上布传感器很容易的
布个温度传感器布个摄像头
其实人们最爱布摄像头
因为很简单人们的信息百分之多少
大脑我不知道究竟30%以上的
这个功耗是用在眼睛上了
很大一部分是眼睛
人们还是希望看到的
百闻不如一见嘛
我们眼睛是跟脑直接连接的
这一点很
这是脑是跟直接连接的
所以布摄像头
是人们很喜欢干的一件事情
但是比如说我举个例子
摄像头我如果布在远端
比如说我希望
布在喜马拉雅山山顶上
布个摄像头
我来去判断这个
比如说for这种救援用的
有没有雪崩或者有没有情况
这摄像头布上去有什么问题呢
因为第一个摄像头在一直工作
它也会有问题
它最好的方法是说它平常不工作
或者它工作就比如说
每隔这个50毫秒或者是每隔50毫秒
几分钟拍一张照
分析一下这个视频
有没有它关注的事件
比如说有没有发生雪崩
如果有的话
它把这张图片上传给服务器
因为你要想真正的一个系统里面
它可能不是一个摄像头
它布的可能是成千上万个摄像头
或者是上百万个摄像头
如果每个点都实时的传输
这种视频数据是很可怕的
所以它一定是这种reactive的方式
但是什么东西造成这个事情很难做
一个是说我们现在的设备
如果它在终端需要去判断的话
它就需要足够大的计算的能力
足够大的计算能力带来是说
它需要足够的电源
算法还好
需要足够大的电源
如果你把一个系统
布置在喜马拉雅山上
还需要足够多的电源
我不知道你要把那电线
铺上去的成本要多少
现在不说成本 它很污染环境
所以这造成这样的系统是不work
不可以的
那怎么办法呢
就说我又需要这样的一个智能设备
它又很节能
那我们刚才讲这样的技术就可以了
它只要一个太阳能电池板扔上去
它就可以做很多智能的运算
它当然有问题的时候
它才会跟服务器沟通
所以我就可以在比如说
在整个这个喜马拉雅山脉
我布出一万个摄像头我也都可以
那这个系统是可以work的
那当然我还可以做其他的
比如说盲人一个视觉有障碍的人
我可以给他去做实时的识别
比如很著名的Chieko
他是IBM的fellow在tokyo lab
他十几岁的时候视觉丧失了
那我一直很好奇
因为每年都会
那时候跟他在一个strategy
每年都会在美国开会
那我最喜欢观察就说
他怎么去比如说他走路走得很准
当然他有个助手领着他走
但是当助手不在的时候他也很准
就是说他还是有一些能力的
也许他的其他方面能力比我们强
当然他最近
他也讲了一些很多的故事
但是盲人需要什么
需要一些指引
我们知道他指引什么
有一个导盲犬
这是一种指引带着他走
还有拿一个一根棍子
看大概就是哪有障碍物
但实际上现在某些
这种computer vision技术很好的
我放个摄像头在这儿
前面有什么
我还可以放深度的还可以放红外的
前面是个人
还是一个生物体还是一个石头
我都可以去把它计算出来
那我们现在的技术可以说
我by speech out就可以了
我说前面5米
就像我们现在GPS导航似的
转弯
你要说耳朵
他耳朵是好的
就可以解决这个问题
当然将来我们还有很多更新的技术
我是接
把这个视觉信号
我给它插到大脑皮层里头
这样它形成立体的信号
这都是可能的
所以像这样的应用都可以来做
那为什么能做呢
是所以因为它功耗很低
现在功耗那么高的情况下
你是做不了这样的应用的
所以我们想是说
像这样的一些新的技术
刚刚我们看到了一些
新的软件的技术
硬件的技术处理数据
我总结一下就是软件的技术
我们看到说在大数据领域里面
很难处理的非结构化数据
现在有很多好的方法
通过大数据能力
能够带来一些很好的解决方案
同时对非结构化数据
这种很难处理的
我们现在开始有一些
新的类脑计算的方法
一些新的芯片architecture
来去解决这样的问题
那从这个角度来说
这个方向的发展应该是
非常非常有希望有前景的
当然这个整个冯诺依曼的架构
现在非冯诺依曼还有一个很热的
一个话题叫量子计算
量子计算这个大家如果
有关注也可以看一下
清华也有很好的工作
(姚期志)老先生他也在清华
他原来在清华
现在好像走了
但是他带起了这个量子计算
他主要在量子好像
在量子加密上面一些工作
那量子上面可能是
一些新的一些计算公式
或者一些新的题目
我觉得这个方向
都会有一些新的变化
总结起来一句话就是说
因为大数据的存在
我们原来很多的一些疑难的方法
一些很难的问题都迎刃而解
所以这个方向的技术上面
一些突破造成是说
将来的应用也有很多创新
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接