当前课程知识点:大数据技术与应用 > 龚笔宏:大数据在工业界中的经典案例分享 > 点击率预测实践 > 点击率预测实践
现在就是这样一个
点击率预测模型
你们想怎么解
这应该是大家经常做的
就至少从基础的课中间
其实是能做到的
现在就是有很多
我给你很多的历史行为
那现在我就希望知道说
这个query是iphone的时候
这个宝贝它的点击率是多少
是这样子的
基本就是回归
非常基本的方法
基于历史数据预测
那么首先我要有数据 对吧
数据很简单 数据哪来
因为我有所有的
点击用户的点击行为
过去30天到半年的搜索
和点击行为
然后我去抽特征
我抽一堆feature
想怎么抽怎么抽
然后我找一个回归model
就training一把
然后我做一个校验
最后我预测一把
非常基本的一个点击率预测
基于历史统计的一个解法
大部分我可爱问
我可爱问来面试的同学
这个问题了
大部分人都能给我一个
这样一个基本的解法
那但是这个过程中
实际上有很多很多实际的问题
因为这个基本的套路
基本上真的一个硕士毕业
都能够回答出来
但是有很多很多实际的问题
我们先谈数据
我们刚才谈说很基本的五个部分
数据 特征 训练 校验 预测
那我们先谈数据上的问题
数据上的第一个问题
刚才就提到过了 位置
位置有什么问题呢
因为我是基于历史统计的
那么刚才大家也都有这个习惯
从上往下看
第一个广告
第一个一定被你点击的概率大
所以谁排到第一名
它的点击率一定就高
那在这种情况下
看起来好像它的点击率
预估的话
它的点击率会不会就占优呢
会有这个问题吗
我说这是个开放性的讨论
我可以提供一些解法
但是我不觉得
这些就是一个标准解法
这就是一个问题
现实中的一个问题
那这类问题我们可以怎么办
因为所有人在这个位置上
都会受到一些
因为这个位置因素受到了
所以它带来它的实际的数据
会有burst
那我基本的解法就是
那我想办法把这个位置
带来的这个影响去除掉
所以基本的思路就是这个
那最基本的它们
这个你们可以去看
有很多很多的paper
讲这个问题
那最基本的 最常用的
大家就是在谈这个
那个谈这个被查看的概率
大家都会去算这样的一件事情
叫做examination model
所以他就会算
事实上为什么下面的
下面的点击率会低
他觉得它被看到的概率低了
就这个PV实际上不真实
就事实上这个
我只说offer这个解法
这不代表经典
就不代表这是唯一的解法
那意味着这个人
他虽然在这个位置上
他被看到了100次
被点了3次
但是排在第8名的人
他事实上在100次中间
其实不代表
它100次真的被人家看到了
对吧 这是很基本的问题
那想办法去计算
说每个位置它被查看的概率
那以这种方式
去去除位置带来的影响
这是一种方式 很基本
去对你所有的数据做一些预处理
那其实还有很多别的方法了
最基本的来说
你对点击率本身做一些处理
对吧
我在任何一个广告
在它任何一个广告
被排到第一名的时候
它一定就有个期望值了
每个广告在被
在排在不同的位置的时候
它的期望值就应该不一样
对吧
所以那你要拿这个期望值
对它的真实点击率
做一个normalization
这是另外一种思路
但是基本的想法
其实都想办法
把这个位置因素去掉
这是两种不同的解法
我不知道大家有没有新的想法
大家都可以来探讨
这是第一个问题 位置
第二个问题就是稀疏
稀疏这个问题事实上是
机器学习非常经典的问题
没有人敢说我有
虽然大家都说大数据
但事实上所有的大数据
其实也都意味着
其实数据是非常非常稀疏的
对吧
更何况你想想我们的问题是什么
我们要去算在这个query下
这个ads它的点击率
这本身就是个
非常非常稀疏的问题 对吧
那这个时候怎么办
你只能拿历史数据去做
top query可能还好一点
但是大家都听说过二八效应吧
我觉得肯定少量的top query
占据了大量的PV
一定有很大量的long tail部分
long tail部分
它本身可能一天一个PV
就这么100个
你怎么去估它的CTR
对吧
一天可能很多这种
白色雪纺木耳边连衣裙
好多人可能就那么10个PV
根本没法做它的CTR
它的CTR哪怕有人
另外一个问题
它PV10次 点击1次
你能说它的点击率是10%吗
这个说法对吗
这个你们统计肯定学过了
这肯定不对 对吧
统计有置信的问题
这肯定置信度就有问题
它总共就被点击
PV10次 点击一次 对吧
那我们要看平均点击率多少
去算置信区间
然后的话去做这个校验
就证明其实你
PV至少要大于多少才可以
你的这个点击率才可信 对吧
但基本上来说
你PV那么少是肯定不行的
那这种数据稀疏问题怎么解
稀疏事实上是所有机器学习
都会面临到的问题
但是稀疏我们所有的解法
其实就一个
那就想办法让它不稀疏
但是它不稀疏
最基本的解法就是做数据聚合
就我们想办法就
它PV现在只有10个 不行
我想办法把它搞成有100个
搞成1000个
这就不稀疏了嘛
这是最基本的想法
但是怎么聚合呢
你肯定不能把不一样的数据
聚在一起 对吧
这是我还就简单的说法
说这个事情
就我们肯定不能把不一样的数据
搞到一起
噪音就很大
譬如说我把iphone的PV
和连衣裙的PV聚到一起
这肯定不行 对吧
因为它本身数据
这个数据分布差异很大
你放到一起
实际上带来的就是噪音
你整个最后预估的结果
就会千差毫厘
但是基本的想法
就是让白色木耳边连衣裙
和白色蕾丝边连衣裙
它们的点击行为应该是一样的
对吧
那我们就想办法
把这种相似的流量聚到一起
相似的数据聚到一起
那这就是基本的想法
那聚合的方式
其实就有非常非常多种
这能数出个几百个种来
那基本来说
我可以从词的角度做聚合
从query的角度做聚合
然后我想办法
把相似的query的数据
搞到一起
我可以从广告的角度做聚合
我把相似的广告的数据聚到一起
我还可以从
相似用户的角度做聚合
就前提是我认为
这些相似的数据
后面带来的
所有的点击相关的数据它都是
只要我觉得它是一样的
我就可以把它搞到一起
把它关联到一起
用这种方式
来解决数据聚合的问题
那刚才提到有词的角度
那也可以从用户的角度
甚至也可以从创意的角度
甚至说整个instance的角度
都可以
那词的角度有很多种方法了
词的分类
大家都是数码类的
我们搞到一起
那包括词的
前几年我们做
他们做了很多topic model
也可以类似解决这个问题 对吧
我把同一个topic搞到一起
我还可以做casting
我把相似的 相似的这个
把同一个casting东西聚到一起
那这是所有解这种
稀疏性的问题的方法
我把所有可能相关
比较相关的东西搞到一起
那这个事情
这是做稀疏问题的经典解法
但这种问题
实际上都在帮大家
实际上是在帮大家去做这个
一定程度上可以叫做称之为
它在做数据聚合
但是它有可能带来的是噪音
刚才也一再的提
哪怕白色雪纺连衣裙
和白色木耳边连衣裙
它可能很相似
但它一定不一样
它事实上一定有不一样的地方
那在做聚合的过程中
我可能就忽略掉了这些不一样
那这个事实上
就是你在实际运应用过程中
要去tradeoff的地方
我怎么去
我到底应该怎么去聚合
我哪些我其实甚至不应该聚合
我应该聚到什么样的情况
就哪些聚合对我来说是有益的
这是数据的问题
然后谈第三个问题 数据清洗
我们刚才提到了
第一个数据清洗的问题
就是10PV 一个点击
不能称之为10%的点击率
对吧
这是基本的一些问题
就是太大 太小值
一些类似miss model
那个包括对数据本身
做一些normalization
这个都是其中应有之一
你们都应该要去做的
包括做一些数据的平滑
是吧
那可能有些
有些这个数据过大的情况下
你可能要做一些
包括对它做一些分区段
这个大家应该都学过了
做一些离散化 对吧
那值 那如果一个值分布
从零到一万的话
那maybe我给它做一些
区段的离散化
这是整个数据清洗的东西
那这些东西说实话
对整个后面的结果影响会很大
因为数据是最基本的东西
它是你们最最基本的东西
如果你的数据本身是有问题
那可能带来的都会有很多很多
你整个后面的结果都会出问题
然后这里的数据
然后数据事实上
还有另外一个问题
我这里就没有直接写上来
就叫做我们所有基于历史统计的
都有同样的一个问题
它就是历史 对吧
你历史上没有出现过的
它就出不来
这是很正常的东西
很正常的一个问题
但是这里面就会涉及到
有一个新的一个问题
叫做explore expiration对吧
我们怎么样去
能够去发现一些新的
新的广告
甚至新的一些pattern
那所以在
这是在想办法
实际上是在通过explore expiration的方式
去加一些新的一些
关键字进来
我就想办法
让自己有一些这个
有可能去发现
新pattern的可能性
这是另外的一个复杂问题
然后五大方面的问题
我们聊完第一方面数据
我们聊一下第二个方面特征
特征非常简单
就是你想法去找呗
你觉得有哪些特征
可以放进来看一看
一个搜索广告
大家觉得常见特征会有哪些
一个搜索广告
如果让你做这个点击率预估的话
它会有哪些特征
你可以扔进来呢
事实上我们把能用的都放进来
这是我们把大部分
我们看起来
觉得没有太大问题的
都扔进来
现在就常见的做法
就是现在为什么
譬如说百度 谷歌
我们上来都谈
觉得我们有这个
百亿 千亿特征 万亿特征
恨不得把这个数据量
说的很大很大
因为大家确实在做
很多数据的这个ID
做了很多很多这种ID类的feature
然后把整个特征维度弄的很高维
当然它是另外一个很突出的问题
但事实上就基本上
你把能看见的
你觉得有效的都扔进来
那我们列几个常见的维度
那从query角度
会有大量的feature可以去用
query自己
query本身的分词
白色雪纺连衣裙自己
白色雪纺连衣裙的分类
对吧
它是一个连衣裙类目的东西
那雪纺连衣裙
这是它非常核心的一个关键字
譬如说我就把它所有的这种
这种相关的这种
query相关的东西展开
都可以
那包括说我的创意本身
我创意
我这个是一个iphone的创意
那这个广告主是谁
那它的这个广告主还卖什么广告
所以说这个广告
这个iphone下面
其它广告的表现如何
这是把所有相关的一些特征
都可以扔进来
所以这个方面实际上现在
相对来说压力还好一些
那问题在
就是我们要做特征评估
特征评估其实有很多很多
这种方式
大家都应该学会这个事情吧
我们比如说去做一些
corelation的一些
evaluation的一些事情
做开方 做傅氏积
对吧
大家都学这个吧
这都很基本
很基本的一些evaluation的东西
但是另外一个最根本的
就是工业界最常见的是
我们直接扔到线上去试一试
好 对不起
没有那么粗暴
我们肯定有离线的
evaluation的东西
离线是IOC
离线这些东西是肯定有的
那你是说我们确实最简单的是
我们可以扔到线上去看一看
但是这里面事实上
对工业界我们说特征
有一个很大很大的一个问题
就是迭代速度
就今天这个迭代速度
是一个什么问题呢
比如说现在线上
我有100个feature
我很现成的100个feature
上一个model
在线上提供服务
那我现在做一把实验
我想做增加其中的一维feature
我想做101个feature的
实验的时候
那我肯定不希望
我要把所有的
100个feature重新算一遍
对吧
这是我肯定不希望的事情
那我这里100
只是一个很简单很简单的数据
那事实上我们线上的数据
都是动辄上几十T的在谈
所以我绝对不可能
直接的把这个
前100个需求我再算一遍
所以那这是我们在
实际上遇到的
另外一个复杂的问题
是个是个工程的问题
我能够不用重算
其它的前100维
我把第101维算出来就好了
我重新做一个training
那么这是一个
听起来很简单的一个问题
但是因为它可能数量大
所以会涉及到
工程上复杂的一个问题
这是谈特征
然后我们谈训练
训练要碰到的第一个问题
大家都可以想见
就是并行化
现在肯定model
不是担心
能train出来的
肯定不是我担心
甚至再拿一个weka之类的
那个Matlab之类的
这肯定是算不出来的
那所以并行化
并行化事实上现在业界有
也有挺多成熟的方式在做
包括model本身
就比如说随便的LR model
或者是GBS model
怎么去做并行化
这个也有很多现成的paper
在讲这个问题
这个我就不详细跟大家来谈了
这个因为太多成熟的solution
来做这件事情
那我们稍微谈一个另外一个问题
并行化一定是训练上最大的
最大的一个问题
然后确实我们也都非常多的人
在再这个事情
也欢迎大家有兴趣
在并行化上做一做
那么另外一个
就是性能和效果之间的tradeoff
这个谈的是什么呢
就大数据
那我肯定是特征量越大
数据量越大
我算出来肯定没坏处 对吧
但是这里面实际上带来的
就是性能和效果之间的
一个tradeoff
就是我们其实大量的
会遇到这样的一些问题
你确实我用90天
甚至100天 180天的数据
然后我的特征量越来越膨胀
那我肯定model training出来效果会好
我数据越来越充分了
只要我前提是
我能够把很多的bias
包括这个时间轴上这种
time decay的问题
都解决的很好 对吧
理论上这个不应该有
这个应该都是一件好事
但是事实上这种数据量的膨胀
带来的就是我性能会逐渐下降
你训练是需要时间的
是需要有成本的 对吧
那我做训练成本带来的
就是你做实验的成本就会增加
你做一把实验
你是愿意等一个小时
就看到结果
还是说你愿意等三天看到结果
包括你线上model也是需要
就是你真正在线提供服务
也是需要这个每天每天
包括runtime update
那你model越大
可能都会有这个
都会实际上带来这方面的损失
所以怎么样在一个
合适大小的天数 对吧
这事实上大家也可以很
我觉得这是一个
挺显而易见的事情
你去拉这个
譬如说就乘以天数来说
就是我到底要这个
训练集要拉多少天
一定会是一个平滑的曲线
对吧
一定会到多少天之后
它就基本上就能够收敛到一个
收敛到 收敛下来了
那所以我们肯定希望的是
大家都在这个
这实际上就是我们那个
tradeoff的点
所以在很多时候
在训练上我们更多看的
是一些性能和效果之间的
一些tradeoff
另外一个问题
就是可解释性和复杂性
现在事实上
我不知道多少人了解
现在比如说
工业界的一些搜索广告
他们用的model
很多人用的都是LR
我不知道有多少人知道
大部分现在用的都是LR
雅虎以前就喜欢用GBRT
对吧
那个微软现在也在做一些
神经网络
现在大部分确实用的
还是LR为多
简单 计算也快
那个加加减减就出来了
计算也快
但是确实包括还有
我们后面谈的就是说
这个可解释性和复杂性
这实际上是工业界上
实际上遇到的一个问题
你预估这个query
预估出来一个
在iphone下面预估
我预估这个广告点击率是3%
人家会来问你了
为什么我是3%
为什么别人5%
你为什么只有我是3%
我3%哪里不好了
这事情我们不能说
对不起 我算出来就是这样
对吧
这个工业界可能就不行
对吧
因为这个事情
所以我们还是希望
我们的模式是有可解释性的
我们能去帮他去
帮他去找到说他可以
就是客户可以提升的空间
在前面我们其实就
我们前面其实刚才讲的
整个搜索广告的
涉及的技术问题的时候
我们其实就提到
我们其实有大量的人在
努力在为advertiser
在做很多的工作
如果你的模式
根本就不可解释的话
你没有办法帮他优化这个东西
所以这个是一个
实际真正中间遇到的问题
然后谈校验
后面的问题简单一点了
校验事实上大家
这个想法也都很简单
但是确实有很大的困难
就是我怎么去测试
我这个版本呢
当然首先我有offline
这个evalution的指标
我算AUC也好 对吧
或者是我算其它指标都好
这都有很多很多指标
然后工业界最基本的
是我要算出AB testing
那个大家知道
什么叫AB testing吗
我拿一个流量上线去测
但是这个AB testing
实际上是有很大的问题的
就是有很多的学问
不叫问题
很多的学问在这个里面
就什么是baseline
你怎么去确认你的baseline
确保你的对比桶
跟你是完全一样的 对吧
那个最基本的是
你两个流量肯定得一样
就事实上不可能是完全一样的
因为人肯定是不一样的 对吧
譬如说你按 你是按人划
我是按人划开这个桶
还是说就是我把不同的user
划到不同的桶里
如果大家都取5%的流量的话
我5% 你5%
那我是把5%的流量导到这
还是把同一个query
还是说我按照同一个query
下面随机的分
就是不按流量来分 对吧
这个都可以 都可以
但是前提是
只要你自己能证明说
你这个流量本身
互相之间是可比的
在你不做任何事情的时候
它的流量是稳定可比的
然后包括你流量的大小
这个你要去验证
你到底是10万的流量就稳定了
还是百万的流量稳定了
这个要根据
你自己的数据情况去验证
你的baseline怎么选
包括说我怎么样在线去支持
很多很多的
就今天不可能
只有你一个人做实验
可能有很多很多人
都要并发的做实验
我怎么保证这些并发实验
能够相互的影响
这里面都有很多的方式
去解这个问题
包括后面也需要一整套的这个
我们事实上也会有一整套的
bucket tesing的机制
来保证后面相关的数据报表
都能够平稳的产出
这是一个实际的一个问题
预测
我所有的model也生成了
我数据做的很漂亮了
我的特征也有很好的特征
然后我也能训练
很快的训练出来
然后我也验证过
我在小流量下验证了
我效果非常好
我要推到线上去做服务了
那服务这里边就面临着
剩下来的问题
其实就是工程的问题很大
你不能说我就训练完就成功了
离成功还有很大的一步
就是说我怎么online
去提供这个predict服务
第一个是性能
那你predict性能一定得快
你不能说你算一个CTR
我QPS要
那个我QPS只有2
就是我一秒钟只能算两个
这肯定就完蛋了 是吧
所以我肯定得算的快
我怎么样
这个又是一个
性能和效果之间的一个tradeoff
我要保证我算的又快
然后同时我的效果还得好
所以这是性能上的问题
第二个就是要监控
监控是什么意思呢
就是说经典
所有的model
我都是要更新的
我不可能训练完之后
我再也不碰它了 不可能吧
我肯定最基本的来说
我肯定要daily update一下
我每天重新算一把
大家都知道
都是滑动窗口
我每天重新算一把
然后把这个新的model update到线上
你update就可能会出问题的
你得确保
我昨天我predict出来
iphone下面A广告
我昨天predict它是5%的点击率
不可能到今天它就变成3%
这个不行
这个绝对是有问题
但是事实上
真的很有可能出现
特别在一些数据稀疏的时候
对吧
当你如果你新引入了
这篇的数据流
很多的一些噪音的时候
你很可能就在一些稀疏的地方
就会出现一些这样的问题
但是这样的问题
对一个真实的线上系统来说
是非常大的一个致命
你站在广告主的角度上来说
他就会崩溃掉了
我昨天明明你告诉我说
我的点击率应该是5%
我只要付三块钱就好了
今天你就睡了一觉
你跟我说不行你得出五块钱
这是一个很大的问题
所以本身这个
首先是你这个模型的稳定性
你得保证它的整个
随着数据迭代的时候
它的稳定性必须在
然后但是这个稳定性
不是说的
我们要有很多的数据监控
去保证我的数据
我模型的产出是
在这个本身波动是小的
所以这是我们这个真实的问题
稍微回顾一下
我们今天实际上
跟大家所有谈的就是搜索广告
搜索广告里问题有很多很多
那个跟大家简单过了一下
有哪些问题
没有细展开
我们唯一细展开了一下
就是点击率预估
那点击率预估
实际上是一个很经典的问题
然后我更多的就是抛了一些
我们会碰到的一些
工业界碰到的一些挑战
那但是这些挑战
我觉得其实
我们有一些解法
但是也觉得
大家也可以有很多新的解法
来跟我们探讨
在数据上 在特征上
在这个模型训练上
在校验
和包括最后的predict上面
都有很多的问题
我们一起来做
这个大数据绝对不是
我知道做一个回归模式
就可以找到
好这是我今天讲的所有问题了
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接