当前课程知识点:大数据技术与应用 >  龚笔宏:大数据在工业界中的经典案例分享 >  点击率预测实践 >  点击率预测实践

返回《大数据技术与应用》慕课在线视频课程列表

点击率预测实践在线视频

下一节:即时配送业务的背景及挑战

返回《大数据技术与应用》慕课在线视频列表

点击率预测实践课程教案、知识点、字幕

现在就是这样一个

点击率预测模型

你们想怎么解

这应该是大家经常做的

就至少从基础的课中间

其实是能做到的

现在就是有很多

我给你很多的历史行为

那现在我就希望知道说

这个query是iphone的时候

这个宝贝它的点击率是多少

是这样子的

基本就是回归

非常基本的方法

基于历史数据预测

那么首先我要有数据 对吧

数据很简单 数据哪来

因为我有所有的

点击用户的点击行为

过去30天到半年的搜索

和点击行为

然后我去抽特征

我抽一堆feature

想怎么抽怎么抽

然后我找一个回归model

就training一把

然后我做一个校验

最后我预测一把

非常基本的一个点击率预测

基于历史统计的一个解法

大部分我可爱问

我可爱问来面试的同学

这个问题了

大部分人都能给我一个

这样一个基本的解法

那但是这个过程中

实际上有很多很多实际的问题

因为这个基本的套路

基本上真的一个硕士毕业

都能够回答出来

但是有很多很多实际的问题

我们先谈数据

我们刚才谈说很基本的五个部分

数据 特征 训练 校验 预测

那我们先谈数据上的问题

数据上的第一个问题

刚才就提到过了 位置

位置有什么问题呢

因为我是基于历史统计的

那么刚才大家也都有这个习惯

从上往下看

第一个广告

第一个一定被你点击的概率大

所以谁排到第一名

它的点击率一定就高

那在这种情况下

看起来好像它的点击率

预估的话

它的点击率会不会就占优呢

会有这个问题吗

我说这是个开放性的讨论

我可以提供一些解法

但是我不觉得

这些就是一个标准解法

这就是一个问题

现实中的一个问题

那这类问题我们可以怎么办

因为所有人在这个位置上

都会受到一些

因为这个位置因素受到了

所以它带来它的实际的数据

会有burst

那我基本的解法就是

那我想办法把这个位置

带来的这个影响去除掉

所以基本的思路就是这个

那最基本的它们

这个你们可以去看

有很多很多的paper

讲这个问题

那最基本的 最常用的

大家就是在谈这个

那个谈这个被查看的概率

大家都会去算这样的一件事情

叫做examination model

所以他就会算

事实上为什么下面的

下面的点击率会低

他觉得它被看到的概率低了

就这个PV实际上不真实

就事实上这个

我只说offer这个解法

这不代表经典

就不代表这是唯一的解法

那意味着这个人

他虽然在这个位置上

他被看到了100次

被点了3次

但是排在第8名的人

他事实上在100次中间

其实不代表

它100次真的被人家看到了

对吧 这是很基本的问题

那想办法去计算

说每个位置它被查看的概率

那以这种方式

去去除位置带来的影响

这是一种方式 很基本

去对你所有的数据做一些预处理

那其实还有很多别的方法了

最基本的来说

你对点击率本身做一些处理

对吧

我在任何一个广告

在它任何一个广告

被排到第一名的时候

它一定就有个期望值了

每个广告在被

在排在不同的位置的时候

它的期望值就应该不一样

对吧

所以那你要拿这个期望值

对它的真实点击率

做一个normalization

这是另外一种思路

但是基本的想法

其实都想办法

把这个位置因素去掉

这是两种不同的解法

我不知道大家有没有新的想法

大家都可以来探讨

这是第一个问题 位置

第二个问题就是稀疏

稀疏这个问题事实上是

机器学习非常经典的问题

没有人敢说我有

虽然大家都说大数据

但事实上所有的大数据

其实也都意味着

其实数据是非常非常稀疏的

对吧

更何况你想想我们的问题是什么

我们要去算在这个query下

这个ads它的点击率

这本身就是个

非常非常稀疏的问题 对吧

那这个时候怎么办

你只能拿历史数据去做

top query可能还好一点

但是大家都听说过二八效应吧

我觉得肯定少量的top query

占据了大量的PV

一定有很大量的long tail部分

long tail部分

它本身可能一天一个PV

就这么100个

你怎么去估它的CTR

对吧

一天可能很多这种

白色雪纺木耳边连衣裙

好多人可能就那么10个PV

根本没法做它的CTR

它的CTR哪怕有人

另外一个问题

它PV10次 点击1次

你能说它的点击率是10%吗

这个说法对吗

这个你们统计肯定学过了

这肯定不对 对吧

统计有置信的问题

这肯定置信度就有问题

它总共就被点击

PV10次 点击一次 对吧

那我们要看平均点击率多少

去算置信区间

然后的话去做这个校验

就证明其实你

PV至少要大于多少才可以

你的这个点击率才可信 对吧

但基本上来说

你PV那么少是肯定不行的

那这种数据稀疏问题怎么解

稀疏事实上是所有机器学习

都会面临到的问题

但是稀疏我们所有的解法

其实就一个

那就想办法让它不稀疏

但是它不稀疏

最基本的解法就是做数据聚合

就我们想办法就

它PV现在只有10个 不行

我想办法把它搞成有100个

搞成1000个

这就不稀疏了嘛

这是最基本的想法

但是怎么聚合呢

你肯定不能把不一样的数据

聚在一起 对吧

这是我还就简单的说法

说这个事情

就我们肯定不能把不一样的数据

搞到一起

噪音就很大

譬如说我把iphone的PV

和连衣裙的PV聚到一起

这肯定不行 对吧

因为它本身数据

这个数据分布差异很大

你放到一起

实际上带来的就是噪音

你整个最后预估的结果

就会千差毫厘

但是基本的想法

就是让白色木耳边连衣裙

和白色蕾丝边连衣裙

它们的点击行为应该是一样的

对吧

那我们就想办法

把这种相似的流量聚到一起

相似的数据聚到一起

那这就是基本的想法

那聚合的方式

其实就有非常非常多种

这能数出个几百个种来

那基本来说

我可以从词的角度做聚合

从query的角度做聚合

然后我想办法

把相似的query的数据

搞到一起

我可以从广告的角度做聚合

我把相似的广告的数据聚到一起

我还可以从

相似用户的角度做聚合

就前提是我认为

这些相似的数据

后面带来的

所有的点击相关的数据它都是

只要我觉得它是一样的

我就可以把它搞到一起

把它关联到一起

用这种方式

来解决数据聚合的问题

那刚才提到有词的角度

那也可以从用户的角度

甚至也可以从创意的角度

甚至说整个instance的角度

都可以

那词的角度有很多种方法了

词的分类

大家都是数码类的

我们搞到一起

那包括词的

前几年我们做

他们做了很多topic model

也可以类似解决这个问题 对吧

我把同一个topic搞到一起

我还可以做casting

我把相似的 相似的这个

把同一个casting东西聚到一起

那这是所有解这种

稀疏性的问题的方法

我把所有可能相关

比较相关的东西搞到一起

那这个事情

这是做稀疏问题的经典解法

但这种问题

实际上都在帮大家

实际上是在帮大家去做这个

一定程度上可以叫做称之为

它在做数据聚合

但是它有可能带来的是噪音

刚才也一再的提

哪怕白色雪纺连衣裙

和白色木耳边连衣裙

它可能很相似

但它一定不一样

它事实上一定有不一样的地方

那在做聚合的过程中

我可能就忽略掉了这些不一样

那这个事实上

就是你在实际运应用过程中

要去tradeoff的地方

我怎么去

我到底应该怎么去聚合

我哪些我其实甚至不应该聚合

我应该聚到什么样的情况

就哪些聚合对我来说是有益的

这是数据的问题

然后谈第三个问题 数据清洗

我们刚才提到了

第一个数据清洗的问题

就是10PV 一个点击

不能称之为10%的点击率

对吧

这是基本的一些问题

就是太大 太小值

一些类似miss model

那个包括对数据本身

做一些normalization

这个都是其中应有之一

你们都应该要去做的

包括做一些数据的平滑

是吧

那可能有些

有些这个数据过大的情况下

你可能要做一些

包括对它做一些分区段

这个大家应该都学过了

做一些离散化 对吧

那值 那如果一个值分布

从零到一万的话

那maybe我给它做一些

区段的离散化

这是整个数据清洗的东西

那这些东西说实话

对整个后面的结果影响会很大

因为数据是最基本的东西

它是你们最最基本的东西

如果你的数据本身是有问题

那可能带来的都会有很多很多

你整个后面的结果都会出问题

然后这里的数据

然后数据事实上

还有另外一个问题

我这里就没有直接写上来

就叫做我们所有基于历史统计的

都有同样的一个问题

它就是历史 对吧

你历史上没有出现过的

它就出不来

这是很正常的东西

很正常的一个问题

但是这里面就会涉及到

有一个新的一个问题

叫做explore expiration对吧

我们怎么样去

能够去发现一些新的

新的广告

甚至新的一些pattern

那所以在

这是在想办法

实际上是在通过explore expiration的方式

去加一些新的一些

关键字进来

我就想办法

让自己有一些这个

有可能去发现

新pattern的可能性

这是另外的一个复杂问题

然后五大方面的问题

我们聊完第一方面数据

我们聊一下第二个方面特征

特征非常简单

就是你想法去找呗

你觉得有哪些特征

可以放进来看一看

一个搜索广告

大家觉得常见特征会有哪些

一个搜索广告

如果让你做这个点击率预估的话

它会有哪些特征

你可以扔进来呢

事实上我们把能用的都放进来

这是我们把大部分

我们看起来

觉得没有太大问题的

都扔进来

现在就常见的做法

就是现在为什么

譬如说百度 谷歌

我们上来都谈

觉得我们有这个

百亿 千亿特征 万亿特征

恨不得把这个数据量

说的很大很大

因为大家确实在做

很多数据的这个ID

做了很多很多这种ID类的feature

然后把整个特征维度弄的很高维

当然它是另外一个很突出的问题

但事实上就基本上

你把能看见的

你觉得有效的都扔进来

那我们列几个常见的维度

那从query角度

会有大量的feature可以去用

query自己

query本身的分词

白色雪纺连衣裙自己

白色雪纺连衣裙的分类

对吧

它是一个连衣裙类目的东西

那雪纺连衣裙

这是它非常核心的一个关键字

譬如说我就把它所有的这种

这种相关的这种

query相关的东西展开

都可以

那包括说我的创意本身

我创意

我这个是一个iphone的创意

那这个广告主是谁

那它的这个广告主还卖什么广告

所以说这个广告

这个iphone下面

其它广告的表现如何

这是把所有相关的一些特征

都可以扔进来

所以这个方面实际上现在

相对来说压力还好一些

那问题在

就是我们要做特征评估

特征评估其实有很多很多

这种方式

大家都应该学会这个事情吧

我们比如说去做一些

corelation的一些

evaluation的一些事情

做开方 做傅氏积

对吧

大家都学这个吧

这都很基本

很基本的一些evaluation的东西

但是另外一个最根本的

就是工业界最常见的是

我们直接扔到线上去试一试

好 对不起

没有那么粗暴

我们肯定有离线的

evaluation的东西

离线是IOC

离线这些东西是肯定有的

那你是说我们确实最简单的是

我们可以扔到线上去看一看

但是这里面事实上

对工业界我们说特征

有一个很大很大的一个问题

就是迭代速度

就今天这个迭代速度

是一个什么问题呢

比如说现在线上

我有100个feature

我很现成的100个feature

上一个model

在线上提供服务

那我现在做一把实验

我想做增加其中的一维feature

我想做101个feature的

实验的时候

那我肯定不希望

我要把所有的

100个feature重新算一遍

对吧

这是我肯定不希望的事情

那我这里100

只是一个很简单很简单的数据

那事实上我们线上的数据

都是动辄上几十T的在谈

所以我绝对不可能

直接的把这个

前100个需求我再算一遍

所以那这是我们在

实际上遇到的

另外一个复杂的问题

是个是个工程的问题

我能够不用重算

其它的前100维

我把第101维算出来就好了

我重新做一个training

那么这是一个

听起来很简单的一个问题

但是因为它可能数量大

所以会涉及到

工程上复杂的一个问题

这是谈特征

然后我们谈训练

训练要碰到的第一个问题

大家都可以想见

就是并行化

现在肯定model

不是担心

能train出来的

肯定不是我担心

甚至再拿一个weka之类的

那个Matlab之类的

这肯定是算不出来的

那所以并行化

并行化事实上现在业界有

也有挺多成熟的方式在做

包括model本身

就比如说随便的LR model

或者是GBS model

怎么去做并行化

这个也有很多现成的paper

在讲这个问题

这个我就不详细跟大家来谈了

这个因为太多成熟的solution

来做这件事情

那我们稍微谈一个另外一个问题

并行化一定是训练上最大的

最大的一个问题

然后确实我们也都非常多的人

在再这个事情

也欢迎大家有兴趣

在并行化上做一做

那么另外一个

就是性能和效果之间的tradeoff

这个谈的是什么呢

就大数据

那我肯定是特征量越大

数据量越大

我算出来肯定没坏处 对吧

但是这里面实际上带来的

就是性能和效果之间的

一个tradeoff

就是我们其实大量的

会遇到这样的一些问题

你确实我用90天

甚至100天 180天的数据

然后我的特征量越来越膨胀

那我肯定model training出来效果会好

我数据越来越充分了

只要我前提是

我能够把很多的bias

包括这个时间轴上这种

time decay的问题

都解决的很好 对吧

理论上这个不应该有

这个应该都是一件好事

但是事实上这种数据量的膨胀

带来的就是我性能会逐渐下降

你训练是需要时间的

是需要有成本的 对吧

那我做训练成本带来的

就是你做实验的成本就会增加

你做一把实验

你是愿意等一个小时

就看到结果

还是说你愿意等三天看到结果

包括你线上model也是需要

就是你真正在线提供服务

也是需要这个每天每天

包括runtime update

那你model越大

可能都会有这个

都会实际上带来这方面的损失

所以怎么样在一个

合适大小的天数 对吧

这事实上大家也可以很

我觉得这是一个

挺显而易见的事情

你去拉这个

譬如说就乘以天数来说

就是我到底要这个

训练集要拉多少天

一定会是一个平滑的曲线

对吧

一定会到多少天之后

它就基本上就能够收敛到一个

收敛到 收敛下来了

那所以我们肯定希望的是

大家都在这个

这实际上就是我们那个

tradeoff的点

所以在很多时候

在训练上我们更多看的

是一些性能和效果之间的

一些tradeoff

另外一个问题

就是可解释性和复杂性

现在事实上

我不知道多少人了解

现在比如说

工业界的一些搜索广告

他们用的model

很多人用的都是LR

我不知道有多少人知道

大部分现在用的都是LR

雅虎以前就喜欢用GBRT

对吧

那个微软现在也在做一些

神经网络

现在大部分确实用的

还是LR为多

简单 计算也快

那个加加减减就出来了

计算也快

但是确实包括还有

我们后面谈的就是说

这个可解释性和复杂性

这实际上是工业界上

实际上遇到的一个问题

你预估这个query

预估出来一个

在iphone下面预估

我预估这个广告点击率是3%

人家会来问你了

为什么我是3%

为什么别人5%

你为什么只有我是3%

我3%哪里不好了

这事情我们不能说

对不起 我算出来就是这样

对吧

这个工业界可能就不行

对吧

因为这个事情

所以我们还是希望

我们的模式是有可解释性的

我们能去帮他去

帮他去找到说他可以

就是客户可以提升的空间

在前面我们其实就

我们前面其实刚才讲的

整个搜索广告的

涉及的技术问题的时候

我们其实就提到

我们其实有大量的人在

努力在为advertiser

在做很多的工作

如果你的模式

根本就不可解释的话

你没有办法帮他优化这个东西

所以这个是一个

实际真正中间遇到的问题

然后谈校验

后面的问题简单一点了

校验事实上大家

这个想法也都很简单

但是确实有很大的困难

就是我怎么去测试

我这个版本呢

当然首先我有offline

这个evalution的指标

我算AUC也好 对吧

或者是我算其它指标都好

这都有很多很多指标

然后工业界最基本的

是我要算出AB testing

那个大家知道

什么叫AB testing吗

我拿一个流量上线去测

但是这个AB testing

实际上是有很大的问题的

就是有很多的学问

不叫问题

很多的学问在这个里面

就什么是baseline

你怎么去确认你的baseline

确保你的对比桶

跟你是完全一样的 对吧

那个最基本的是

你两个流量肯定得一样

就事实上不可能是完全一样的

因为人肯定是不一样的 对吧

譬如说你按 你是按人划

我是按人划开这个桶

还是说就是我把不同的user

划到不同的桶里

如果大家都取5%的流量的话

我5% 你5%

那我是把5%的流量导到这

还是把同一个query

还是说我按照同一个query

下面随机的分

就是不按流量来分 对吧

这个都可以 都可以

但是前提是

只要你自己能证明说

你这个流量本身

互相之间是可比的

在你不做任何事情的时候

它的流量是稳定可比的

然后包括你流量的大小

这个你要去验证

你到底是10万的流量就稳定了

还是百万的流量稳定了

这个要根据

你自己的数据情况去验证

你的baseline怎么选

包括说我怎么样在线去支持

很多很多的

就今天不可能

只有你一个人做实验

可能有很多很多人

都要并发的做实验

我怎么保证这些并发实验

能够相互的影响

这里面都有很多的方式

去解这个问题

包括后面也需要一整套的这个

我们事实上也会有一整套的

bucket tesing的机制

来保证后面相关的数据报表

都能够平稳的产出

这是一个实际的一个问题

预测

我所有的model也生成了

我数据做的很漂亮了

我的特征也有很好的特征

然后我也能训练

很快的训练出来

然后我也验证过

我在小流量下验证了

我效果非常好

我要推到线上去做服务了

那服务这里边就面临着

剩下来的问题

其实就是工程的问题很大

你不能说我就训练完就成功了

离成功还有很大的一步

就是说我怎么online

去提供这个predict服务

第一个是性能

那你predict性能一定得快

你不能说你算一个CTR

我QPS要

那个我QPS只有2

就是我一秒钟只能算两个

这肯定就完蛋了 是吧

所以我肯定得算的快

我怎么样

这个又是一个

性能和效果之间的一个tradeoff

我要保证我算的又快

然后同时我的效果还得好

所以这是性能上的问题

第二个就是要监控

监控是什么意思呢

就是说经典

所有的model

我都是要更新的

我不可能训练完之后

我再也不碰它了 不可能吧

我肯定最基本的来说

我肯定要daily update一下

我每天重新算一把

大家都知道

都是滑动窗口

我每天重新算一把

然后把这个新的model update到线上

你update就可能会出问题的

你得确保

我昨天我predict出来

iphone下面A广告

我昨天predict它是5%的点击率

不可能到今天它就变成3%

这个不行

这个绝对是有问题

但是事实上

真的很有可能出现

特别在一些数据稀疏的时候

对吧

当你如果你新引入了

这篇的数据流

很多的一些噪音的时候

你很可能就在一些稀疏的地方

就会出现一些这样的问题

但是这样的问题

对一个真实的线上系统来说

是非常大的一个致命

你站在广告主的角度上来说

他就会崩溃掉了

我昨天明明你告诉我说

我的点击率应该是5%

我只要付三块钱就好了

今天你就睡了一觉

你跟我说不行你得出五块钱

这是一个很大的问题

所以本身这个

首先是你这个模型的稳定性

你得保证它的整个

随着数据迭代的时候

它的稳定性必须在

然后但是这个稳定性

不是说的

我们要有很多的数据监控

去保证我的数据

我模型的产出是

在这个本身波动是小的

所以这是我们这个真实的问题

稍微回顾一下

我们今天实际上

跟大家所有谈的就是搜索广告

搜索广告里问题有很多很多

那个跟大家简单过了一下

有哪些问题

没有细展开

我们唯一细展开了一下

就是点击率预估

那点击率预估

实际上是一个很经典的问题

然后我更多的就是抛了一些

我们会碰到的一些

工业界碰到的一些挑战

那但是这些挑战

我觉得其实

我们有一些解法

但是也觉得

大家也可以有很多新的解法

来跟我们探讨

在数据上 在特征上

在这个模型训练上

在校验

和包括最后的predict上面

都有很多的问题

我们一起来做

这个大数据绝对不是

我知道做一个回归模式

就可以找到

好这是我今天讲的所有问题了

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

点击率预测实践笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。