当前课程知识点:大数据技术与应用 >  龚笔宏:大数据在工业界中的经典案例分享 >  主要技术问题 >  主要技术问题

返回《大数据技术与应用》慕课在线视频课程列表

主要技术问题在线视频

下一节:点击率预测概述

返回《大数据技术与应用》慕课在线视频列表

主要技术问题课程教案、知识点、字幕

在我们正式进入CTR预估之前

我稍微粗的跟大家来谈谈

整个搜索广告

搜索广告除了CTR预估以外

它还有哪些哪些的技术问题

可能都是我们要解的

那么首先说Query

说实话 每一个topic

可能都可以展开成

很大的一个东西

基本上大家在CIR

或者是或者是KDD

或者CIKM上

都可以看到很多相关的

session和paper

都在讨论这些问题

譬如说第一个Query analysis

这是很经典的问题

就是我需要知道

这个Query是什么

譬如说你进来搜

白色雪纺连衣裙

那Query analysis

它要解决的问题是什么呢

我要知道白色是一个颜色

这个雪纺是它的材质

连衣裙是它的一个品类

那整个这个Query是属于你

女装类目下的一个事情

它是女装类目下的一个Query

那这是Query analysis

大概它基本上

要去做的一些事情

当然还有很多详细的

你还要做一些同义词

做一些normalization的事情

大小写变换

中英文互换

这个字串前后归一

这些问题

然后第二个问题

query expansion

这也是非常非常

在搜索环境下

很重要的一个问题

白色雪纺连衣裙

可能就五个人买

但是粉红雪纺连衣裙

可能就十个人买

那甚至说雪纺连衣裙

可能就有二十个人买

那所以这是整个

query expansion

要做的事情

一个Query来

可能我们要想办法

把它expansion成

它所有相关的

相关的词

那本身这是一个

非常大的问题

现在他们做很多click log

做graph上的mining

其实都在解这个问题

那当然expansion的话

你只expansion是不够的

我只知道A和B相关

那A和B有多相关

这个边

有边不行

我还得有边上的这个weight

所以weighting

也是另外一个问题

所以这个事实上

整个RP

上面也有非常多的问题在解

这是第二方面的问题

然后第三个方面的问题

就是query—doc matching

这个都不仅搜索引擎

Query这方面的问题

事实上不仅仅是在搜索广告

所有的Serach engine

其实这方面的问题都在做

就搜索引擎这方面问题都在做

就query—doc matching的点

是在于说听起来很美好

我可以去预估iphone

那我就把所有

买iphone的人都拉来

CTR预估一下

然后按它出的价排个序

对不起 这是不可能的

我不可能把所有

特别在搜索引擎里

我不可能

把所有包含iphone的人

全都拉出来一遍

那它都会涉及到一些预排

都会涉及到说

我怎么样第一步的

把这个候选集拉出来

我怎么知道有哪些人

其实可能要参与对这个

参与到最后的这个排序中来

那这是matching做的一些事情

那这个事实上也有

也有非常非常完整的工作

在做这些事情

Retrieve Model这些事情

然后这是Query层面的事情

然后下一个方面是AntiFraud

AntiFraud在

sponsored search中间

相对来说会简单一些

为什么呢

因为其实大家没有

太大的动力去作弊

Click Fraud

实际上谈的是说

这个点击是不是假点击

是不是top 实际上是一个

Fraud的点击

但是在展示广告中

这类问题会非常非常严重

因为Publisher

网站主有很大的

一些动力想要去作弊

因为所有的Publisher

比如说优酷土豆

类似这些网站

他们实际上都称之为网站

他们在网站上

放好多好多的广告

他们有

当然也不代表他们作弊

举个例子

所有的网站主

会有一些利益驱动

想要去作弊

但是搜索引擎好一些

因为搜索引擎

它自己既是平台

也是这个流量提供方

它不会有太大的动力去作弊

所以click Fraud

在sponsored search中的问题

会好一些

这个问题不会太大

先谈谈这边的系统

系统上实际上

我这些年做算法下来

就觉得系统是一个

非常非常大的问题

是一个非常非常大

有challenge的地方

一方面是海量数据处理

大家现在前面谈到的

所有的这种

Data mining的东西

其实都基于一个

真的大家

大家的这个专业名称叫大数据

但是大数据不是名字而已

那它真的是意味着

数据量在这儿

那我需要有足够的基础架构

来支持这个数据量

那所以这是第一个

但现在好在

现在所有的

有很多成熟的

分布式处理的框架

那Hadoop Spark

这些都可以有

但是本身这个平台本身

是一个很大的问题

哪怕在有了这个平台之上

在有了这个

分布式数据处理之后

我们怎么样能够

提高我们自己的迭代效率

这都是一个非常复杂的问题

然后另一方面

也就是高并发和高实时性

这些年像实时系统

流式计算非常的火

我不知道有多少人知道

Storm这些东西

流式计算非常的火

是因为大家所有都谈时效性

我这个时刻

点了一个iphone广告

我希望你们下一个时刻

当我再去其它网站的时候

立马都能再把这个iphone广告

展示给我 这是时效性

我是不是能够把所有的数据

都能够在毫秒级的

反馈到我所有的数据中来

那这本身是数据链路上

和整个计算上很复杂的问题

包括 不仅是数据链路

包括整个Model下

我能不能做Online update

这都是一个

另外的一些问题

然后是创意

创意是一个

我猜可能是计算机系的同学

接触最少的一个东西

就是一个大家都买iphone

你搜iphone

出来好多好多图片

iphone可能大家感觉不大

但是连衣裙感觉就很大了

一个好看的图片

和一个难看的图片

点击率差异会非常非常大

不仅仅是这样

这个仅仅是说图片质量

我觉得图片上我放了什么

我这上面放一个优惠券

和我不放一个优惠券

差异可能也很大

我针对不同的人

我给他看不同的这个组件

差异可能更大

这是这些年其实一直在谈的

这个dynamic offer

就是我可不可以针对不同的人

去给他展现不同的创意形式

并用最吸引他

眼球的一个方式

这里面实际上是一个

非常有意思的一个东西

那事实上真的

一个影响一个广告的

点击率上来说

创意是个非常重要的东西

创意的大小

它的idea

它的想法

是一个非常

之前他们其实有人做过

很有意思的测试

说站在一排

一排衣服中间

可能一排的数码中间

突然间换作美女图片

完全不相关

它点击率很高

这就是创意的

创意的一些东西

然后还有一方面

很大的一些技术问题

就是For advertiser

就是给广告主

给广告主

我们事实上有大量的事情在

帮他在做

一方面就是方案推荐

我们要告诉你

你应该怎么买词

刚才提到过的iphone

它不仅仅只买iphone的

它要买好多好多词

那这些词要我们系统来

帮他找出来

告诉他说哪些词

哪些流量对他最好

我们要帮助他做预估

这个词 iphone这个词

你出一块五最好

一块五maybe

你拿到的流量价值最高

你的ROI最好

这是我们要给他预估

我们要帮他做整张图的优化

可能一共

所有的人都不会只买一个词

他都买上

买几百个词

那我们要告诉你说

这几百个词中其实

我一共

当时我一共可能只有500块钱

我不可能在所有的词上

都去争第一名

谁都争不起

除了少量的土豪

大部分人不能这样玩

所以但是我们就要想办法

这实际上是一个

在限定条件下的一个

revenue最大化的一个问题

在给定的一个

budget的情况下

那我应该去选

怎样的词的组合

去使得它的revenue最大化

这时我要怎么帮他

去做整账户优化

听起来很像一个背包

然后预算分配

一个 包括任何一个广告主

他也不止卖一个宝贝

他卖好多宝贝的

你们去任何一个店里

他都能看到

他不可能只卖一个宝贝

拿亏死了

他上来肯定是十个宝贝

他应该推广哪个

在这个季节

他应该主推哪个

总不能让他在夏装到来的时候

还在推冬装

这是一个很大的问题

那帮他去找

他最适合推广的东西

当前市场最热的东西

他应该推这个

然后是平滑

要帮他去做预算平滑

今天我一共要花一百块钱

一百块钱

我可能不能在

早上八点全部花掉

早上八点上来

八点上班

九点 一下子全都花完了

这不行 我一天没生意了

客户可能也接不过来

要把这个钱均匀的

花在一天之内

所以这些都是我们

可能在整个搜索广告中间

会遇到的大的问题

然后有一个最大块的

我们没有谈

就是Ranking

刚才也提到了

Ranking最根本的

第一问题就是CTR预估

因为我所有的排序

所有的竞价

是要按照它预计的CTR来排序的

那所以呢

第一个最大的问题是

我一定要知道

在这个query下

这个宝贝它的CTR

大概是怎样的

那但是事实上

所有的排序大家也不会

仅仅都拿这个来排

就拿刚才的例子来说

一堆的衣服一堆的数码产品

中间放一个美女图片

这个美女图片

点击率可能真的很高的

但是肯定不能

让这个美女图片出来

这个一次两次可以

多了 对整个体验有很大的伤害

所以基本上Ranking

除了CTR预估之外

我们都还会再去做一些相关性

我们会有relevance model

这是非常精简的

它至少得相关

我搜数码

你怎么也得给我出来

是个数码才行

然后另外一个呢

就还会 大家都会有一些ROI

ROI prediction的问题

也就是转化率

你不能这个宝贝

如果是个质量很差的宝贝

它有可能创意做得很好

但是事实上它的转化成交

非常非常的差

我们还是要综合考虑

整个广告

广告主的

浏览者的体验

这个事实上不仅仅是在淘宝

包括在谷歌和百度

他们也会类似的

去做相关的事情

我们管它叫hit cost

就是说哪怕这个

你看来它的创意

因为它的创意很多很多方式很好

因为做点击有很多很多种方式

我们就谈在百度的场景下

哪怕这条广告

它可能点击率很高

但是如果这条广告

实际上点进去之后

这个消息

对浏览者没有兴趣

对浏览者实际上不关心

不关注的话

那长此以往

广告主

这个浏览者会对这个位置

失去信心的

所以因此

因为有这些逻辑

所以事实上所有的平台方

所有的搜索广告

都会想办法去做相关性

relevance的控制

包括conversion的一些控制

去保证说不要让一些

太不相关的广告出来

所以除了CTR prediction以外

我们事实上还有ROI prediction

会有relevance model这些事情在做

然后最后就是竞价了

竞价事实上也是很大的问题

我们为什么这么竞价

是不是有别的竞价方式

那这个是大的

整个搜索引擎所有遇到的问题

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

主要技术问题笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。