当前课程知识点:大数据技术与应用 > 龚笔宏:大数据在工业界中的经典案例分享 > 竞价排名搜索 > 竞价排名搜索
我跟同学们聊一聊
我们想做的事情
我叫龚笔宏
但是我们在阿里
因为有花名文化
所以我们进去之后
可能说 你说龚笔宏
很多人都不认识
都叫我叫云雀
我的花名云雀
大数据说实话
这些年非常非常的火
然后基本上
正好现在实习生招聘也开始了
马上应届生招聘也都开始
大量大量的学生其实都
所有的简历拿来都说
在做大数据
数据机器学习相关
数据挖掘相关的东西
然后但是确实
我其实也觉得这样的一个形式
特别特别的好
就是大部分的学生
其实了解的是完全是
韩家炜的那本书
我想大家都看过
然后包括所有一些
Data Mining的一些基本的理论
所以也说有这样的机会
我们来跟大家聊聊
就我们在工业界的时候
我们究竟在干什么
然后我们在解哪些问题
我基本上后面列的
都是一些开放性的问题
我会跟大家聊聊说
我们是怎么做的
但是我觉得我们做
也不是一个
也不是说就只能这么去做
这只是我们想到的方法
那很多的
我今天更多的把问题抛出来
我也希望大家可以去想一想
这些问题可以怎么去解
然后我们稍微回顾一下
上堂课的东西
首先我们确实
谈的是说在线营销
这些年来整个互联网
迄今为止
被证明盈利的两种手段
一种是广告一种是游戏
那我们肯定现在来跟
大家来谈的是广告
那广告事实上目前为止
迄今被证明最盈利的
就是搜索广告
就是包括说谷歌百度
包括我们
虽然我们 大家都有非常
大家去看财报的话
其实我们所有的盈利方式
都有非常非常多种
整个组成方式都有
整个组成这个盈利
revenue的来源
都有非常多种来源
但是其中搜索
sponsored search
带来的一定是最大头的一块
所以在在线广告上面
一方面是display
也就是在一个浏览场景下
那我们会给你一些banner
banner ads
或者是说一些视频
前贴后贴的这些东西
这种称之为Display的广告
那这边这种就是搜索广告
那我们今天可能更多的
会来聊聊在搜索广告中间
我们遇到的一些问题
那搜索广告的应用其实很多
对阿里妈妈来说
最直接的就是
你们上淘宝一搜
搜一个iphone
那事实上卖iphone的人
非常非常多
卖iphone的人
在淘宝上没有个一万家
也有个两万家
那右侧实际上
右侧展现的就是
我们的搜索广告
我们会用
当然不是谁出的钱多出谁了
一共有一万家卖iphone
谁应该排在前面
那这是一个非常核心的问题
那包括像谷歌或者百度
他们的搜索广告也非常简单
你去他们的搜索框下
搜一个鲜花
也非常多家卖鲜花的
那谁排在前面
这也是他们的一个核心问题
所以这是搜索广告
我先把整个
我们要谈的一个问题的背景
业务背景应用背景
先跟大家聊一聊
然后我们细到
其中的技术问题来
然后我们来谈谈搜索广告
到底是怎么样一个场景
它实际上
这里面有几方的用户
第一方就是广告主Advertisers
我卖iphone的
我就希望你上来
所有的浏览者上来搜iphone
就出我的广告
那他要干什么
他就需要去买词
广告主呢 他就需要
他希望是说能够targeting到
所有搜iphone的用户
不一定是iphone
甚至苹果手机
甚至是iphone5 iphone6
iphone4
所有相关
但凡对iphone有兴趣的用户
他搜这些词的时候
他都应该要出来
这是广告主的诉求
他会有这样方面的需要
那另一方面呢
广告主另
这个角落其实谈的
就是广告主另一方面的东西
他也就希望说
他就拿出他的整个
利润中的一部分
来为这个点击而支付
我们这里谈的实际上
都是点击广告
就是所有浏览者
每点击一次这个广告
我都为这个点击付费
所以这是广告主在做的
他首先要上来买词
那买很多很多词啊
他不能只买一个词
一个卖iphone的人上来
我这个店整个卖iphone
他不可能
只买iphone一个词
他所有iphone相关的都要买
他要买iphone
买苹果手机 买苹果
甚至还要买诺基亚
这是所有的东西
包括在百度上
百度上你搜卖鲜花的人
他甚至可能也不仅仅买鲜花
他甚至要买礼物
大家就可以看到这里面
首先就有 第一个技术问题
他要想办法去买到所有
他相关的词
这是广告主要做的事
那么用户很简单
就各位 你们上来实际上就是
来搜一个东西
你来搜一个iphone
然后你会看有好多的
好多 你并不知道哪些是广告
虽然事实上
现在都有很明显的标志
但是你是正常的
从上到下的浏览
然后你随机点击一个
当你点击的瞬间
事实上这个广告主
就为了这个付费了
这是广告主做的
这是用户做的事
而搜索引擎在做什么呢
就百度也好我们也好
我们在做的是
第一个要做的是在用户
当你在搜iphone的时候
我们要找一下
有多少人想要买
iphone这个流量
可能不止这一家
还有其它家
都在买iphone这个流量
要把这些人找出来
然后按照我们上堂课
谈到过的竞价规则
给他们做一个定价
然后我才知道说
比如说你应该按一块一
排在第一位
这是整个搜索
整个搜索广告的一个流程
所以总结来说
大家要做这么几件事
一个广告主来
他要买词
他要竞价
他要为这个点击付费
那这里面事实上
每一个地方都有里面
很复杂的一些问题
他怎么买词
刚才提到过
他不是只买iphone的
他要买很多很多词
那这些词他上哪儿找去
很多很多年前
当这个我们系统都很挫的时候
甚至有这样的一个工具
什么工具呢
它就把比如说北京鲜花
鲜花北京
把所有的这样相关的词
排列组合一遍
因为事实上在所有的数据
在一个query来说
我们做的normalization
做得不够好的话
那么北京鲜花速递
北京速递鲜花
这exactly但是
它不是一件事
那如果你系统做得不够好
广告主就非常悲剧
因为他要把所有的
排列组合买一遍
然后包括还有所有相关的词
也都得去买一遍
所以这是一方面的
这是一方面的技术问题
我们一会儿会详细的展开来谈
跟大家简单聊聊
推广者第一个要买词
第二个要竞价
竞价也是一个复杂的问题
我为这个词我要出多少钱
别人都出一块
我们基本上所有的后台
都会告诉你说
这个词有多少人买
他大概出多少钱
比如说这个词一共有十个人买
出 他们average出一块钱
那你要不要出一块
你出一块还是你出一块五
这个事情是一个
很有学问的问题
这个事情所有的系统
都要想办法告诉你
假如你出到一块五
你可能会拿到多少流量
这里面就涉及到一个
impression的forcasting
我要帮地去预估你的流量
当里这么出钱的时候
你可能拿到多少流量
那这本身是一个
复杂的技术问题
然后是为点击付费
那我愿意为这个词
iphone这个词出一块五
那么真的有人点的话
我maybe可能就要
出到一块五
然后搜索引擎的话
最简单的来说
第一个他要做query分析
用户搜iphone
对不起
可能用户不会那么干净的
搜iphone这个词
用户会输错
用户包括说他有可能
就像刚才填的
iphone3G
G有可能是大写有可能是小写
有很多这种query的normalization
包括变形要做
那这是搜索引擎
一定要做的事情
那这是Query分析
然后根据Query分析的结果
展示搜索的结果
告诉他说有多少人买了
iphone这个广告
然后按照一定的规则来计费
这是整个一个搜索广告的
一个基本的流程
那么大家都应该知道
搜索广告是怎么玩的吧
然后我们来聊聊
这中间到底涉及到哪些问题
一个最核心的问题
就是这三方的利益怎么去平衡
这就涉及到
上堂课其实也提到过的
提到过一点的是竞价
竞价最终会引
会引出整个搜索广告中间
最核心的一个问题
也就是CTR预估
今天我们要讲的这个问题
所以就谈到说
我们为什么要有竞价这件事
最根本的就在于说
iphone这个词很多很多人买
每个人都
我愿意出五块
他愿意出四块
但是我可能是个山寨iphone
你可能确实是个iphone
但是你可能不卖iphone6
你买iphone4
那 但是大家都
买iphone这个词
谁应该排在前面
最根本的
这是这整个竞价机制的
一个发展曲线
在很多很多年前
大家都是很土的
都是按价格排
你出三块钱
我出两块钱
那么我就按
最根本的还是一阶竞价
都不谈到说二阶竞价
就一阶竞价
你出三块钱
我就按三块钱扣
这样有很大很大的问题
因为所有人
都想把这个价钱往下压
那我就会想办法的说
我三块钱拿到第一名
但是第二名的人
明明才出了两块钱
那我就想说
那我为什么不能出两块一
因为两块一
我也能拿到第一名的位置
而且我还少出了钱
那这个是一阶竞价
最大的问题
因为所有人都不会想
把价钱往高顶
他都想把价钱往低顶
所以这是一阶竞价
最大的问题
后来我们就引入了
最简单的二阶竞价
二阶竞价
实际上也就是说
我不按照你出价钱扣
我按照下家加1给你扣
你出三块两块一块
那第一名我就给你扣两块一
第二名我就给你扣一块一
但这个也非常简单
那在这种情况下
大家就不会害怕出高价
我可以出到我能承受的
最高价格
我不会害怕
因为我 哪怕我出到五块钱
只要我第二名
出的还是两块钱
我还是只要出两块一就好了
所以这种二阶竞价
其实可以极大的激发了
说大家不用害怕这件事情
你可以放心大胆的竞价
出到你自己心理能承受的
最高价值
但是这样还有一个问题
广告主好
但是你就会发现说
整个平台的收益
和浏览者的体验是不能被
不能被得到保障的
为什么呢
因为我们是一个
按点击计费的一个系统
点击计费意味着
用户只有点了我才收钱
哪怕你 第一名这个人
他出三块钱他出五块钱
然后他实际上
按照之前说的二阶竞价
他按两块一扣了
但是没有人点
搜iphone
结果第一名出的
是个山寨iphone
你们会点吗
对不起 真的确实有人会点
但是大部分人
对 我们假设大部分人
都是一个正常的这个用户
那大家是不会点的
那这个位置被浪费掉了
虽然他出钱出很高
但是我们还是收不到
就实际上的利润是没有的
所以这就是慢慢的
后来我们就可以引进
二阶竞价
我们管它叫second price
那所以接下来我们就引进了
叫做那个泛化的二阶竞价
也就是GSP
这基本上目前所有业界的
搜索广告系统
不管是搜谷歌百度
其它一切一切的
这种搜索引擎广告
包括我们
所有大家都是这样的一套东西
就大家的逻辑都是说
我不以你出的价钱来扣
我以我在
你这个广告排在第一名
你预计能给我
带来的收益来排序
之前的做法是你出五块
我就按照这个五块来排
那不行
但是这个就不行
因为这个五块其实我收不到
我收不到这个钱
那我实际上就只能
我只能
我现在就要想办法来算
你出五块
但是你排在这个位置上
我预计
实际上我能搜到多少钱来排
这是一个很邪恶的事情
因为它这样保证了我们
RPM最大化
那所以这个逻辑大家理理顺
这里面就有一个很基本的公式
就是revenue maximal的
一个公式
那这个revenue
上一堂课应该也跟大家谈过
等于什么
你预计的收益
我们是按点击计费的
那预计的收益
事实上就等于
预计的CTR乘上价格
这里面就引出来说
为什么我们一定要
去预估CTR这件事情
这是整个一个搜索广告的
一个auction的东西
中间大家其实就可以看到说
这从一阶竞价到二阶竞价
到泛化的二阶竞价
那最终现在大家所有
在用的一个竞价机制
实际上都是GSP
GSP最基本的逻辑就是保证
这个revenue最大化
但事实上这个东西是
广告主、平台以及用户
三方之间的一个trade off
大家都得到了
一个利益的最大化
平台也得到了一个最好
消费者也得到了
因为消费者他愿意点才点的
消费者的体验也得到了保障
那么广告主也能够把他的钱
花在真正对他感兴趣的地方
所以这是一个最合理的
一个使用方式
但是在这其中
就一定带来一个很大的问题
是在于我怎么知道
你预估的CTR是多少
所以这是我们这一堂课
接下来可能要跟大家
来聊一聊的问题
我们怎么去估这个CTR
事实上这个问题
确实是在所有的搜索广告中间
非常核心的一个问题
前年的KDD还是什么
还举办过这个CTR prediction的
一个cup
KDD Cup
举办过这个CTR预估的一个比赛
Open了一些数据出来
希望大家来尝试
基本上所有的这个做广告的
这是一个非常basic的问题
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接