当前课程知识点:大数据技术与应用 > 龚笔宏:大数据在工业界中的经典案例分享 > 主要技术问题 > 主要技术问题
在我们正式进入CTR预估之前
我稍微粗的跟大家来谈谈
整个搜索广告
搜索广告除了CTR预估以外
它还有哪些哪些的技术问题
可能都是我们要解的
那么首先说Query
说实话 每一个topic
可能都可以展开成
很大的一个东西
基本上大家在CIR
或者是或者是KDD
或者CIKM上
都可以看到很多相关的
session和paper
都在讨论这些问题
譬如说第一个Query analysis
这是很经典的问题
就是我需要知道
这个Query是什么
譬如说你进来搜
白色雪纺连衣裙
那Query analysis
它要解决的问题是什么呢
我要知道白色是一个颜色
这个雪纺是它的材质
连衣裙是它的一个品类
那整个这个Query是属于你
女装类目下的一个事情
它是女装类目下的一个Query
那这是Query analysis
大概它基本上
要去做的一些事情
当然还有很多详细的
你还要做一些同义词
做一些normalization的事情
大小写变换
中英文互换
这个字串前后归一
这些问题
然后第二个问题
query expansion
这也是非常非常
在搜索环境下
很重要的一个问题
白色雪纺连衣裙
可能就五个人买
但是粉红雪纺连衣裙
可能就十个人买
那甚至说雪纺连衣裙
可能就有二十个人买
那所以这是整个
query expansion
要做的事情
一个Query来
可能我们要想办法
把它expansion成
它所有相关的
相关的词
那本身这是一个
非常大的问题
现在他们做很多click log
做graph上的mining
其实都在解这个问题
那当然expansion的话
你只expansion是不够的
我只知道A和B相关
那A和B有多相关
这个边
有边不行
我还得有边上的这个weight
所以weighting
也是另外一个问题
所以这个事实上
整个RP
上面也有非常多的问题在解
这是第二方面的问题
然后第三个方面的问题
就是query—doc matching
这个都不仅搜索引擎
Query这方面的问题
事实上不仅仅是在搜索广告
所有的Serach engine
其实这方面的问题都在做
就搜索引擎这方面问题都在做
就query—doc matching的点
是在于说听起来很美好
我可以去预估iphone
那我就把所有
买iphone的人都拉来
CTR预估一下
然后按它出的价排个序
对不起 这是不可能的
我不可能把所有
特别在搜索引擎里
我不可能
把所有包含iphone的人
全都拉出来一遍
那它都会涉及到一些预排
都会涉及到说
我怎么样第一步的
把这个候选集拉出来
我怎么知道有哪些人
其实可能要参与对这个
参与到最后的这个排序中来
那这是matching做的一些事情
那这个事实上也有
也有非常非常完整的工作
在做这些事情
Retrieve Model这些事情
然后这是Query层面的事情
然后下一个方面是AntiFraud
AntiFraud在
sponsored search中间
相对来说会简单一些
为什么呢
因为其实大家没有
太大的动力去作弊
Click Fraud
实际上谈的是说
这个点击是不是假点击
是不是top 实际上是一个
Fraud的点击
但是在展示广告中
这类问题会非常非常严重
因为Publisher
网站主有很大的
一些动力想要去作弊
因为所有的Publisher
比如说优酷土豆
类似这些网站
他们实际上都称之为网站
他们在网站上
放好多好多的广告
他们有
当然也不代表他们作弊
举个例子
所有的网站主
会有一些利益驱动
想要去作弊
但是搜索引擎好一些
因为搜索引擎
它自己既是平台
也是这个流量提供方
它不会有太大的动力去作弊
所以click Fraud
在sponsored search中的问题
会好一些
这个问题不会太大
先谈谈这边的系统
系统上实际上
我这些年做算法下来
就觉得系统是一个
非常非常大的问题
是一个非常非常大
有challenge的地方
一方面是海量数据处理
大家现在前面谈到的
所有的这种
Data mining的东西
其实都基于一个
真的大家
大家的这个专业名称叫大数据
但是大数据不是名字而已
那它真的是意味着
数据量在这儿
那我需要有足够的基础架构
来支持这个数据量
那所以这是第一个
但现在好在
现在所有的
有很多成熟的
分布式处理的框架
那Hadoop Spark
这些都可以有
但是本身这个平台本身
是一个很大的问题
哪怕在有了这个平台之上
在有了这个
分布式数据处理之后
我们怎么样能够
提高我们自己的迭代效率
这都是一个非常复杂的问题
然后另一方面
也就是高并发和高实时性
这些年像实时系统
流式计算非常的火
我不知道有多少人知道
Storm这些东西
流式计算非常的火
是因为大家所有都谈时效性
我这个时刻
点了一个iphone广告
我希望你们下一个时刻
当我再去其它网站的时候
立马都能再把这个iphone广告
展示给我 这是时效性
我是不是能够把所有的数据
都能够在毫秒级的
反馈到我所有的数据中来
那这本身是数据链路上
和整个计算上很复杂的问题
包括 不仅是数据链路
包括整个Model下
我能不能做Online update
这都是一个
另外的一些问题
然后是创意
创意是一个
我猜可能是计算机系的同学
接触最少的一个东西
就是一个大家都买iphone
你搜iphone
出来好多好多图片
iphone可能大家感觉不大
但是连衣裙感觉就很大了
一个好看的图片
和一个难看的图片
点击率差异会非常非常大
不仅仅是这样
这个仅仅是说图片质量
我觉得图片上我放了什么
我这上面放一个优惠券
和我不放一个优惠券
差异可能也很大
我针对不同的人
我给他看不同的这个组件
差异可能更大
这是这些年其实一直在谈的
这个dynamic offer
就是我可不可以针对不同的人
去给他展现不同的创意形式
并用最吸引他
眼球的一个方式
这里面实际上是一个
非常有意思的一个东西
那事实上真的
一个影响一个广告的
点击率上来说
创意是个非常重要的东西
创意的大小
它的idea
它的想法
是一个非常
之前他们其实有人做过
很有意思的测试
说站在一排
一排衣服中间
可能一排的数码中间
突然间换作美女图片
完全不相关
它点击率很高
这就是创意的
创意的一些东西
然后还有一方面
很大的一些技术问题
就是For advertiser
就是给广告主
给广告主
我们事实上有大量的事情在
帮他在做
一方面就是方案推荐
我们要告诉你
你应该怎么买词
刚才提到过的iphone
它不仅仅只买iphone的
它要买好多好多词
那这些词要我们系统来
帮他找出来
告诉他说哪些词
哪些流量对他最好
我们要帮助他做预估
这个词 iphone这个词
你出一块五最好
一块五maybe
你拿到的流量价值最高
你的ROI最好
这是我们要给他预估
我们要帮他做整张图的优化
可能一共
所有的人都不会只买一个词
他都买上
买几百个词
那我们要告诉你说
这几百个词中其实
我一共
当时我一共可能只有500块钱
我不可能在所有的词上
都去争第一名
谁都争不起
除了少量的土豪
大部分人不能这样玩
所以但是我们就要想办法
这实际上是一个
在限定条件下的一个
revenue最大化的一个问题
在给定的一个
budget的情况下
那我应该去选
怎样的词的组合
去使得它的revenue最大化
这时我要怎么帮他
去做整账户优化
听起来很像一个背包
然后预算分配
一个 包括任何一个广告主
他也不止卖一个宝贝
他卖好多宝贝的
你们去任何一个店里
他都能看到
他不可能只卖一个宝贝
拿亏死了
他上来肯定是十个宝贝
他应该推广哪个
在这个季节
他应该主推哪个
总不能让他在夏装到来的时候
还在推冬装
这是一个很大的问题
那帮他去找
他最适合推广的东西
当前市场最热的东西
他应该推这个
然后是平滑
要帮他去做预算平滑
今天我一共要花一百块钱
一百块钱
我可能不能在
早上八点全部花掉
早上八点上来
八点上班
九点 一下子全都花完了
这不行 我一天没生意了
客户可能也接不过来
要把这个钱均匀的
花在一天之内
所以这些都是我们
可能在整个搜索广告中间
会遇到的大的问题
然后有一个最大块的
我们没有谈
就是Ranking
刚才也提到了
Ranking最根本的
第一问题就是CTR预估
因为我所有的排序
所有的竞价
是要按照它预计的CTR来排序的
那所以呢
第一个最大的问题是
我一定要知道
在这个query下
这个宝贝它的CTR
大概是怎样的
那但是事实上
所有的排序大家也不会
仅仅都拿这个来排
就拿刚才的例子来说
一堆的衣服一堆的数码产品
中间放一个美女图片
这个美女图片
点击率可能真的很高的
但是肯定不能
让这个美女图片出来
这个一次两次可以
多了 对整个体验有很大的伤害
所以基本上Ranking
除了CTR预估之外
我们都还会再去做一些相关性
我们会有relevance model
这是非常精简的
它至少得相关
我搜数码
你怎么也得给我出来
是个数码才行
然后另外一个呢
就还会 大家都会有一些ROI
ROI prediction的问题
也就是转化率
你不能这个宝贝
如果是个质量很差的宝贝
它有可能创意做得很好
但是事实上它的转化成交
非常非常的差
我们还是要综合考虑
整个广告
广告主的
浏览者的体验
这个事实上不仅仅是在淘宝
包括在谷歌和百度
他们也会类似的
去做相关的事情
我们管它叫hit cost
就是说哪怕这个
你看来它的创意
因为它的创意很多很多方式很好
因为做点击有很多很多种方式
我们就谈在百度的场景下
哪怕这条广告
它可能点击率很高
但是如果这条广告
实际上点进去之后
这个消息
对浏览者没有兴趣
对浏览者实际上不关心
不关注的话
那长此以往
广告主
这个浏览者会对这个位置
失去信心的
所以因此
因为有这些逻辑
所以事实上所有的平台方
所有的搜索广告
都会想办法去做相关性
relevance的控制
包括conversion的一些控制
去保证说不要让一些
太不相关的广告出来
所以除了CTR prediction以外
我们事实上还有ROI prediction
会有relevance model这些事情在做
然后最后就是竞价了
竞价事实上也是很大的问题
我们为什么这么竞价
是不是有别的竞价方式
那这个是大的
整个搜索引擎所有遇到的问题
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接