当前课程知识点:大数据技术与应用 > 杨紫陌:个性化内容推荐 > 推荐系统的召回与排序 > 推荐系统的召回与排序
下面我详细介绍一下
召回的这个方式
我在这列了几种这个猜你喜欢推荐系统
常见的这种召回方式
那么第一种
其实含义上比较好理解
我们根据用户他喜欢的一些标签
和item喜欢的这些标签
构成了一个矩阵
通过矩阵分解 embedding等等方式
我们来计算出user对item直接的一种喜好
它主要是通过标签
这样一种中间维度来计算的
那第二种呢
根据用户的实时行为来做扩散
比如说用户刚刚浏览了ABC三个内容
那么我去找到和ABC三个内容相关的
做一个相似性扩散
那么这个i2i的这个生成方式
其实有很多
比如大家熟知的
这个用户共同行为的一个协同过滤
就是我认为如果说两个商品
它共同浏览的人越多
我就认为这两个商品越相似
那也可以去根据
比如说商品的一些tag等等
或者一些聚类的方式
来去计算这个整个i2i的这个分值
那么第三种呢
我们可能会根据用户的
一些环境和社交关系来进行召回
比如说各位在清华里对吧
有一些自己的社交圈子
如果我认为这个整个清华的校园里
可能都比较喜欢某一个东西
我可能会就会给你去做这个召回
那么最后一个呢
其实是每个推荐系统
都必要的一种召回方式
就是热门的召回
其实是对于很多
我们获取数据并不多的一个用户
的一种偏兜底的
一种召回方式
那么对于很多用户来说
他可能缺少线上的浏览行为
它可能是一个新的用户
我们也拿不到他任何的社交数据
那因为他没有行为
缺少这些什么收藏浏览这些行为
我们也拿不到他的这个偏好的tag
这个时候可能只能用相对热门的
一些内容来给它做兜底
那这是几种比较常见的这个召回方式
那第二个部分讲一下
第二个核心模块是排序
其实整个排序的这个模块
是围绕着这个算法模块展开的
有些同学可能对于就是什么算法
什么是模型
心里是有一些模糊的
其实就是这个图是比较好的
可以解释什么是算法
什么是模型的
其实模型是算法的一个结果
算法只是能够帮助我们
迅速地探索到用户
点击的这个规律的一个方式
那么模型就是真正用户喜欢什么的
这样的一个规律的总结
你可以这样去理解
那么整个排序的模块是
围绕着算法这个模块展开的
那么它其实是主要是根据
用户的展示和点击的行为
沉淀成样本
我们去join上一些特征
得到场景样本
然后呢把它扔到一个
训练的这个算法里面
算法根据场景的样本
产出这个场景相应的模型
那么当这个场景有一次
新的用户来访问的时候
我们就会把相关的一些特征
用户特征 视频特征 上下文特征等等
放到这个排序模型里面
然后产出一次新的结果给到用户
这个其实就是一个
整个排序模块的一个流程
那么整个排序的算法
这一块稍微那个理论性稍微强一点
整个排序的算法呢
一般来说我们是分成
就是你可以理解成为是四个时代
我先说一下
我自己对这个算法的观点
很多人觉得LR其实就是逻辑斯特回归
是一种很基础很基础
大家用的可能至少大几十年每个行业
甚至金融行业也在用的一种算法
很多人觉得这种算法非常的low
很多人觉得这个深度学习的算法
听着就觉得很洋气
然后又最近又发了那么多论文
但事实上你真正在线上用的效果
真的很难说谁比谁好
我到时候后面会详细地讲一下
每个算法它的优劣效果
我觉得就是说
你在线上真正用什么样的算法
其实取决于你能不能驾驭这个算法
你能不能真的理解这个算法
如果不能理解的算法还是不要用的好
那这个是
最早我们做推荐系统
最喜欢用的一个算法
就是逻辑斯特回归
那这个可能大家是比较熟悉的
这个算法它有一个很明显的优势
就在于它的可解释性非常的强
那么哪一个特征比较重要
哪一个特征对这个场景不那么重要
其实是一目了然的
但是这个算法也有很大的问题
第一个是因为
如果你想用好一个LR
在一个推荐场景里
你是必须要做很大量的特征工程的
他会需要你是很多的特征
每个特征怎么样离散化
包括哪些特征和哪些特征
交叉组合的效果比较好
那这些都是我们需要一个一个去试的
但是你真正就是
把这个模型调得很好的话
其实它的效果
一点也不比什么深度学习差
在这简单地介绍一下
就是为什么我们需要
做这个one hot编码 以及交叉组合
这个模型虽然简单
我们用到的原始特征
可能也就只有几十维或者上百维这样
但我们真正最后线上
扔到一个LR的学习器里面的特征
大概会有几千万维
或者上亿维这样的维度
那很大一个原因就是因为
我们要做这个交叉组合
但是这交叉组合是必须要做的
因为它可以帮助我们获取到更多特征
高维度的关联
我在这打一个简单的比方
比如说我们预测一个用户
是否可能会喜欢某一个视频
那么我们会发现
男性的老年人和女性的少女
都特别喜欢这个视频
但如果说我们只是以年龄和性别
这两个维度而不做交叉组合
把这两个维度变成四个维度的话
可能就是因为年轻人的数量
远远超过老年人的数量
所以我们得出了一个结论叫做
女性远远比男性要喜欢这个电影
但事实上不是的
你为了touch到这种更细的
这种特征维度
你必须要去做这个交叉组合
这就是为什么
就是LR模型后来很多人不用
是因为对于每一个场景
如果你都要去试
这种很多的交叉组合的话
是非常耗人力的
还有很多都是体力活
都是在调参这样
那么大概在五年前的样子
这个树模型就非常地流行了
那树模型里面
其实数随机森林和GBDT是最火的
那么GBDT它其实
特别擅长处理的一种问题就是
这种连续的特征
那么LR就刚刚说了嘛
对于很多的这个特征
我们需要去做one hot的编码
我们要把这些连续的特征离散化
这些离散化的方式有些是等频的
有些是等距的
那么等频的你又要划分多少个块
是比较合适的
那这些可能我们都要去线上试
而且最后因为你的特征太多
所以最后可能试到
整个参数空间就不收敛
你最后导致这个模型异常的复杂
那么GBDT其实树状的模型
都会避免这样一个问题
就是说它可以自动地
根据这个信息熵增益的最小化
来去寻找到它这个每一个特征
怎么样去区分是更合理更科学的
那么这个就是GBDT的流行起来
一个很重要的原因
那么第二个原因呢
还是因为这个GBDT
它的这个复杂度比较小
就是说相比于LR来说
它不会让你增加那么多的特征
会让你的特征维度骤减
这个是很节省线上的存储的
这个是第二个原因
第三个原因也是
因为它效果提升很多
因为他整个树状模型
它自带这个特征筛选的这样一个属性
所以在节省人力的同时
它线上的效果也提升很多
那么这个是一个近代的
这个算法的这个架构
可以说现在所有的互联网公司
90%的场景一般都是这样做的
用GBDT+FM
还有这种径线的两种方式
来组合着做的
那么GBDT刚刚已经介绍过了
它是一种树状的这种模型
它很适合去处理
连续的特征和稠密的特征
那么FM它更适合处理这个稀疏的特征
FM其实它是一个
你可以理解成为是一个
自带交叉组合特点的一个LR
它其实也从侧面省去了
你很多这个稀疏特征的
处理交叉组合的这样一种工作量
你看他除了一维的这个LR
它还有很多交叉组合的部分
并且它通过这个交叉组合的一些embedding
减少了这部分的计算复杂度
把它的复杂度降到这个复杂度
然后另外一个就是
以前我们的这个模型
大部分都是根据这个离线的样本
做这个T+1的更新的
就是说我们每天大概更新一次
或者两天更新一次
那么对于一些比较实时的这些样本
我们的模型其实是没有办法
迅速地去适应的
虽然很多特征是做成实时化的
但是模型其实是线上不变的
那么现在很多的系统大部分
都是做成这种径线或者在线学习的
他会根据你实时的这些样本
来微调你的模型
只不过学习率比较低
以免他这个模型抖动得太厉害
那么这个其实是
就是现在的一个算法
比较常见的一种架构
就是说现在很多场景
涫狄苍谑匝檎飧錾疃妊�?
这块呢其实就是说
主要依赖于你对深度学习的
理解和一些调参吧
如果说你这个调参调得好的话呢
深度学习的效果其实非常好的
但是它能不能规律性地学习
对于一些异常数据的鲁棒性怎么样
其实在很多场景是不行的
所以现在这一块用得还比较少
再加上它本身耗费的资源也比较多
但是因为现在深度学习
本身也是发展得非常快的一个领域
这种sequence到sequence的这种学习
它甚至是减少人力到
这个你完全可以不用做任何的特征
那么直接靠机器和运算
你就可以直接出这个结果
你可以完全理解成为它是一种
通过耗费计算资源来节省
人力对模型理解的一种方式
现在这块发展也非常快
我觉得可能maybe再过一两年
它也可能会变成一种
比较主流的这个推荐引擎的
一种算法模式吧
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接