当前课程知识点:大数据技术与应用 >  杨紫陌:个性化内容推荐 >  推荐系统的召回与排序 >  推荐系统的召回与排序

返回《大数据技术与应用》慕课在线视频课程列表

推荐系统的召回与排序在线视频

下一节:智能制作之个性化海报

返回《大数据技术与应用》慕课在线视频列表

推荐系统的召回与排序课程教案、知识点、字幕

下面我详细介绍一下

召回的这个方式

我在这列了几种这个猜你喜欢推荐系统

常见的这种召回方式

那么第一种

其实含义上比较好理解

我们根据用户他喜欢的一些标签

和item喜欢的这些标签

构成了一个矩阵

通过矩阵分解 embedding等等方式

我们来计算出user对item直接的一种喜好

它主要是通过标签

这样一种中间维度来计算的

那第二种呢

根据用户的实时行为来做扩散

比如说用户刚刚浏览了ABC三个内容

那么我去找到和ABC三个内容相关的

做一个相似性扩散

那么这个i2i的这个生成方式

其实有很多

比如大家熟知的

这个用户共同行为的一个协同过滤

就是我认为如果说两个商品

它共同浏览的人越多

我就认为这两个商品越相似

那也可以去根据

比如说商品的一些tag等等

或者一些聚类的方式

来去计算这个整个i2i的这个分值

那么第三种呢

我们可能会根据用户的

一些环境和社交关系来进行召回

比如说各位在清华里对吧

有一些自己的社交圈子

如果我认为这个整个清华的校园里

可能都比较喜欢某一个东西

我可能会就会给你去做这个召回

那么最后一个呢

其实是每个推荐系统

都必要的一种召回方式

就是热门的召回

其实是对于很多

我们获取数据并不多的一个用户

的一种偏兜底的

一种召回方式

那么对于很多用户来说

他可能缺少线上的浏览行为

它可能是一个新的用户

我们也拿不到他任何的社交数据

那因为他没有行为

缺少这些什么收藏浏览这些行为

我们也拿不到他的这个偏好的tag

这个时候可能只能用相对热门的

一些内容来给它做兜底

那这是几种比较常见的这个召回方式

那第二个部分讲一下

第二个核心模块是排序

其实整个排序的这个模块

是围绕着这个算法模块展开的

有些同学可能对于就是什么算法

什么是模型

心里是有一些模糊的

其实就是这个图是比较好的

可以解释什么是算法

什么是模型的

其实模型是算法的一个结果

算法只是能够帮助我们

迅速地探索到用户

点击的这个规律的一个方式

那么模型就是真正用户喜欢什么的

这样的一个规律的总结

你可以这样去理解

那么整个排序的模块是

围绕着算法这个模块展开的

那么它其实是主要是根据

用户的展示和点击的行为

沉淀成样本

我们去join上一些特征

得到场景样本

然后呢把它扔到一个

训练的这个算法里面

算法根据场景的样本

产出这个场景相应的模型

那么当这个场景有一次

新的用户来访问的时候

我们就会把相关的一些特征

用户特征 视频特征 上下文特征等等

放到这个排序模型里面

然后产出一次新的结果给到用户

这个其实就是一个

整个排序模块的一个流程

那么整个排序的算法

这一块稍微那个理论性稍微强一点

整个排序的算法呢

一般来说我们是分成

就是你可以理解成为是四个时代

我先说一下

我自己对这个算法的观点

很多人觉得LR其实就是逻辑斯特回归

是一种很基础很基础

大家用的可能至少大几十年每个行业

甚至金融行业也在用的一种算法

很多人觉得这种算法非常的low

很多人觉得这个深度学习的算法

听着就觉得很洋气

然后又最近又发了那么多论文

但事实上你真正在线上用的效果

真的很难说谁比谁好

我到时候后面会详细地讲一下

每个算法它的优劣效果

我觉得就是说

你在线上真正用什么样的算法

其实取决于你能不能驾驭这个算法

你能不能真的理解这个算法

如果不能理解的算法还是不要用的好

那这个是

最早我们做推荐系统

最喜欢用的一个算法

就是逻辑斯特回归

那这个可能大家是比较熟悉的

这个算法它有一个很明显的优势

就在于它的可解释性非常的强

那么哪一个特征比较重要

哪一个特征对这个场景不那么重要

其实是一目了然的

但是这个算法也有很大的问题

第一个是因为

如果你想用好一个LR

在一个推荐场景里

你是必须要做很大量的特征工程的

他会需要你是很多的特征

每个特征怎么样离散化

包括哪些特征和哪些特征

交叉组合的效果比较好

那这些都是我们需要一个一个去试的

但是你真正就是

把这个模型调得很好的话

其实它的效果

一点也不比什么深度学习差

在这简单地介绍一下

就是为什么我们需要

做这个one hot编码 以及交叉组合

这个模型虽然简单

我们用到的原始特征

可能也就只有几十维或者上百维这样

但我们真正最后线上

扔到一个LR的学习器里面的特征

大概会有几千万维

或者上亿维这样的维度

那很大一个原因就是因为

我们要做这个交叉组合

但是这交叉组合是必须要做的

因为它可以帮助我们获取到更多特征

高维度的关联

我在这打一个简单的比方

比如说我们预测一个用户

是否可能会喜欢某一个视频

那么我们会发现

男性的老年人和女性的少女

都特别喜欢这个视频

但如果说我们只是以年龄和性别

这两个维度而不做交叉组合

把这两个维度变成四个维度的话

可能就是因为年轻人的数量

远远超过老年人的数量

所以我们得出了一个结论叫做

女性远远比男性要喜欢这个电影

但事实上不是的

你为了touch到这种更细的

这种特征维度

你必须要去做这个交叉组合

这就是为什么


就是LR模型后来很多人不用

是因为对于每一个场景

如果你都要去试

这种很多的交叉组合的话

是非常耗人力的

还有很多都是体力活

都是在调参这样

那么大概在五年前的样子

这个树模型就非常地流行了

那树模型里面

其实数随机森林和GBDT是最火的

那么GBDT它其实

特别擅长处理的一种问题就是

这种连续的特征

那么LR就刚刚说了嘛

对于很多的这个特征

我们需要去做one hot的编码

我们要把这些连续的特征离散化

这些离散化的方式有些是等频的

有些是等距的

那么等频的你又要划分多少个块

是比较合适的

那这些可能我们都要去线上试

而且最后因为你的特征太多

所以最后可能试到

整个参数空间就不收敛

你最后导致这个模型异常的复杂

那么GBDT其实树状的模型

都会避免这样一个问题

就是说它可以自动地

根据这个信息熵增益的最小化

来去寻找到它这个每一个特征

怎么样去区分是更合理更科学的

那么这个就是GBDT的流行起来

一个很重要的原因

那么第二个原因呢

还是因为这个GBDT

它的这个复杂度比较小

就是说相比于LR来说

它不会让你增加那么多的特征

会让你的特征维度骤减

这个是很节省线上的存储的

这个是第二个原因

第三个原因也是

因为它效果提升很多

因为他整个树状模型


它自带这个特征筛选的这样一个属性

所以在节省人力的同时

它线上的效果也提升很多

那么这个是一个近代的

这个算法的这个架构

可以说现在所有的互联网公司

90%的场景一般都是这样做的

用GBDT+FM

还有这种径线的两种方式

来组合着做的

那么GBDT刚刚已经介绍过了

它是一种树状的这种模型

它很适合去处理

连续的特征和稠密的特征

那么FM它更适合处理这个稀疏的特征

FM其实它是一个

你可以理解成为是一个

自带交叉组合特点的一个LR

它其实也从侧面省去了

你很多这个稀疏特征的

处理交叉组合的这样一种工作量

你看他除了一维的这个LR

它还有很多交叉组合的部分

并且它通过这个交叉组合的一些embedding

减少了这部分的计算复杂度

把它的复杂度降到这个复杂度

然后另外一个就是

以前我们的这个模型

大部分都是根据这个离线的样本

做这个T+1的更新的

就是说我们每天大概更新一次

或者两天更新一次

那么对于一些比较实时的这些样本

我们的模型其实是没有办法

迅速地去适应的

虽然很多特征是做成实时化的

但是模型其实是线上不变的

那么现在很多的系统大部分

都是做成这种径线或者在线学习的

他会根据你实时的这些样本

来微调你的模型

只不过学习率比较低

以免他这个模型抖动得太厉害

那么这个其实是

就是现在的一个算法

比较常见的一种架构

就是说现在很多场景

涫狄苍谑匝檎飧錾疃妊�?

这块呢其实就是说

主要依赖于你对深度学习的

理解和一些调参吧

如果说你这个调参调得好的话呢

深度学习的效果其实非常好的

但是它能不能规律性地学习

对于一些异常数据的鲁棒性怎么样

其实在很多场景是不行的

所以现在这一块用得还比较少

再加上它本身耗费的资源也比较多

但是因为现在深度学习

本身也是发展得非常快的一个领域

这种sequence到sequence的这种学习

它甚至是减少人力到

这个你完全可以不用做任何的特征

那么直接靠机器和运算

你就可以直接出这个结果

你可以完全理解成为它是一种

通过耗费计算资源来节省

人力对模型理解的一种方式

现在这块发展也非常快

我觉得可能maybe再过一两年

它也可能会变成一种

比较主流的这个推荐引擎的

一种算法模式吧

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

推荐系统的召回与排序笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。