当前课程知识点:大数据技术与应用 >  杨紫陌:个性化内容推荐 >  个性化推荐系统 >  个性化推荐系统

返回《大数据技术与应用》慕课在线视频课程列表

个性化推荐系统在线视频

下一节:推荐系统的召回与排序

返回《大数据技术与应用》慕课在线视频列表

个性化推荐系统课程教案、知识点、字幕

我们今天非常荣幸地

请到爱奇艺的几位同事

来帮我们做一个讲座

这个讲座呢是个系列讲座

所以我们连续三周的这个时间

都会在这里呢

给大家办这样一个讲座

讲座呢是信息技术研究院的

系列讲座之一

也是我们大数据讲座课程的内容

那么今天来给我们做报告的

做演讲的是杨紫陌

她是爱奇艺的研究员

负责视频内容的个性分发

海报图推荐语的自动生成

和分发等项目

当年也是学霸

曾经获全美数学建模的

特等奖 最佳组织奖

最佳创意奖

而且发表过SCI的期刊论文十余篇

其中有一篇入选

ESI的全球最高引用论文

因为当年学霸的这个身份

所以是2013年的校招阿里星

在阿里集团曾经负责

精准营销 商品推荐

支付宝的智能运营等等项目

后来就被挖到爱奇艺来了 我猜

啊我们今天也要特别感谢龚宇校友

因为这个系列讲座这三讲

是请他帮我们联系爱奇艺安排的

欢迎大家来

那下面我们就请紫陌来给我们做演讲

各位同学下午好

今天我给大家分享的topic是

寻找与创造

这个话题名字起的比较文艺

不过分享的内容还是有点偏技术

这边的寻找呢

其实是能够快速地帮助用户

从海量的内容中间

寻找到自己感兴趣的

那么这里的创造呢 主要是指

我们有没有可能

通过一些技术的手段

为用户创造或者创作一些

用户感兴趣的内容

那么这两个层面的topic

都是围绕着个性化推荐

这样一项技术展开的

首先呢是这个寻找的部分

我们也称之为智能分发

智能分发或者说个性化推荐这套系统

其实这几年内

它技术发展得非常的迅猛

应该说有几个契机

第一个是因为这五年来

大家使用互联网的场景从pc端

走向了这个移动端

那么移动端它就给这个用户

这个屏幕的限制

以前用户习惯在pc端

使用这种树状的分类结构

来去寻找自己喜欢的内容

比如我要找一个衬衫

那么我可能会先去找服装

然后去找男装或者女装

然后去找上衣

然后再去找到衬衫

那么是这样的一个路径

但是现在这个手机的屏幕非常的小

它根本就不会允许你去

放一个一整套的一个分类树

那么就要求在这么小的屏幕内

我们能够迅速地捕捉到用户的兴趣

那这是第一点空间的限制

那第二点其实是时间的限制

就是在这个移动场景下

用户的时间它是不断地去碎片化的

大家可以很明显地感觉到

在PC的时代

用户更多的可能是

愿意花整块的时间去浏览长的内容

但是这几年随着

这个抖音快手这样的崛起

那么用户他很多碎片化的时间

都花在了互联网上

那么这个时候

怎么样能够去适应

这种用户碎片化的时间

让用户能够利用这些时间

找到自己感兴趣的内容

就对个性化推荐

相当于有了一个新的要求

那么什么样可以称之为

是一个推荐系统

或者说是一个个性化分发系统

它核心要解决的一个问题

其实就是猜你喜欢什么

推荐系统其实是一个比较直接理解

为什么它的核心问题是这个的

那其实互联网上很多的产品

比如说搜索引擎 广告系统

那么它核心要解决的问题

其实也是猜你喜欢

甚至来说猜你喜欢的这套算法技术

同样的思路也可以用来解决

比如说风险控制 反作弊等等

那么它解决问题的

这个思路其实是一致的

那为什么我们说这个整个搜索引擎

它需要解决的这个核心问题

也是猜你喜欢

是因为其实本身比如说

你在百度输入一个搜索词

比如叫苹果

那么可能和这个搜索词相关的网页

可能有上千万甚至上亿个网页

但是用户的耐心呢

就只允许你展示30个

他不会再翻了三页以后还继续往下翻

如果他翻了三页

还找不着他喜欢的内容

他可能就认为你这是一个

体验很烂的搜索引擎

那广告呢

其实更是和这个猜你喜欢

和收益是直接相关的

互联网产业其实是一个

以转化流量价值变为广告价值

为主要盈利手段的这样一个产业

那么广告这样一个行业

如果说你能够

把这个用户喜欢的内容或者商品

以最短的路径展示到用户面前

它产生的就是直接互联网行业的利益

比如说在2013年的时候

淘宝的直通车广告展位

大概每天要为淘宝

贡献三个亿左右的收入

那么它是按点击收费

就是如果我展示给用户一双鞋

用户确实喜欢

他点击了

这一次点击我可能就收几块钱

那也就是说

如果说我猜用户喜欢这双鞋

猜得非常准的话

所有用户都点的话

只要提高一个点

对于阿里集团来说

可能每一年就会增加上亿的收入

这也是为什么

大部分的互联网公司

它愿意花很多的钱

来做这个广告

或者说推荐的这样一个算法

那么整个推荐系统他的价值定位

其实和搜索引擎

还有广告系统是不一样的

虽然它们解决这个问题是比较类似的

那么它主要是通过

能够帮用户迅速地

寻找他到他喜欢的东西

发掘他的兴趣 来增加用户粘性

能够让用户更愿意

花时间在你的平台上

那么用户的时间和黏性

其实也就是互联网这些平台的价值

其实现在的推荐系统已经很普遍了

不管是你在看视频的时候

你刚进首页的时候会做猜你喜欢

还是说你在看视频当中

有一些关联推荐

或者说你看完视频了以后

有一些周边推荐 片花 解读等等

那包括比如说在这个电商的场景

可能你刚过来的时候

你要逛的是这个有猜你喜欢的推荐

搜索有推荐 收藏有推荐

加购有推荐 下单有推荐

交了钱还有推荐

其实所有环节的推荐

其实都只有一个目的

就是增加用户的粘性

能让你真正在这个平台上逛起来

能让他这个平台留住用户

那么它就有更多的用户的腾挪空间

可以供它来分发它的广告

那其实整个推荐系统

它需要解样的决一个什么样问题呢的

简单来说

可以用这样一张图来表示

这个非常的简单

比如说一个用户A

他假如说已经点击了123三个商品

我认为他对这三个商品是有偏好的

那么我整个推荐系统需要做什么

就是从我所有商品库中

这12个商品中预测出来

这个用户A还会喜欢哪些商品

给他们打一个分

然后我就把那个分最高的

就是用户最有可能喜欢的这个商品

把它推荐出来给一个倒排

然后给到用户

这个其实就是推荐系统

最直接 最简单的一种理解

那为什么推荐系统

会变成一个很复杂的东西呢

就是我们会发现

其实大的公司有很多人在做推荐 做广告

它底层的原理其实就是很简单

就是对于每一个user和

每一个item这样的一个pair

我给一个评分

那么事实上呢

在很多非常大的这个场景平台

比如说在爱奇艺

它可能有五六亿的这个用户

那它有上亿的视频内容

那这个时候

我可能需要去计算

这个用户到item的这个得分

它是一个几亿乘以几亿的一个矩阵

那这个对于任何一个公司来说

都没有这么强大的计算

和存储能力来支撑这样的计算

这个时候其实我们就需要

在这个计算存储资源的消耗

和这个推荐效果中间取得一个折中

其实整个推荐系统

我觉得是一个折中

和平衡的这样一个系统

那这个是一个最简单的一个推荐系统

主要包含的几个方面

那刚刚已经介绍了

其实就是整个推荐的本质

其实就是一个打分

我去对用户和这个item的兴趣

给一个预估的评分

那么事实上

由于我们的计算资源和存储资源

其实并不能支持

我们对每一个user和item的pair

去进行打分

所以我们增加了一个召回的模块

那这个召回的含义是什么呢

其实就是对于

所有我们送进这个打分模型的这些item

我们进行一个初筛

比如说我有1亿个视频

那么我先把一个用户

他最有可能喜欢的一千个视频

先把他初筛出来

然后我真正送进这个评分模型

可能就只有这一千个视频

所以说其实一个真正的大数据

线上大场景流量的这个推荐系统

它主要会包含召回和排序两个模块

那么其实它的这个排序

你也可以串联的串很多

比如说你可以先对一些少量的特征

进行排序 粗排

然后再去送到一个精排的模型里

最后展示给用户

那么除了这两个核心的模块

其实还有两个必不可少的模块

数据回流和整个特征的部分

那数据回流

其实主要是通过展示给用户的内容

以及用户的展示点击的行为数据

把它形成正负样本

反哺到我们的召回算法和排序模型中间

能够让我们更加准确地去

优化我们的排序模型

在下一次给用户推荐的时候

我们是通过这样一些正负样本

能够找到用户更精准的兴趣的

那另外一部分呢

就是所有的特征部分

那这些特征有的是这个T+1离线计算

有的是实时计算的

它可能会包括很多的方面

比如说这个用户的兴趣 偏好 行为等等

那么视频的种类 热度 舆情 明星等等

这些可能都是他的特征

甚至包括用户到这一次场景

访问的一些环境特征

比如说这个时间 地点

你是否是工作日

是不是你常规登录的时间等等这些

那么另外一个常见的模块呢

其实是特征工程

我把这两个写在了一起

那么这个特征工程

其实是对我们所有特征

进行加工的一个工具模块

你可以理解

那主要其实是包含了很多特征的离散化

包括笛卡尔积这些

比较常规的一些特征的处理手段

那其实整个常规的线上推荐系统

这是几个必不可少的模块

那真正你到线上用的时候

可能还会加很多其他的模块

比如说在后面会加一些降权 过滤

比如对于用户已经观影的

或者展示了多次并没有点击的这种

你可能会考虑做降权

可能对于同一个场景

展现太多相似的内容

可能会影响用户体验

那么这个时候

我们可能要去做一些类型的打散等等

这些应该都是放在

这个展示之前排序模型之后的

这个只是一个比较基础的

这几个模块几乎都是

线上的一个推荐场景必不可少的模块

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

个性化推荐系统笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。