当前课程知识点:大数据技术与应用 > 杨紫陌:个性化内容推荐 > 个性化推荐系统 > 个性化推荐系统
我们今天非常荣幸地
请到爱奇艺的几位同事
来帮我们做一个讲座
这个讲座呢是个系列讲座
所以我们连续三周的这个时间
都会在这里呢
给大家办这样一个讲座
讲座呢是信息技术研究院的
系列讲座之一
也是我们大数据讲座课程的内容
那么今天来给我们做报告的
做演讲的是杨紫陌
她是爱奇艺的研究员
负责视频内容的个性分发
海报图推荐语的自动生成
和分发等项目
当年也是学霸
曾经获全美数学建模的
特等奖 最佳组织奖
最佳创意奖
而且发表过SCI的期刊论文十余篇
其中有一篇入选
ESI的全球最高引用论文
因为当年学霸的这个身份
所以是2013年的校招阿里星
在阿里集团曾经负责
精准营销 商品推荐
支付宝的智能运营等等项目
后来就被挖到爱奇艺来了 我猜
啊我们今天也要特别感谢龚宇校友
因为这个系列讲座这三讲
是请他帮我们联系爱奇艺安排的
欢迎大家来
那下面我们就请紫陌来给我们做演讲
各位同学下午好
今天我给大家分享的topic是
寻找与创造
这个话题名字起的比较文艺
不过分享的内容还是有点偏技术
这边的寻找呢
其实是能够快速地帮助用户
从海量的内容中间
寻找到自己感兴趣的
那么这里的创造呢 主要是指
我们有没有可能
通过一些技术的手段
为用户创造或者创作一些
用户感兴趣的内容
那么这两个层面的topic
都是围绕着个性化推荐
这样一项技术展开的
首先呢是这个寻找的部分
我们也称之为智能分发
智能分发或者说个性化推荐这套系统
其实这几年内
它技术发展得非常的迅猛
应该说有几个契机
第一个是因为这五年来
大家使用互联网的场景从pc端
走向了这个移动端
那么移动端它就给这个用户
这个屏幕的限制
以前用户习惯在pc端
使用这种树状的分类结构
来去寻找自己喜欢的内容
比如我要找一个衬衫
那么我可能会先去找服装
然后去找男装或者女装
然后去找上衣
然后再去找到衬衫
那么是这样的一个路径
但是现在这个手机的屏幕非常的小
它根本就不会允许你去
放一个一整套的一个分类树
那么就要求在这么小的屏幕内
我们能够迅速地捕捉到用户的兴趣
那这是第一点空间的限制
那第二点其实是时间的限制
就是在这个移动场景下
用户的时间它是不断地去碎片化的
大家可以很明显地感觉到
在PC的时代
用户更多的可能是
愿意花整块的时间去浏览长的内容
但是这几年随着
这个抖音快手这样的崛起
那么用户他很多碎片化的时间
都花在了互联网上
那么这个时候
怎么样能够去适应
这种用户碎片化的时间
让用户能够利用这些时间
找到自己感兴趣的内容
就对个性化推荐
相当于有了一个新的要求
那么什么样可以称之为
是一个推荐系统
或者说是一个个性化分发系统
它核心要解决的一个问题
其实就是猜你喜欢什么
推荐系统其实是一个比较直接理解
为什么它的核心问题是这个的
那其实互联网上很多的产品
比如说搜索引擎 广告系统
那么它核心要解决的问题
其实也是猜你喜欢
甚至来说猜你喜欢的这套算法技术
同样的思路也可以用来解决
比如说风险控制 反作弊等等
那么它解决问题的
这个思路其实是一致的
那为什么我们说这个整个搜索引擎
它需要解决的这个核心问题
也是猜你喜欢
是因为其实本身比如说
你在百度输入一个搜索词
比如叫苹果
那么可能和这个搜索词相关的网页
可能有上千万甚至上亿个网页
但是用户的耐心呢
就只允许你展示30个
他不会再翻了三页以后还继续往下翻
如果他翻了三页
还找不着他喜欢的内容
他可能就认为你这是一个
体验很烂的搜索引擎
那广告呢
其实更是和这个猜你喜欢
和收益是直接相关的
互联网产业其实是一个
以转化流量价值变为广告价值
为主要盈利手段的这样一个产业
那么广告这样一个行业
如果说你能够
把这个用户喜欢的内容或者商品
以最短的路径展示到用户面前
它产生的就是直接互联网行业的利益
比如说在2013年的时候
淘宝的直通车广告展位
大概每天要为淘宝
贡献三个亿左右的收入
那么它是按点击收费
就是如果我展示给用户一双鞋
用户确实喜欢
他点击了
这一次点击我可能就收几块钱
那也就是说
如果说我猜用户喜欢这双鞋
猜得非常准的话
所有用户都点的话
只要提高一个点
对于阿里集团来说
可能每一年就会增加上亿的收入
这也是为什么
大部分的互联网公司
它愿意花很多的钱
来做这个广告
或者说推荐的这样一个算法
那么整个推荐系统他的价值定位
其实和搜索引擎
还有广告系统是不一样的
虽然它们解决这个问题是比较类似的
那么它主要是通过
能够帮用户迅速地
寻找他到他喜欢的东西
发掘他的兴趣 来增加用户粘性
能够让用户更愿意
花时间在你的平台上
那么用户的时间和黏性
其实也就是互联网这些平台的价值
其实现在的推荐系统已经很普遍了
不管是你在看视频的时候
你刚进首页的时候会做猜你喜欢
还是说你在看视频当中
有一些关联推荐
或者说你看完视频了以后
有一些周边推荐 片花 解读等等
那包括比如说在这个电商的场景
可能你刚过来的时候
你要逛的是这个有猜你喜欢的推荐
搜索有推荐 收藏有推荐
加购有推荐 下单有推荐
交了钱还有推荐
其实所有环节的推荐
其实都只有一个目的
就是增加用户的粘性
能让你真正在这个平台上逛起来
能让他这个平台留住用户
那么它就有更多的用户的腾挪空间
可以供它来分发它的广告
那其实整个推荐系统
它需要解样的决一个什么样问题呢的
简单来说
可以用这样一张图来表示
这个非常的简单
比如说一个用户A
他假如说已经点击了123三个商品
我认为他对这三个商品是有偏好的
那么我整个推荐系统需要做什么
就是从我所有商品库中
这12个商品中预测出来
这个用户A还会喜欢哪些商品
给他们打一个分
然后我就把那个分最高的
就是用户最有可能喜欢的这个商品
把它推荐出来给一个倒排
然后给到用户
这个其实就是推荐系统
最直接 最简单的一种理解
那为什么推荐系统
会变成一个很复杂的东西呢
就是我们会发现
其实大的公司有很多人在做推荐 做广告
它底层的原理其实就是很简单
就是对于每一个user和
每一个item这样的一个pair
我给一个评分
那么事实上呢
在很多非常大的这个场景平台
比如说在爱奇艺
它可能有五六亿的这个用户
那它有上亿的视频内容
那这个时候
我可能需要去计算
这个用户到item的这个得分
它是一个几亿乘以几亿的一个矩阵
那这个对于任何一个公司来说
都没有这么强大的计算
和存储能力来支撑这样的计算
这个时候其实我们就需要
在这个计算存储资源的消耗
和这个推荐效果中间取得一个折中
其实整个推荐系统
我觉得是一个折中
和平衡的这样一个系统
那这个是一个最简单的一个推荐系统
主要包含的几个方面
那刚刚已经介绍了
其实就是整个推荐的本质
其实就是一个打分
我去对用户和这个item的兴趣
给一个预估的评分
那么事实上
由于我们的计算资源和存储资源
其实并不能支持
我们对每一个user和item的pair
去进行打分
所以我们增加了一个召回的模块
那这个召回的含义是什么呢
其实就是对于
所有我们送进这个打分模型的这些item
我们进行一个初筛
比如说我有1亿个视频
那么我先把一个用户
他最有可能喜欢的一千个视频
先把他初筛出来
然后我真正送进这个评分模型
可能就只有这一千个视频
所以说其实一个真正的大数据
线上大场景流量的这个推荐系统
它主要会包含召回和排序两个模块
那么其实它的这个排序
你也可以串联的串很多
比如说你可以先对一些少量的特征
进行排序 粗排
然后再去送到一个精排的模型里
最后展示给用户
那么除了这两个核心的模块
其实还有两个必不可少的模块
数据回流和整个特征的部分
那数据回流
其实主要是通过展示给用户的内容
以及用户的展示点击的行为数据
把它形成正负样本
反哺到我们的召回算法和排序模型中间
能够让我们更加准确地去
优化我们的排序模型
在下一次给用户推荐的时候
我们是通过这样一些正负样本
能够找到用户更精准的兴趣的
那另外一部分呢
就是所有的特征部分
那这些特征有的是这个T+1离线计算
有的是实时计算的
它可能会包括很多的方面
比如说这个用户的兴趣 偏好 行为等等
那么视频的种类 热度 舆情 明星等等
这些可能都是他的特征
甚至包括用户到这一次场景
访问的一些环境特征
比如说这个时间 地点
你是否是工作日
是不是你常规登录的时间等等这些
那么另外一个常见的模块呢
其实是特征工程
我把这两个写在了一起
那么这个特征工程
其实是对我们所有特征
进行加工的一个工具模块
你可以理解
那主要其实是包含了很多特征的离散化
包括笛卡尔积这些
比较常规的一些特征的处理手段
那其实整个常规的线上推荐系统
这是几个必不可少的模块
那真正你到线上用的时候
可能还会加很多其他的模块
比如说在后面会加一些降权 过滤
比如对于用户已经观影的
或者展示了多次并没有点击的这种
你可能会考虑做降权
可能对于同一个场景
展现太多相似的内容
可能会影响用户体验
那么这个时候
我们可能要去做一些类型的打散等等
这些应该都是放在
这个展示之前排序模型之后的
这个只是一个比较基础的
这几个模块几乎都是
线上的一个推荐场景必不可少的模块
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接