爱奇艺的智能评分慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

我再看一下最后这一块

是做智能评分

这一块大家很直观的能够感受到

大家打开我们爱奇艺的软件

进入我们的电影频道

有没有发现下面多一个评分

这是最近的一个《流浪地球》

我们打出来有8.6分了

我刚才说的

我们肯定不是拍一下脑袋

或者做一些什么数据上的处理

我们市场现在豆瓣

大家知道业内做的最早

也是被认可度最高的就是豆瓣

豆瓣的话

它会有一些很专业的影评人

而且也打分

都是有专业知识

当然它也有它的缺点

或者是它的不足之处就是说

它没有现场用户的真实的观影数据

可能你打出来一个分

它顶多能做的一些事情

就是计算你这个人的信用程度

你的信用程度高

你最后权重大一点

最后到总分影响大一点

如果你的信用度比较低

你打出来的分

可能最后对结果的干扰就小一点

他能做的也就是这样的事

但是可能细节可能是我不知道的

那我们爱奇艺不一样

咱们生态是个闭环

就是说你可能有一百个人看了电视剧

可能看了一部电影

可能只有一个人打了分

这没关系

但是你可能还会有其他的一些戏码

你可能会发一些弹幕

你可能会有一个顶和踩

你会有

这是一个关于你有没有拖拽

你是很完整把那个电影给看完呀

我们有完整一些用户行为信息

我知道我们爱奇艺目前是业内

包括优酷和腾讯

我们是唯一一家

用自己的用户行为数据

来做我们电影打分的

像其他的那块

可能就是用的豆瓣数据

当然这不是给我们自己做广告

这是我们市场部PI的一些话

我们是怎么做到

我们可能会把一些用户行为数据

比如说像顶和踩一样

一些评论数据一样

包括一些用户正式的打分数据

包括用户的一些观影数据

和用户一些放的弹幕数据

我们都会融合到算法

然后包括结合一些

影片的属性和用户属性数据

这有可能说的比较概括

实际上我们融合进来

绝对不会是用一个算法模型

这是我为什么

想把这个智能评分放在这儿讲一讲

我们前面讲的比较多的

就是一些比较深度的模型

一些深度的神经网络

实际上我会看到

他这个深度神经网络

并不适合所有的用户场景

我们可以用一些数学方法

一样可以解决一些问题

而且我们针对同一个问题跟类目

我们需要有不同的模块

我们针对不同的数据、特点

我们肯定需要选择不同的模型

我们举个例子

我可能会举个两个例子

比如说我们对于

顶和踩这个数据怎么用

我们可以看到

应用顶定和踩数据的话

一种最直观的一些用法就是

顶代表用户喜欢

踩代表用户讨厌或者不喜欢

一种很直观的想法就是

我们把顶的人数

除以顶加踩的人数

就是把顶加踩人数除以总人数

得到一个所谓的这么一个好评率

然后再做一些归一化

或者是其他一些数学上的处理

得到一个分数

得到更好相关的分数

那么这样做是合理的吗

我们可以看一下这个（英）

比如说有A B有两部影片

比如说A影片有两个人顶它

没有人踩

那B影片可能有一百个人顶

只有一个人踩

那我可能这个

例子举的还不够极端

如果我们把A B说的更极端一点

比如说B里面有一万个顶

只有一个人踩

那么你通过计算一个好评也好

或者其他一些数学处理

你会发现最后得的结果

PA大于PB

这样显然是不合理的

因为A里面虽然有两个人顶

可能两个人是恰好喜欢

样本量太小了

它们两个样本量不在同一个水平线

差距非常大

这样的话会存在一个很大的问题

就是我刚才说的

如果当我们总人数比较少的时候

它的可信度是比较低的

因为对于A来说

只有两个人它才有评价

那么得到它的好评率是百分之百

如果我们按照十分来打

它打的是十分

实际上这种可信度是比较低的

对象一共就两个人

那我们怎么样对这个结果进行修正

首先我们可以看一下

它的数据模型

实际上顶和踩

是一个二分类的一个模型

从概率论上来说

那么在RF那个模型里面

做这种修正很经典方法叫做威尔逊区间法

这样的话

我们会把这个问题做一个变形

比如说我们之前

我们会算出一部影片打的是9分

那么我们现在改成

比如说A这部影片

可能有95%的概率

它的打分是在8.9-9.1分之间

我们把一个对单点的预测

变成对一个区间的预测

同时我们为了体现出

当那个打分的人数越多

实际上它的影片效果越好

或者可看度越高这样一个信息

我们用威尔逊区间法把这个置信度区间计算好以后

我们统一取它的那个区间的下限

做一个最后电影分数

对最后的结果进行修正

在这种情况下

你可能看到PA可能会少于PB

这样只是一个这样的思路

这就是我们

实际上我们用一个数学方法

来解决这个问题

还有一个比如说

对一个用户打分本身这样的数据

比如说用户看了一个电影后

他会打一个8分一个7.5分

这样一个打分的数据

那这个数据要怎么用呢

一种很直接的方法就是

我们把所有人的分数加起来

然后去除以一个总的人数

计算一个平均分

这样得到一个电影的打分人数

这样很明显会存在问题

比如说我刚才说的那个例子

一个影片可能只有一百个人看

他分都很高

可能另外恰好有9999个人

只是他还没有来看

还没有来打分而已

实际上对那一大部分人来说

他的评价可能很低的

那么我可能

直接用这一百个人打一个分

可能这种平均值

这样取不是特别合理

显然是不合理的

那么这个事要怎么做

我们同样是这样子

我们需要对打分数据

这个本身数据

我们需要对它进行分析

对它进行一些数学建模

我们可以看到符合一个什么分布

比如说我们可以看到

用户每次打分

肯定都是相互是独立的

而且大部分人看完都比较相似

极端人都比较少

这样我们可以看到这样一个行为

是符合一个t分布这样一个行为

t分布这样行为的话

实际上有个很经典的方法叫

贝叶斯平均法

不知道大家有没有听说过这个方法

是个很经典一个方法

那它的思路是什么样的

它会引入先验概率

比如说我们有A和B

两部这样一个资源要做评价

如果他们评价一个人数

没有在同一个量级

比如说A是一百个人

B是一万个人

他们的评价不在同一个量级

那么我引入一些虚拟的打分的人数

并且对这些虚拟的人数

我们会赋一个分数

比如说我统一赋个七分或者六分

就是说

当你打分受评价资源的人数

不在同一水平线的时候

我们从外面

拉一些人进来

拉一些虚拟人

打一些虚拟分

让这两部影片

受评价影片

他们评价样本数是在同一个水平线上

然后再进行计算

我们后续会用真实评价人数

不停的对他迭代进行修正

因为你每天都会有新的打分人数进来

我今天是一百

我明天可能就五百

后天是一千

我每天新增的数据

对原来的结果

不停的进行修整

让它越来越真实值相接近

这样就是我一个贝叶斯平均法

那么可以看到

贝叶斯平均法实际上是用

数学上做一些处理

效果还挺不错的

我知道有一些论坛计算

就是用这个贝叶斯平均法来进行打分的

但是也是存在一定问题的

它存在什么问题

比如说它只是

做一些数学上的一些处理

但业务上的问题它是没有考虑的

比如说它并没有考虑到各个影片

打分分布情况的一个区别

这块怎么理解

比如说我举个例子

比如说A和B这两部影片

最后通过贝叶斯平均法

计算出来的分数

都是6分吧

但是A影片这个影片

它的打分人数

那些观众大多是

会分布在比较两端

或者大多分布在8-9分

或者是3-4分之间

分布比较靠两端

B影片的话

它可能分都比较靠中间

比如说大部分可能都在5-7分之间

虽然最后他们用贝叶斯平均法计算出结果

它多出来6分

实际上很明显

我们从直观

或者从业务上感受

A影片的可看度应该比B影片高

为什么呢

首先是真的有一部分人觉得它好

第二个就是它会存一些话题冲突

这样很明显感觉到A影片的可看性

会比B影片高

但是用贝叶斯平均法只是做了数学上的处理

它是不会考虑到这样一种情况的

第二个实际上他并没有考虑到

人们打分一些情感的因素

比如说人们打出一个高分

或者一个低分

不是说那个恶意打分的除外

一般情况下

它是会表达一个很强硬的这种情感

他是比较真实的感受

他打出一个中间的分

可能他打的比较随意

那我就随意点打一个七分

所以人类打出个分数的话

他的情感因素是不一样的

单纯用贝叶斯平均法来做

这种方式肯定就会

也不能靠住这样的情况

那么这个事情要怎么对他进行优化呢

首先我们可以看到

我们从数学建模角度对他优化

我们可以看

我们打分这样的数据

除了t分布这个角度外

是不是还有其他的一个角度

比如说

我们可以看到

我们经过仔细分析我们会看到

比如说每次用户的打分

实际上是从0-10这样一个数字

他可能打一分两分三分四分

五分到十分是一个数字

那么我们就可以看的是

从一分到十分的

我们看的每次

用户都是从一分到十分

这十个选项中做出一个选择

那么从这样一个角度看

我们可以看到对一部电影的打分

实际上上就是一个多项分布

因为他实际上都是从一分到十分

这十个选项里面做出一个选择

这是一个多项分布

不管他看成是一个t分布的

然后我们可以看到

同时会来解决一些小众的电影

投票数比较少

或者打分人数比较少的问题

我们必须要像贝叶斯平均法一样

我们必须要引用一些先进的分布

我们引入一些行业的先验分布

引入先验分布以后我们可以看到

多项分布就变成了狄利克雷分布

我们会对一些不同打分区间的权重不一样

做一些权重

或者做一些参数这样的一些处理

但这种细节我就不说了

最后我们可以发现

解决了一个贝叶斯平均法

我们刚才说出的一些问题

可能这是我们数学上

实际上它也是一种数学建模

当然另外一个数据

比如说对于用户评论数据

用评论数据

仍然会有一些深度的模型

会做一些词字处理

对用户的情感进行识别

这个是另外之说

我想强调的是

我们需要针对不同的数据

做不同的处理

做不同的建模，用数学模型

不见得比深度模型差

可能我们真的需要仔细的去思考

去思考这个业务

我们学到了各种知识

包括一些学习

包括一些数学方面的知识

认真去思考

我们用什么方式去做它比较适合

大概就是这样

今天给大家讲完了

不知道大家有什么问题没有

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

爱奇艺的智能评分在线视频

爱奇艺的智能评分课程教案、知识点、字幕