当前课程知识点:互联网大规模数据分析技术 >  第八章 推荐系统 >  第21讲 推荐系统简介 >  第21讲 推荐系统简介

返回《互联网大规模数据分析技术》慕课在线视频课程列表

第21讲 推荐系统简介在线视频

下一节:第22讲 推荐系统之协同过滤

返回《互联网大规模数据分析技术》慕课在线视频列表

第21讲 推荐系统简介课程教案、知识点、字幕

欢迎来到

互联网大规模数据分析技术

的课堂

我是今天的主讲教师李琳

来自武汉理工大学

今天我们开始第21讲

推荐系统简介

前面的课程当中

我们接触了大量的概念

比如说数据分析

文本的分析,信息检索

搜索引擎,社会计算,大数据

今天我们在这里面还要讲一下

推荐系统

推荐系统这样一个内容呢

我们将从以下三个方面

跟大家介绍

首先我们看一下什么叫推荐系统

其次呢

我们会介绍一些基本的技术

在这一讲当中

我们会讲基于内容的推荐

当你想买手机的时候呢

那你就会去搜

当你输入

手机这样一个关键词的时候

你会发现有大量的手机图片

涌到了你的眼前

那我究竟该买哪一个呢

也就是说在Web这样一个时代

我们不是买不到东西

而是因为东西太多

我没办法做选择

这就是一个

Decision making problem

遇到这样的问题

传统的方法会怎么做呢

给朋友打电话

你买的什么手机最近用的怎么样

看看电视广播

今天的新闻

推荐的是哪一款手机

我和一个手机专家

去打个电话问一下

你行业内会觉得哪个手机好呢

现在我想大家常用的方式

是干什么呢

在互联网上去找信息

希望互联网

能够向你推荐一些性能比较好

你有可能喜欢的商品

当然你也可以跟随大众的选择

这样一个东西

卖的最多卖的最好

那我就买它吧

所以这是一些传统的方法

在这样一个课程当中呢

我们首先对推荐系统做一个定义

推荐系统

我们把它定义为一个软件代理

它能够智能地去分析

用户的兴趣和喜好

同时根据你的兴趣和喜好

来进行推荐

在这样一个电影推荐当中

比如说

I?like “Drama” Movies

这个时候呢

你告诉了这样一个软件代理

也就是推荐系统

我喜欢什么东西

它会根据你的喜好来进行推荐

这是大家一个

熟悉的网站Amazon 的

这样一个图书推荐系统

大家在点击某本图书的时候

会看到下面有一个字条

Customers who bought this

also bought

也就是说

有别的用户在买了这本书的时候

同时也买了其他的书籍

你可以参考一下

这是一个典型的图书推荐系统

还有一些什么

Web上的场景会用到推荐呢

电影,在这里看到了

Movies we think you will love

这是它的推荐

还有音乐的推荐

我们可以看到

推荐系统,我们简称RS

也就是帮助用户去匹配商品

在这个里面呢

我们会有各种各样的设计的方式

来实现这样一个系统

在这里首先我们要考虑一下

当你实现这样一个系统的时候

从哪一个角度来考虑

比如说我们考虑领域的需求

比如说我们考虑用户搜索的过程

能不能减少一点

尽快地提供用户的

感兴趣的物品

另外我们在搜索的时候

还会考虑一个非常有趣的现象

意外发现

什么意思呢

比如说

你输入《推荐系统》这本书

那我给你推荐了,推荐系统简介

推荐系统最新发展这些来说

对你来说都不算太稀奇

或者来说对你来说

并不是有太大的意外

但是,如果有一天

在这个推荐系统当中

给你一本长尾理论

你顿时会觉得很奇怪

我找推荐

它为什么给我长尾理论呢

也就是说在推荐的时候

我们更希望帮助用户

去查找一些新的

这样一个方法呢在经济学当中

我们把它叫做长尾理论

家看一下这张图

黄色的部分像一个长长的尾巴

红色的部分我们把它叫做头

在这样一个图当中

横坐标代表什么呢

产品的类别

纵坐标代表什么呢

Popularity

也就是用户的喜欢程度

或者说用户的购买次数

我们会发现少量的商品

被大量的用户购买

而大量的商品几乎无人问津

在这样一个理论当中

想告诉大家什么意思呢

也就是说

在互联网经济时代

我们想做的是

如何从这样一个长长的尾巴当中

去发现“金子”向用户推荐

他可能感兴趣的东西

你推荐一些常态的东西给我

我觉得你这个推荐

似乎不是那么智能

似乎不是那么有趣

所以这是长尾理论

给我们的一些启示

也就是说在推荐的时候

如果你从这一个角度

来建设你的推荐系统

你所采用的方法和评价的指标

就会有所不同

这是一个对真实的数据

做的一个分析的调查

我们会发现大量的用户

对这个商品的打分

都会集中在少量的商品上面

很多部分的商品的打分

实际上都很小

这是一个DVD网站的数据

在这里呢我们给这样一个总结

叫80%和20%的定律

推荐大量的未知的商品

用户可能感兴趣

在现实生活当中

20%的商品

积累了将近80%的正面的评论

也就是说

还有很多80%的商品用户

根本就不知道它的存在

从而没有去购买它

如何对这样一些商品

去挖掘它的潜在的用户

成为用户感兴趣的商品呢

成为了目前推荐系统

所研究的热点问题

在今天的课程当中的

我们当然只是在这里做一个引导

感兴趣的同学

可以做进一步的文献调研

好了,接下来看一下

在推荐系统当中

实际上我们是想预测

预测什么呢

预测用户究竟会对一个

没有买过的商品

到底喜欢还是不喜欢

或者是喜欢的程度有多少

所以针对这样一个问题呢

今天呢我们会介绍相关的技术

我们有一个推荐系统

我们知道用户的喜好

我们知道用户的地域分布

年龄各种各样的信息

我们知道用户

对这样一些商品打了多少分

大家用过淘宝五分四分三分对吧

我们还知道这些商品是什么

是什么电影是什么衣服

是什么食品

我们推荐系统

就要根据这样一些信息

来形成最终的相关性的打分

主要的一些技术呢

在这里我们首先看一下

你最终的输出结果要是什么样的

刚才我们看到了有很多输入

我们输出

就想得到这样一个list

这个商品,你打了0.9分

这个商品,你打了1分

那么打1分的就排在0.9的前面

也就是说

我们仍然需要对商品进行排序

这是一个

根据用户的喜好来进行排序

也就是说我有一些商品

我知道用户喜欢什么

不喜欢什么

那么我就把和用户的喜好

匹配的商品放在前面

我们把这个叫做个性化推荐

还有一种呢是基于内容的

我以前买过这个商品

大概是这样一些内容

今天我还想买别的商品

请你告诉我这个这些商品当中

哪个商品

和我以前买过的商品比较相似

这就是

Show me more of the same

what I’ve liked”

另外第三种就是我们的协同过滤

我以前是买过一些东西

但是我的朋友也买过一些东西

能不能告诉我

我的朋友当中她们哪些商品

被她们所喜欢和购买

那么你也向我进行推荐

这叫作协同过滤

协同过滤

我们会在下一讲跟大家介绍

今天呢我们主要关注

基于内容的推荐

我们还可以把刚才所介绍的

各种推荐技术融合在一起

混合地进行推荐

这是最后的这样一个

混合推荐的方法

那接下来我们今天学习

基于内容的过滤

在这样一个

基于内容的推荐过滤当中

我们首先要知道用户的兴趣爱好

在这里英文单词叫做preference

另外

我们还要知道哪些商品和

你的兴趣爱好是进行匹配的

也就是相似

提到相似这个概念

大家应该还记得我们前面

所讲过的各种相似度计算的方法

欧式空间距离cosine相似度

这些在这里我们都会用到

基于内容的这样一个过滤呢

请告诉我我以前喜欢过的东西

和目前的商品当中有没有匹配的

我以前喜欢的什么东西

该怎么来表示呢

在这里

你可以把这些内容

都用文字的形式

我们或者说用Keyword的形式

用Keyword的形式描述

你以前购买的各种商品的性质

比如说这个里面作者是谁

是什么类型的

有哪些关键字来形容这个文本

这本书、这一个唱片

这一部电影

这样一些关键字组成之后

就可以把它组成我们的

向量空间模型

大家应该还记得

在信息检索系统当中

我们给大家介绍了向量空间模型

并且

也告诉了大家

如何计算一个单词的重要性

在这里面同样也可以用到TF-IDF

在这个里面呢

关键词所遇到的一些问题

同样在这里面也会出现

比如说没有考虑单词出现的位置

当然这样一些信息呢

在后期的一些文章当中

就有一些改进的方法

在这里我们只给大家讲解

使用标准的TF-IDF

这样一个权重计算指标

来给每一个内容的关键词

进行权重的计算

在权重计算的时候呢

大家应该记得我们前面所列的

这张表对不对

Antony这个单词

出现在这样一部作品当中

它的重要性是5.25

这个5.25是怎么计算出来的呢

就是我们的TF-IDF

同样,对于每一个用户

我买了这个商品

它的关键词

出现的次数权重再怎么算

在这里面大家也可以

写成这样一个矩阵的形式

当你把这样的表示方法

弄好了之后

大家可以用我们的

相似度计算指标来计算相似度

计算相似度之后大家就可以

把最相近的商品返回给用户

在这里面呢我们最相近的商品呢

也可以叫nearest neighbors

这样一种计算方法对于满足

用户短期的喜好是比较匹配的

但是它也会产生一个问题

就是推荐的商品太相近了

你买苹果我就给你推荐苹果

难道今天我不想吃梨吗

所以这个里面会有一定的问题

这就是基于内容推荐的这样一个

系统它的局限性

在具体的使用当中我们可以把

基于内容的方法

作为其他推荐方法的一个补充

来更好地实现推荐

这就是今天课程的主要内容

感谢大家的观看

互联网大规模数据分析技术课程列表:

第一章 大数据与数据挖掘概述

-第1讲 大数据与数据挖掘概述

--第1讲 大数据与数据挖掘概述

第二章 关联规则

-第2讲 频繁项集和关联规则的基本概念

--第2讲 频繁项集和关联规则的基本概念

-第3讲 Apriori算法

--第3讲 Apriori算法

-第4讲 Apriori算法的改进与兴趣度度量

--第4讲 Apriori算法的改进与兴趣度度量

第三章 分类算法

-第5讲 分类的基本概念

--第5讲 分类的基本概念

-第6讲 决策树

--第6讲 决策树

-第7讲 简单贝叶斯分类

--第7讲 简单贝叶斯分类

第四章 聚类算法

-第8讲 聚类的基本概念

--第8讲 聚类的基本概念

-第9讲 K-Means & K-Medoids Clustering

--第9讲 K-Means & K-Medoids Clustering

-第四章 聚类算法--习题

第五章 大数据平台与技术

-第10讲 大数据处理平台Hadoop

--第10讲 大数据处理平台Hadoop

-第11讲 MapReduce编程

--第11讲 MapReduce编程

-第12讲 大数据处理平台Spark

--第12讲 大数据处理平台Spark

-第13讲 NoSQL数据库

--第13讲 NoSQL数据库

第六章 信息检索

-第14讲 Web信息检索简介

--第14讲 Web信息检索简介

-第15讲 信息检索之倒排索引

--第15讲 信息检索之倒排索引

-第16讲 信息检索之TFIDF

--Video

-第17讲 信息检索之相似度排序

--第16讲 信息检索之TFIDF

第七章 Web链接分析

-第18讲 Web搜索之链接分析

--第18讲 Web搜索之链接分析

-第19讲 Web搜索之PageRank

--第19讲 Web搜索之PageRank

-第20讲 Lucene信息检索平台

--第20讲 Lucene信息检索平台

-第七章 Web链接分析--习题

第八章 推荐系统

-第21讲 推荐系统简介

--第21讲 推荐系统简介

-第22讲 推荐系统之协同过滤

--第22讲 推荐系统之协同过滤

-第23讲 Mahout数据挖掘平台

--第23讲 Mahout数据挖掘平台

-第24讲 信息过滤评价体系

--第24讲 信息过滤评价体系

-第八章 推荐系统--习题一

-第八章 推荐系统--习题二

自我提升练习

-综合编程题

第21讲 推荐系统简介笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。