当前课程知识点:2014年清华大学研究生学位论文答辩(二) >  第4周 建筑学院、航院、自动化系、计算机系、信研院 >  秦利静《推荐系统模型与学习算法研究》 >  计算机系秦利静问答

返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频课程列表

计算机系秦利静问答在线视频

计算机系秦利静问答

下一节:计算机系秦利静点评

返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频列表

计算机系秦利静问答课程教案、知识点、字幕

好 谢谢

下面请大家提问

那我问你一个

就是在那个第三章

你那个基于老虎机模型的

这个冷启动这个推荐算法中

就说因为你那个实验

会用到用户的反馈对吧

那你在设计的时候

用户反馈这块是怎么来体现的

用户

这里因为这个老虎机模型

它是一个序列化的优化问题

所以我们是每一轮它是分

是一个迭代的过程

每一轮给用户提供一个

电影集合

用户会对这个电影集合

内的电影进行评分

然后我们就收集到这个评分

这就是一个收集用户反馈的过程

然后我们收集到这个用户

对电影的评分之后

然后它又在迭代过程中

重新去优化这个模型的参数

然后又到下一轮返回一个超级臂

那你在这个实际的实验中

你是用标准的数据集呢

还是说真实的找了多少用户

来做这个工作

是用的标准的数据集

标准的数据集 模拟的过程

对 模拟的过程

好 谢谢

你的第二章在多样化推荐里面

就是你在实验里面写了

跟两个方法做比较

就是其实代表当前

多样化推荐里面

最好的方法就是说

你为什么选这两个方法

这里我们主要是首先是

它是我们有两个比较方法

一个是它是标准的

矩阵分解模型

它不考虑多样性

所以我们看看

这个实验效果怎么样

然后另外一个MMR

它是一个应用比较广泛的

去冗余的方法

所以它可以看作是一个

最先进的

多样化的 多样化的

这样一个推荐方法

当它结合矩阵分解

模型的时候

就是说那个是后者是

当前多样化推荐里面

在这个数据集上最好的

不考虑

我认为不考虑利用语义信息的话

它应该是最好的

我问一个

你在这个多样化推荐当中

你算的这样一些数据

都是它已有的那些

它选择以前选过什么东西对吧

因为你这个本身

其实它并没有考虑对不同的物品

用户的差异对吧

你比如你举这个例子 看电影

对吧

看电影的时候

可能他需要的

你比如看完电影以后

他不希望再去看

《教父》类似的电影

他可能已经有了

或者是推荐什么其他的

那些相关的这些

那么除了电影以外

假设是选其他的比如选电脑

这些物品本身对他有没有影响

就是你现在是

上面是它的网点的数据

对不同的领域

假设我换一个领域

有没有关系

考虑没考虑这个问题

我觉得这个其实是可以

换一个领域的,宗老师

因为就是我们这个模型

它本身 本身它是一个

不考虑 不考虑内容的

就是说比如说它不是运用

不是一个新闻文本推荐

那我们如果是在其他的

比如说是购物 购物网站

那我们说我们买了一部电脑

或者说我们再买了一部

我们买了一个电脑

或者我们买了一个相机

那么如果能够量化

这个用户对这个电脑

或者相机的评分的话

我觉得是可以的

对 我就说对于同样一个人

你可能他选手机的时候

可能是一种情况

她选择化妆品可能不同

我是这个意思

但是这个你只要他是一个

他们是都是这个数据

那是没有问题的呀

另外你在这个老虎机

这个冷启动推荐算法当中

你这个44页这个表

这个T是什么

刚才没听明白

T是那个因为它是一个

迭代的过程

我们收集了多少轮的那个

用户反馈

第一轮第二轮 第三轮

这样一个T

你最多迭代十次是吧

这个比如说

老虎机的这个

你不是迭代吗

那你觉得迭代多少次之后

你的算法就和冷启动一样呢

这个实验中我们

是迭代十轮就差不多了

就可以与热启动差不多

但是你做那个表上

迭代次数越大的话

它这个热启动差距越来越大

这个曲线

在少的时候基本上有些时候

还不如这个

这个热启动

因为我在 因为时间的限制

我没有特别解释

这里热启动我们分为两个

一个是热启动2K

一个热启动全部

热启动2K

是我们只给这个热启动两轮的

就是我们两轮的

用户评分的数据

所以它是一直不变的

那么我们这个热启动算法

当它得到的用户反馈

越来越多

超过这个它有可能就超过了

这个 这个热启动2K的这个算法

那么热启动全部

它是指我们把所有的数据

都给这个热启动算法

来训练数据

来训练这个用户的兴趣

那它其实可以相当于

冷启动算法的一个最优解

所以我们只能无限接近它

冷启动算法只能

无限接近这个最优解

我觉得我有几个问题吧

第一个问题就是冷启动

其实现在研究蛮多的

就是为什么你只选择这个

K-LinUCB作为你的

这个baseline算法作比较

就说你其实只比较这个老虎机

这个相关的算法

就其他的冷启动

相当于说你还没有

做任何的比较是吧

对对 您说的对

因为这个冷启动算法

确实是有很多

但是其实它们都不是

利用用户反馈的

他们冷启动通常是利用

一些外部信息

因为 因为它这个冷启动

主要是协同过滤的问题

协同过滤它因为需要

用户对物品的评分

如果没有评分的话

那就存在这个冷启动的问题

那很多它那个冷启动算法

它是利用那个基于内容的

过滤算法它加入一些

用户和物品的外部信息

比如说 比如说那个协同话题模型

它就是一个

它就是一个可以解决

它号称可以解决冷启动的问题

因为它不光利用这个用户

对物品的评分

它还利用这个物品的内容

比如说在论文上

它还用这个论文的

论文的这个文本信息

那它就如果它有论文

这个文本信息

那它就不一定非要用户

对这个论文进行评分

那这类方法它不是

利用用户反馈的

那在我们这个实验中

是没有办法很好的比较的

但是我就说你觉得第二个问题是说

你前面研究两个

是跟推荐比如冷启动多样化

到第三个为什么就

怎么就到了这个最优话题模型

就是前面两个都是矩阵分解

然后后面又为什么用了

topic model要用这个狄利克雷

这个过程

就是这个之间

你就是说为什么

比如说有没有可能

就是说动态数据建模

我们也用矩阵分解的方法

或者加一些贝叶斯先验

或者用一些比如regular的方法

来做就是说为什么会

跳到这个方面来

其实因为你如果对动态数据

建模的话

我们这里不是说我们要找一个

动态的推荐算法

我认为研究侧重点在于

对动态数据进行建模

那矩阵分解的动态的

目前我

你可以把它变成tensor是吧

有这种研究

对 是有这种研究 对

那你为什么没有从这个角度找

那样不是整个方法上

不就变成一样的

都是一个体系都是矩阵的

都是tensor,都是这样的

我可以考虑在后续的工作中

加入这部分

OK

然后第四个就是说你第四个工作

就是说我感觉你第四个工作

好像跟前三个工作

并没有紧紧地耦合在一起

第四个工作你说了

你说展望未来可以在这个

在这个推荐中用

第四个工作好像感觉

跟前三个是更孤立的

是吗

这个因为我整个这个

研究的思路它主要是

方法上的

所以其实聚类算法

在推荐系统中的应用

是非常多的

有很多我们如果去

去查一下的话

有非常多

在这里我在presentation的时候

也说过

它其实在基于内容的过滤

还有协同过滤

甚至还有一些人利用聚类

来增加结果的多样性

你可以把这个推荐结果

聚一下类

然后你通过选择不同类中的

这个推荐这个物品

从而使这个推荐结果

满足多样性

所以这个聚类算法

其实它在推荐系统中的

应用是非常多的

我觉得研究它其实是

推荐系统的一条线之一吧

好 你那个

我有几个问题

一个是你第四章

那个狄利克雷过程

这里边决定那个

你说你的算法一个好处

可以自动决定这个话题的个数

对吧

这是一个非常显著的

一个特点

我们经常痛苦于这个个数

去靠实验去确定

你有没有观察就是

这个机器给出来的那些个数

如果把它那个个数

人为的比如说给它增加几个

或者减少几个

对最后结果影响大不大

有没有去考察

现在反正你是算

程序跑出来就是什么是吧

不会去留意那些变化

看看它的差异有多大

因为它这个模型就在于

你不能设置它这个

不能设置这个聚类的个数

但是这个聚类

其实这个非参数模型

它的研究它有两个

这个学习算法

一个是

叫那个 叫什么

一个是叫那个吉布斯采样

另外一个学习算法

它其实就是需要你去

设置一下一个叫truncate level

就是你需要去设置一下

它这个聚类的个数

不大于多少

所以它其实你相当于你

设置一下这个聚类的结果

相当于你在某种程度上

设置了这个推荐

这个 这个聚类的个数

您明白我的意思吗

它是给一个范围

那你今天这个方法

我这个方法是不用的

它是通过吉布斯采样

那吉布斯采样它是不需要的

那就产生那个话题的

它的合理性

你有没有去做一些观察

有 我在这个

这个报告中已经给出了

一些例子

我们从这个一些例子中

可以看出

它这个算法给出的聚类结果

它挖掘到的话题

你能看到它的意义是明晰的

OK

好 这是一个问题

第二个问题就是第二章

讲的是推荐的多样性是吧

用了这个 用了熵正则化因子

第三章其实虽然你在说

冷启动这个算法

但实际上里面也涉及到

冷启动多样性推荐

这两个

你这两章内容有没有结合起来

来做

这两章是有结合的

因为我们在第这个在冷启动的

推荐算法这之中需要定义一个

期望回报函数

然后这个期望回报函数

然后这个期望回报函数

我们就直接借鉴了

我们在多样化推荐算法中

所提到的那个集合目标函数

两个是一样的

也是用了那个熵正则化因子

对 也是用了熵正则化因子

这两个是一体的

那第三个问题

其实你这个第五章的这个

基于稀疏嵌入的k均值聚类算法

当然你的这个重心我明白

是在做一个聚类算法是吧

但是聚类的话其实K均值

这个K也是一个问题

就是通常要去试对吧

对对

那你第四章既然

第四章的工作

可以去自动确定

这个话题的个数

那有没有可能把第四章的

这个研究和第五章结合

将来对这个给出一批

这个未知的数据

我用第四章的这个

自动确定话题个数的

技术来帮助确定

K均值的K

就这个问题有没有考虑

我明白您的意思就是说

确实这个 这个非参数的

这个贝叶斯方法

主要是来研究这个

模型选择的问题

但是 但是目前为止

这个非参数研究的

还不能替代这些

特别基本的这个聚类算法

目前是这样的

比如说这个K均值算法

它仍然有很多应用

所以将来我们可以考虑

这个非参数 用它这个

用非参数的这个技术

来解决这个K均值问题中的

那个模型 模型选择的问题

到目前为止还不能

还不能使这个非参数技术

在这个K均值中

有大规模的应用

是这样

建议你这个研究的方向

好好想一想

这个困扰我们多少年的问题了

这个K均值的K

老去靠这个做实验去确定

是吧

没有办法根据这个

任意给一批数据

自动去确定比较合理的K

好 我的问题就到这

大家看看还有什么问题

好 没有问题了

那就到这我们下面是

答辩委员会比们会议

好 谢谢你

谢谢各位老师

好 我代表答辩委员会

宣布这个答辩委员会的

这个决议

推荐系统模型

与学习算法是社会化

网络数据挖掘中的

热点研究课题之一

论文选题具有重要的

学术意义和应用价值

论文的主要工作

和创新点如下

一 提出了基于熵正则化因子

多样化推荐算法

并给出了熵正则化的

性质和近似算法

实验结果表明

该方法可以有效的

提高推荐精度

验证了用户兴趣多样化的假设

二 针对推荐中的

冷启动问题

提出了基于内容的组合式

多臂老虎机模型

设计了一种求解算法

并给出了算法的误差上界

实验结果验证了该模型

和算法的有效性

三 提出了基于函数式

狄利克雷过程的

动态话题模型

该模型可以有效的

提取随时间或空间

变化的话题

四 提出了基于稀疏嵌入的

快速K均值聚类算法

给出了该算法的近似比

实验验证了算法的有效性

和适用性

论文结构合理叙述清楚

写作规范

是一篇优秀的博士学位论文

论文工作表明

作者已掌握本学科领域

坚实宽广的基础理论

与系统深入的专门知识

具有很强的独立从事科研工作能力

答辩过程中表述清楚

回答问题正确

经答辩委员会不计名投票表决

一致同意通过学位论文答辩

并建议授予秦利静工学博士学位

祝贺

谢谢各位老师

秦利静同学的这个答辩

就到此结束了

好 谢谢大家

2014年清华大学研究生学位论文答辩(二)课程列表:

第1周 经管学院

-王鑫《国际化对中国工资差距的影响研究》

--答辩人王鑫简介

--论文摘要

--论文答辩实况

--问答及答辩结果

--导师评价

--同学眼中的王鑫

--个人学术感言

第2周 化学系、金融学院、马院

-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》

--答辩人吴宇恩简介

--论文摘要

--吴宇恩答辩

--吴宇恩回答问题

--吴宇恩导师评价

--吴宇恩感言

-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》

--答辩人段昊泓简介

--论文摘要

--段昊泓答辩

--段昊泓问答

--段昊泓导师点评

--段昊泓采访

-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》

--答辩人刘凯简介

--论文摘要

--化学系刘凯-个人答辩陈述

--化学系刘凯-问答及答辩结果

--化学系刘凯-导师评价

--化学系刘凯-个人感言

-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》

--答辩人谢臣哲简介

--论文摘要

--五道口金融学院-谢臣哲-个人答辩陈述

--五道口金融学院-谢臣哲-问答及答辩结果

--五道口金融学院-谢臣哲-个人感言

-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》

--答辩人张祎嵩简介

--论文摘要

--张祎嵩答辩

--张祎嵩问答及答辩结果

--导师点评

--个人学术感言

第3周 工物系、自动化系、建筑学院

-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》

--答辩人吴文斌简介

--论文摘要

--工物系吴文斌-个人答辩陈述

--工物系吴文斌-问答及答辩结果

--工物系吴文斌-导师评价

--工物系吴文斌-个人感言

-李月标《交通流缺失数据补偿算法的研究》

--答辩人李月标简介

--论文摘要

--自动化系李月标-个人答辩陈述

--自动化系李月标-问答及答辩结果

--自动化系李月标-导师评价

--自动化系李月标-个人感言

-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》

--答辩人房宇巍简介

--论文摘要

--建筑房宇巍答辩

--房宇巍问答

-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》

--答辩人朱小琳简介

--论文摘要

--朱琳答辩

--建筑系朱琳问答

-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》

--答辩人杨睿简介

--论文摘要

--杨睿答辩

--杨睿回答问题

第4周 建筑学院、航院、自动化系、计算机系、信研院

-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》

--答辩人邓施莹简介

--论文摘要

--邓施莹答辩

--邓施莹问答

-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》

--答辩人任兆欣简介

--论文摘要

--任兆欣答辩

--任兆欣问答

--任兆欣采访

--任兆欣导师点评

-章佳杰《车路协同框架下信号灯配时优化方法设计》

--答辩人章佳杰简介

--论文摘要

--自动化系章佳杰-个人答辩

--自动化系章佳杰-问答及答辩结果

--自动化系章佳杰-导师评价

--自动化系章佳杰-个人感言

-杨凯棣《孤立过饱和交叉口信号配时问题研究》

--答辩人杨凯棣简介

--论文摘要

--自动化系杨凯棣-个人答辩陈述

--自动化系杨凯棣-问答及答辩结果

--自动化系杨凯棣-导师评价

--自动化系杨凯棣-个人感言

-秦利静《推荐系统模型与学习算法研究》

--答辩人秦利静简介

--论文摘要

--计算机系秦利静答辩

--计算机系秦利静问答

--计算机系秦利静点评

--计算机系秦利静采访

-吴成钢《Property Testing and Related Problems》

--答辩人吴成钢简介

--论文摘要

--信研院吴成钢-个人答辩陈述

--信研院吴成钢-问答及答辩结果

--信研院吴成钢-个人感言

第5周 环境学院、人文学院、物理系

- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》

--答辩人哈米德简介

--论文摘要

--伊朗留学生答辩

--伊朗留学生问答

--伊朗留学生导师评价

--伊朗留学生访谈

-赖尚清《朱子仁论研究》

--答辩人赖尚清简介

--论文摘要

--人文-赖尚清答辩

--人文-赖尚清问答

--人文-赖尚清教师访谈

--人文-赖尚清访谈

-姜海波《人的存在与作为真理之本质的自由》

--答辩人姜海波简介

--论文摘要

--人文学院姜海波-个人答辩陈述

--人文学院姜海波-问答及答辩结果

--人文学院姜海波-导师评价

--人文学院姜海波-个人感言

-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》

--答辩人刘军伟简介

--论文摘要

--物理系-刘军伟答辩

--物理系-刘军伟问答

--物理系-刘军伟导师点评

--物理系-刘军伟访谈

计算机系秦利静问答笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。