当前课程知识点：2014年清华大学研究生学位论文答辩（二） > 第4周建筑学院、航院、自动化系、计算机系、信研院 > 秦利静《推荐系统模型与学习算法研究》 > 计算机系秦利静答辩

返回《2014年清华大学研究生学位论文答辩（二）》慕课在线视频课程列表

计算机系秦利静答辩在线视频

计算机系秦利静答辩

下一节:计算机系秦利静问答

返回《2014年清华大学研究生学位论文答辩（二）》慕课在线视频列表

计算机系秦利静答辩课程教案、知识点、字幕

各位老师好

我答辩的题目是推荐系统模型

与学习算法研究

我的导师是朱小燕教授

以下是我的报告内容

首先介绍选题背景及意义

那么推荐系统在我们的生活中

是无处不在的

当我们在一个购物网站上

浏览商品

当我们在网上书店上

购买一本图书

或者我们在一个

电影评分网站上

对一部电影进行评分时

这些网站会给我们推荐一个

其他物品的列表

这些呢都是推荐系统的实例

那么推荐系统是指为用户

推荐用户可能感兴趣的物品

或者信息

它起到信息过滤

和购物导航的作用

形式化地说

一个推荐系统包含三个要素

用户、物品和效用函数

效用函数可以是任何一个函数

但是在电影推荐当中

它特指用户对物品的评分

那么推荐系统它的

根本问题在于

我们只能观察到部分

效用函数的取值

那么对于给定一个用户来说

一个推荐算法

需要去对没有观测到的

效用函数进行预测

然后将效用函数取值

比较高的那些物品集合

推荐给用户

推荐方法可以看作

是一种信息过滤的方式

那么推荐算法也称为过滤算法

最简单的推荐算法

可以根据用户在

个人主页上提供的年龄

或者性别等信息

为用户提供个性化的推荐

那么基于内容的过滤方法

是指为用户推荐与用户

过去喜欢过的物品

相类似的物品

这种推荐方法主要用在

包含文本信息的推荐应用当中

例如网页和新闻的推荐

那么这种方法

一般将用户的兴趣和物品的特征

表示为一组属性

物品的属性与用户的属性

匹配度高的那些物品

就会得到推荐

协同过滤是指为用户推荐

与用户有相似兴趣爱好的用户

所喜欢过的物品相类似的物品

那么与基于内容的过滤方法

相比较

协同过滤的应用就更加广泛一些

这是因为协同过滤

它不需要去收集用户与物品的

外部信息来构成用户

与物品的特征

协同过滤又可以分为邻域方法

和隐语义模型

其中隐语义模型

是指算法根据用户

对物品的评分

来学习一组隐语义因子

用来刻画用户的兴趣

和物品的特征

在隐语义模型中

矩阵分解是最具代表性的模型

混合式过滤是指

结合协同过滤和基于内容的

过滤的推荐方法

那尽管推荐方法

在理论和实践上都取得了

不少的进步

但是推荐

推荐系统的

研究热度并没有

因此而减退

尤其是近年来

随着电子商务

以及在线服务

和应用的蓬勃发展

又对推荐系统

提出了一些新的挑战

首先说网络数据的

冗余度非常高

那么我们以新闻

新闻文本推荐为例来说

如果一个用户他点击

阅读了一条马航失联的报道之后

那么推荐算法为用户

提供相似的新闻文本

就可能把同一个事件的

不同报道再次推荐给这个用户

那么这样的推荐结果

对于用户来说是不能令他满意的

因为用户从这样的推荐结果中

并不能获得有价值的信息

那么为了提高用户的满意度

我们在设计推荐算法的时候

除了考虑结果的相关度和精确度

我们应该将结果

推荐结果的多样性

也纳入考量

再来在线服务

以及应用的规模越来越大

那新用户的数目

也越来越多

比如说我们看这个表格中

所示的电影推荐的例子

David就是一个新用户

他还没有为任何一部电影

评过分

Bob只为其中一部电影评分了

那通常他也被认为是

一个新的用户

那么传统推荐算法

常常依赖分析用户的

历史行为记录

来推断用户的兴趣爱好

然后为用户提供个性化的推荐

那么他们这种传统推荐算法

就很难为新用户

提供有效推荐

那为缺乏历史行为记录的

新用户提供推荐的算法

我们称之为冷启动的推荐算法

另外网络数据每时每刻

都在发生变化

即使是同一个时间

不同地点的信息

不同地点的数据

也有很大的差异

那么传统推荐

传统推荐算法可能忽略了

数据的这种动态性

不能给用户提供个性化的

及时的推荐

那么我们要设计一个

动态的推荐算法

我们的研究侧重点在于

如何为动态数据进行建模

此外网络数据的规模

越来越大

高维数据越来越普遍

对推荐算法的计算效率

也提出更高的要求

一些研究围绕着

加速传统的推荐算法而展开

比如说矩阵分解和聚类算法等

那么本文主要围绕以上

四个研究点展开

具体的说

我们在多样化的推荐算法方面

提出基于熵正则化因子的

多样化推荐算法

我们用熵正则化因子

来刻画物品集合的多样性

在冷启动的推荐方法方面

我们提出了基于内容的组合式

多臂老虎机模型

我们用老虎机模型

来对用户反馈进行建模

在动态数据建模方面

我们提出了函数式狄利克雷过程

这个函数式狄利克雷过程

可以作为随任意协变量

变化的动态非参数贝叶斯先验

在快速聚类算法方面

我们提出了基于稀疏嵌入的

快速K均值聚类算法

下面介绍多样化的推荐算法

那传统推荐

传统的推荐算法以提高

推荐结果的相关性

为唯一的目标

这样单一的目标可能

导致推荐结果存在冗余和重复

从而导致用户

对这个推荐结果的满意度降低

那么多样化的推荐方法

就需要权衡考虑

推荐结果的相关性和多样性

为了完成这个任务

我们需要回答三个方面

第一是如何刻画一组物品的

多样性

第二是如何定义目标函数

第三是如何求解目标函数

当然这三个问题

并不是孤立的

我们刻画物品多样性的方式

是目标函数定义的一个部分

然后目标函数的性质

又决定了目标函数

求解算法的效率

在已有的工作当中

有作者提出

利用语义信息

来提高推荐结果的多样性

以电影推荐为例

一部电影的语义信息

可以是这个电影的类别

这个电影的导演或者主演

那么他们的做法是

将语义信息形式化为特征向量

那么一个集合的多样性

也就定义为这个集合内

元素的两两距离之和

但是这种做法存在缺点

因为在许多应用中

语义信息是很难获得的

即使是在那些

很容易获得语义信息的

应用当中

我们用语义信息

去刻画物品集合的多样性

也并不总是可靠的

比如说一个导演

导演的两部电影

和一个演员主演的两部作品

它们并不一定是很相似的

那还有一些工作

利用物品的特征向量

来定义物品的多样性

然后利用一些启发式的算法

来求解目标函数

这些做法的缺点在于

现有的多数启发式算法

都不能保证找到

有理论边界的近似界

那本文将推荐任务形式化

为一个组合式的优化问题

假设有M个不同的物品

给定非负数K

我们需要找到一个大小

不大于K的一个集合

使目标函数取得最大值

这个目标函数是一个集合函数

它由两部分组成

评分函数R（S）

用来衡量集合内元素

与用户兴趣的符合程度

G（S）是熵正则化因子

它用来衡量集合内元素的

多样化程度

那这里评分函数

和熵正则化因子的定义

我们是基于概率性矩阵分解

这个模型来定义的

概率性矩阵分解模型

它是一个贝叶斯的方法

它将评分矩阵建模为

低秩矩阵相乘

这里U表示用户的兴趣矩阵

V表示物品特征矩阵

E表示噪声

UVE的先验分布都是高斯分布

给定一个用户

已知物品的特征和用户

已经标注的物品的评分

对于未标注物品集合的一个子集S

这个S内物品的评分的后验分布

是一个高斯分布

我们称这个高斯分布

为预测分布

接着我们定义这个

评分函数就为集合S内

物品的评分期望之和

不难发现

这里评分函数的定义

鼓励我们选择那些

评分期望比较高的物品

我们定义熵正则化因子为

预测分布的熵

因为这个预测分布是一个

多维高斯分布

那所以这个熵正则化因子

有一个闭合的形式

从信息论的角度来说

熵正则化因子

它用来衡量给定已标注的

物品的评分的时候

集合S内评分的

评分集合S内物品

评分的不确定性

那当集合内

集合S内这些物品

互相不相似的时候

并且与已标注集合内的物品

也不相似的时候

那它的评分的不确定性

就会高一些

这是我们很直观的一个理解

那么这与我们定义于一个

多样性正则化因子的初衷

是一致的

从几何学的角度来说

给定两个物品的特征向量

我们通常认为

当这两个特征向量

互相垂直的时候

这两个物品的多样化程度

是最高的

当这两个特征向量

线性相关的时候

这两个物品的多样化程度

是最低的

那么推广到包含多个物品的

物品集合S中

我们通过以下定理给出

当集合S中的物品的

特征向量互相垂直

并且与已经标注的物品的特征

特征向量也垂直的时候

熵正则化因子取得最大值

这个引理证实

从几何学的角度

我们所定义的熵正则化因子

它也符合一个

多样性正则化因子的要求

好现在我们回到

目标函数的求解

我们要找到一个大小

不大于K的集合

使这个目标函数取得最大值

那通常情况下求解

这个优化问题是NP难的

但是当目标函数同时满足

子模性和单调性的时候

我们可以找到一个有理论

下界的近似算法

这个算法是一个贪心算法

在每次迭代的时候

算法选取给目标函数

能够带来最大增益的一个物品

加入到集合中

直到满足算法结束条件

那么我们证明评分函数

和熵正则化因子

他们都满足子模性

并且在一定的参数设置下

这二者也同时满足单调性

这样目标函数也就满足

子模性和单调性

于是我们通过以下定理给出

上述贪心算法的近似比为

一减e分之一

也就是说我们上述贪心算法

可以找到的集合解S

它所对应的目标函数的

目标函数的取值

不小于一减e分之一倍的

最优解

我们在公开的电影评分

数据集上评测我们的方法

我们将数据集分为

训练集和测试集

用训练集来训练概率矩阵

分解模型

对测试集的每一个用户

我们对用户喜欢的电影

进行前K预测

我们用精度来评测我们的方法

我们与两个基线方法

进行比较

一个是标准的

概率矩阵分解模型

另一个是概率矩阵分解模型

结合一个流行的去冗余的方法

MMR

以下是在不同参数

不同参数设置下的实验结果

我们可以看到

在不同的参数设置下

我们的方法都可以取得

最好的效果

这说明用户的确有多样化的兴趣

而我们的熵正则化因子

可以有效地刻画

物品集合的多样性

从而更有效的找到

用户喜欢的电影

本章小结

我们在本章中

将推荐任务形式化为

评分函数与

熵正则化因子的线性组合

我们讨论熵正则化因子的性质

并在理论上给出证明

我们设计了贪心算法

来求解目标函数的近似最优解

并讨论所得近似解的理论边界

实验结果证实了

我们的方法可以有效的

优化推荐结果

下面介绍冷启动的推荐算法

为一个新用户提供推荐

我们有两个难点

一是新用户缺乏历史行为记录

二是新用户的

历史行为记录往往很少

那用户的多样化的兴趣

在这个很少的历史行为记录中

就得不到完全的体现

那么传统的以提高

相关性为目标的推荐算法

所提供的推荐结果

就可能过于集中在少数的

受欢迎的物品上

那在这种情况下

用户的反馈是非常重要的信息

本章我们研究如何在线利用

用户反馈

来为新用户提供多样化的推荐

我们用老虎机模型

来对用户反馈进行建模

老虎机是一种赌博游戏

玩家通过拉动这个游戏臂

随机获得回报

多臂老虎机模型

是指有多个臂的老虎机模型

每个臂的回报是随机的

然后这个随机函数的

均值是未知的

那均值回报最高的那个臂

我们称为最优臂

如果一个多臂老虎机的模型

多臂老虎机模型的每个臂

都由一个特征向量表示

我们称这样的多臂老虎机模型

为基于内容的多臂老虎机模型

那多臂老虎机模型

它是一个序列化的决策问题

在游戏的每一轮

玩家选择一个游戏臂

随机得到回报

在N轮游戏之后

玩家希望最大化

它的总回报

这里我们定义后悔值

为N轮游戏

我们总是选择最优臂

所得到的回报

与实际回报之间的差

那么我们最大化

N轮游戏的总回报

就等价于我们

要最小化这个后悔值

多臂老虎机模型

它的工作原理在于

它可以折衷考虑

探索和开发

以决定下一轮选择哪一个臂

那这在对于用户反馈

进行建模方面非常重要

在已有的工作中

冷启动算法多数是

混合式过滤方法

用基于内容的过滤技术

来弥补协同过滤

在冷启动方面的不足

那在统计学领域

有很多关于多臂老虎机

模型的研究

其中UCB算法

是目前为止最优的

多臂老虎机模型

多臂老虎机算法

在基于内容的多臂老虎机

模型方面

2002年有作者提出了

LinRel算法

接着Li等人

改进了这个LinRel算法

提出了LinUCB算法

并将这个基于内容的

多臂老虎机模型

应用到新闻文本推荐当中

取得了不错的效果

那在本文中

我们提出了基于内容的

组合式多臂老虎机模型

假设游戏有N轮

老虎机有M个臂

那么我们把一个游戏臂的集合

称为一个超级臂

那样在每一轮的时候

玩家是选择一个超级臂

然后观察臂的分数

然后得到相应的超级臂的回报

这里基于内容的组合式

多臂老虎机

它是一个一般化的模型

我们通过定义不同的期望

回报函数

可以将它应用到

不同的应用当中

我们这里只假设

这个期望回报函数

满足两个两个基本假设

一个是单调性一个是连续性

这两个基本假设是可以

涵盖一大类函数的

那基于内容的组合式

多臂老虎机的目标

同样是最大化N轮

游戏之后的总回报

我们将基于内容的

组合式多臂老虎机模型

用来解决冷启动的多样化

多样化推荐的任务

对应的每次我们为用户

推荐一个电影集合

这个电影集合

相当于一个超级臂

那用户对这个集合内的电影

进行评分

算法也就观察到

其中超级臂内臂的分数

用户对电影集合的满意度

对应于这个超级臂的回报

那么这里我们定义

期望回报函数为上一章

所提到的集合目标函数

其中G（S）是熵正则化因子

由于求解这个目标函数

是NP难的

这里我们用最小化

α后悔值来代替后悔值

所谓的α后悔值是说

定义为α倍的最优回报

与实际回报之间的差值

那么我们为这个基于内容的

组合式多臂老虎机模型

设计如下算法

这是一个迭代算法

在每次迭代的时候

算法选择一个超级臂

收集用户的反馈

然后根据超级臂中臂的分数

重新进行参数估计

将重新估计之后的臂的

臂的分数输入给一个

先知算法

先知算法接着返回下一轮

所需要的超级臂

我们通过如下定理证实

在N轮之后

上述算法的α后悔值

大约为根号N。这个定理说明

当N趋近于无穷大的时候

平均到每一轮的α后悔值

趋近于零

我们采用与上一章一致的

数据集和实验设置

来评测我们的方法

我们与两个方法进行

两个基线方法进行比较

其中一个是K-LinUCB算法

这个算法相当于

不考虑多样性的冷启动推荐算法

另一个基线方法是

热启动推荐算法

所谓热启动推荐算法是指

这个算法可以获得

部分的用户评分数据

用来训练用户的兴趣特征

以下是不同参数设置下

实验结果

实验结果的展示

我们可以看到在开始的几轮

热启动算法的推荐效果

要优于冷启动算法的结果

但是随着推荐轮数不断增加

冷启动算法获得越来越多的

用户反馈

然后它冷启动推荐算法的

性能就逐渐超过热启动

推荐算法

本章小结

我们在这一章提出了

基于内容的组合式多臂

老虎机模型

并且为这个模型

设计了高效的算法

并给出严格的后悔值分析

我们用上述模型来解决

冷启动的多样化推荐问题

在公开的电影评论

数据集上的实验

证实我们的模型的确可以

有效的为新用户

提供多样化的推荐结果

下面介绍动态数据建模

贝叶斯方法是一种

重要的数据建模的方法

它在推荐系统中

有非常重要的应用

在基于内容的过滤中

它通常用于对文本

图象这些数据进行建模

用来挖掘隐层特征

那在协同过滤中

话题模型结合传统的

矩阵分解模型构成了一个

协同话题模型

从而使得矩阵分解

所挖掘出来的隐语义因子

在话题模型中找到

明晰的语义解释

另外非参数的协同过滤模型

是指借助于贝叶斯

非参数的技术

使得协同过滤不需

使得协同过滤算法不需要

事先确定隐语义因子的个数

而是在学习算法中自动获得

那所有这些贝叶斯方法中

它的关键在于有一个

贝叶斯先验

贝叶斯先验在对数据

进行建模的时候

需要一个基本假设

这个基本假设称为可交换性

可交换性是指当我们

交换数据的顺序的时候

概率保持不变

但是呢，在许多实际应用中

这个假设并不成立

比如说在新闻文本当中

话题是随着时间不断发生变化的

在同一个时间内的

同一个时间不同地点的话题

也是不同的

这里的时间和地点

我们称之为协变量

那么我们如果要对这些

带有动态性的数据

进行建模的时候

我们就需要一个构建一个

随任意协变量变化的

贝叶斯先验

在已有的工作中

许多研究工作是分别考虑

离散时间、连续时间或者地点

作为协变量的贝叶斯先验

而没有考虑这个协变量的统一性

在本章中我们提出一个

基于狄利克雷过程的

动态贝叶斯非参数先验

狄利克雷过程是一个

最重要的贝叶斯非参数先验之一

它可以自动学习聚类的个数

它的模型的组件

对应于聚类，满足可交换性

那么我们要构建一个

动态的贝叶斯非参数先验

我们观察到动态现象包括

随着协变量的变化

聚类可能产生可能消失

那么已有的聚类

也可能发生变化

那么相对应的

我们对这个动态非参数

贝叶斯先验

要求它有以下模型假设

它要允许新的模型组件的产生

允许现有的模型组件被移除

允许现有模型组件的参数

发生变化

那么我们在本章提出了

函数型狄利克雷过程

首先我们在函数空间上

构建一个狄利克雷过程

这个狄利克雷过程的组件

是定义域不同的函数

定义域等价于协变量

空间上的子集

而值域是目标参数空间

那么给定协变量空间上一点

目标参数空间上的随机分布

由约束和投影获得

这里的约束和投影

都是狄利克雷过程的

基本操作

根据狄利克雷过程的性质

对一个狄利克雷过程

进行约束和投影操作之后

得到的随机分布

它仍然是一个狄利克雷过程

在我们的构建方法中

一个函数的定义域的起点

对应于一个模型组建的产生

这个定义域的终点

对应于一个模型组建的消失

那么函数在定义域上

取值的变化

对应于这个模型组件

参数的变化

在这种构建方法当中

协变量空间上

距离相近的两个点

它的DP组件的相似性

也会高一些

我们通过三个实验来评测

我们的方法

第一个实验是进化的

高斯混合模型

它是一个模拟实验

我们模拟一组随时间进化的

高斯混合模型

对这个进化的高斯混合模型

进行采样取点

然后对产生的数据点

用我们的模型进行建模聚类

我们与两个基线方法进行比较

一个是静态的狄利克雷混合模型

另一个是目前为止最先进的

动态贝叶斯模型

它叫马尔可夫狄利克雷过程

以下所示是实验结果

上一幅图显示的是信息差异

信息差异衡量的是

聚类算法的

聚类算法的结果与数据的

真实结果之间的差异

下一幅图显示的是

在每一个时间点中

每一个时间点的聚类的个数

我们可以看到

在所有的比较方法当中

我们的

我们的方法得到的

聚类结果的效果是最好的

并且根据下一幅图

所显示的我们的

我们的聚类算法

所输出的结果

与数据的真实聚类结果之间

非常接近

第二个实验是时间相关的

动态话题模型

我们的数据集是NIPS会议上

1987年到2003年的

公开论文数据集

我们对这个数据集进行

动态话题的挖掘

这个图显示的是部分

话题的时间线

我们可以看到

随着时间的推进

一些新的话题产生了

一些已有的话题消失了

另外我们还显示一些

话题的权重最高的关键词

我们可以看到

随着年份的不同

话题的关键词在不断发生变化

第三个实验是地点相关的

文本建模

我们从Flickr网站上

抓取包含地点信息的图片标签

对这些图片标签进行话题建模

我们与标准的静态的

狄利克雷过程进行比较

我们将所挖掘到的话题

对应的GSP信息

显示到这个地图上

我们可以看到

下面三幅图是我们的模型

找到的话题

相比于静态狄利克雷过程

因为我们的方法考虑了

地点信息

我们挖掘到的话题

更加集中,意义也更加明晰

本章小结

我们在本章中提出

函数式狄利克雷过程

这个函数式狄利克雷过程

可以作为随任意协变量变化的

贝叶斯非参数先验

用来对动态数据进行建模

我们给出基于吉布斯采样的

模型推演算法

我们分别在模拟数据和

真实数据上

验证我们的模型和算法

实验结果证实

函数式狄利克雷过程

可有效地对动态数据进行建模

下面介绍快速聚类算法

聚类算法是一种非常重要的

传统推荐技术

在基于内容的过滤中

常用来对文本建模

在协同过滤中

常用来进行邻域计算

那么也有一些研究工作

利用聚类

利用聚类来提高

推荐结果的多样性

在所有的聚类算法当中

K均值聚类算法

是应用最广泛的聚类算法之一

那随着数据规模越来越大

高维数据越来越普遍

那传统的传统算法的计算效率

就不能够满足要求

但是我们观察到

高维数据有两个特点

它的稀疏度比较高

它的冗余度也比较高

这就启发我们是不是可以

利用降维技术来加速

聚类算法

在已有的工作当中

奇异值分解是一个

非常重要的降维技术

有一些工作利用奇异值分解

来找到高维数据的

一个低秩近似

那这个做法有一个缺点

在于奇异值分解

这个降维算法

本身的效率就不高

那么除非我们离线地

对数据进行降维

否则的话奇异值分解算法

是不能找到一个快速的

聚类算法的

Clarkson和Woodruff在2013年

提出了一种高效的随机投影算法

叫稀疏嵌入

随后一些作者

利用，一些研究者利用

这个稀疏嵌入来加速一些

非线性回归还有SVM等算法

都取得了不错的效果

当然这些研究和分析

不能直接应用到K均值算法的

研究和分析当中

K均值问题是指

给定数据矩阵

和聚类个数我们要找到

数据的一个划分

去最小化这个目标函数

这个问题

这个优化问题是一个

非常著名的NP难的问题

那么我们考虑这个优化问题的

γ近似算法

这个近似算法输出一个

近似的聚类结果

以高概率满足如下所示不等式

这个不等式的意思是指

近似算法返回的聚类结果

所对应的目标函数的取值

小于等于γ倍的

最优解对应的目标函数的取值

这里γ通常大于一

那不同的近似算法

所对应的γ的取值也不同

在本文中我们提出的

基于稀疏嵌入的K均值

聚类算法

算法的第一步

将数据矩阵

乘以一个稀疏嵌入矩阵

从而将高维的数据矩阵

降维为一个低维的近似

然后我们将这个低维近似

作为输入，调用γ近似算法

输出聚类结果

这里的稀疏嵌入矩阵

它的每一列只有一个元素是零

只有一个元素不是零

那么这这使得这个

我们有这个稀疏嵌入矩阵

来压缩数据的时候

效率是非常高的

这个稀疏嵌入矩阵

可以将高维数据

转化为低维数据的同时

保持住数据内部的几何结构

从而保持它的聚类结果不会太差

那么我们通过如下定理证实

在一定参数设置

在一定的参数设置下

上述近似算法

返回的聚类结果以高概率

近似最优解

近似比为2加?倍的γ

其中这个?是一个精度参数

我们在四个真实的数据集上

评测我们的

评测我们的算法

其中前三个数据集

是图象聚类数据集

第四个数据集是新闻文本

聚类数据集

这个表格所示的是

这个这四个数据集的

统计数据

我们与四种基线方法进行比较

包括标准的K均值聚类算法

和时下最先进的

基于降维技术的K均值聚类算法

他们分别是随机投影、随机采样

以及奇异值分解

在运行时间上

我们可以看到

在所有的数据集上

所有的比较方法当中

我们的算法的效率是最高的

那在目标函数的比较上

我们可以看到当压缩后的数据

维度足够大的时候

我们的算法输出的聚类结果

与输出的聚类结果的目标函数

非常接近标准聚类结果的

输出的结果所对应的目标函数

第三个是在信息差异上比较

我们可以看到

我们的算法输出的聚类结果

十分接近有时甚至好于

标准聚类算法的聚类结果

这个实验结果是合理的

因为标准的聚类聚类算法

它并不一定能够输出

最优的聚类结果

因为数据存在冗余

存在重复

那么通过降维技术之后

有可能提升了聚类

聚类算法的效果

本章小结

我们在本章中提出

基于稀疏嵌入的快速

K均值聚类算法

并从理论上分析了

算法的近似比

我们在多个公开的聚类

数据集上进行实验

实验结果证明

我们的算法在运行时间

和精度上都要优于

已有的最先进的算法

下面介绍总结与展望

本文主要围绕四个研究点

进行研究和讨论

那么在多样化的推荐算法方面

我们提出基于熵正则化因子的

多样化推荐算法

我们在为后续的工作中考虑

利用熵正则化因子

来解决其他领域的

结果多样化的问题

那在冷启动的推荐

推荐算法方面我们提出

基于内容的组合式

多臂老虎机模型

用这个

用这个模型对用户反馈

进行建模

在推荐过程中不断改善

推荐结果

在后续的工作中

我们考虑回报函数的

更多可能性

然后形式化用户的满意度

在动态数据建模方面

我们提出函数式狄利克雷过程

函数式狄利克雷过程

可以作为随任意协变量变化的

贝叶斯非参数先验

在后续的工作中我们考虑

将函数式狄利克雷过程

应用到更多的实际推荐任务当中

比如说地点相关的推荐等

那在快速聚类算法方面

我们提出基于稀疏嵌入的

快速K均值聚类算法

在后续的工作中

我们考虑将这个快速聚类算法

应用到大规模的推荐应用当中

致谢部分

感谢我的导师朱小燕老师

在五年来对我的精心指导

感谢实验室的黄民烈老师

与郝宇老师

与全体实验室

实验室的全体同学

对我的帮助

谢谢

2014年清华大学研究生学位论文答辩（二）课程列表：

第1周经管学院

-王鑫《国际化对中国工资差距的影响研究》

--答辩人王鑫简介

--论文答辩实况

--问答及答辩结果

--同学眼中的王鑫

--个人学术感言

第2周化学系、金融学院、马院

-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》

--答辩人吴宇恩简介

--吴宇恩答辩

--吴宇恩回答问题

--吴宇恩导师评价

--吴宇恩感言

-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》

--答辩人段昊泓简介

--段昊泓答辩

--段昊泓问答

--段昊泓导师点评

--段昊泓采访

-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》

--答辩人刘凯简介

--化学系刘凯-个人答辩陈述

--化学系刘凯-问答及答辩结果

--化学系刘凯-导师评价

--化学系刘凯-个人感言

-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》

--答辩人谢臣哲简介

--五道口金融学院-谢臣哲-个人答辩陈述

--五道口金融学院-谢臣哲-问答及答辩结果

--五道口金融学院-谢臣哲-个人感言

-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》

--答辩人张祎嵩简介

--张祎嵩答辩

--张祎嵩问答及答辩结果

--个人学术感言

第3周工物系、自动化系、建筑学院

-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》

--答辩人吴文斌简介

--工物系吴文斌-个人答辩陈述

--工物系吴文斌-问答及答辩结果

--工物系吴文斌-导师评价

--工物系吴文斌-个人感言

-李月标《交通流缺失数据补偿算法的研究》

--答辩人李月标简介

--自动化系李月标-个人答辩陈述

--自动化系李月标-问答及答辩结果

--自动化系李月标-导师评价

--自动化系李月标-个人感言

-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》

--答辩人房宇巍简介

--建筑房宇巍答辩

--房宇巍问答

-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》

--答辩人朱小琳简介

--建筑系朱琳问答

-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》

--答辩人杨睿简介

--杨睿回答问题

第4周建筑学院、航院、自动化系、计算机系、信研院

-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》

--答辩人邓施莹简介

--邓施莹答辩

--邓施莹问答

-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》

--答辩人任兆欣简介

--任兆欣答辩

--任兆欣问答

--任兆欣采访

--任兆欣导师点评

-章佳杰《车路协同框架下信号灯配时优化方法设计》

--答辩人章佳杰简介

--自动化系章佳杰-个人答辩

--自动化系章佳杰-问答及答辩结果

--自动化系章佳杰-导师评价

--自动化系章佳杰-个人感言

-杨凯棣《孤立过饱和交叉口信号配时问题研究》

--答辩人杨凯棣简介

--自动化系杨凯棣-个人答辩陈述

--自动化系杨凯棣-问答及答辩结果

--自动化系杨凯棣-导师评价

--自动化系杨凯棣-个人感言

-秦利静《推荐系统模型与学习算法研究》

--答辩人秦利静简介

--计算机系秦利静答辩

--计算机系秦利静问答

--计算机系秦利静点评

--计算机系秦利静采访

-吴成钢《Property Testing and Related Problems》

--答辩人吴成钢简介

--信研院吴成钢-个人答辩陈述

--信研院吴成钢-问答及答辩结果

--信研院吴成钢-个人感言

第5周环境学院、人文学院、物理系

- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》

--答辩人哈米德简介

--伊朗留学生答辩

--伊朗留学生问答

--伊朗留学生导师评价

--伊朗留学生访谈

-赖尚清《朱子仁论研究》

--答辩人赖尚清简介

--人文-赖尚清答辩

--人文-赖尚清问答

--人文-赖尚清教师访谈

--人文-赖尚清访谈

-姜海波《人的存在与作为真理之本质的自由》

--答辩人姜海波简介

--人文学院姜海波-个人答辩陈述

--人文学院姜海波-问答及答辩结果

--人文学院姜海波-导师评价

--人文学院姜海波-个人感言

-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》

--答辩人刘军伟简介

--物理系-刘军伟答辩

--物理系-刘军伟问答

--物理系-刘军伟导师点评

--物理系-刘军伟访谈

计算机系秦利静答辩笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。