当前课程知识点:2014年清华大学研究生学位论文答辩(二) > 第4周 建筑学院、航院、自动化系、计算机系、信研院 > 秦利静《推荐系统模型与学习算法研究》 > 计算机系秦利静答辩
返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频课程列表
返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频列表
各位老师好
我答辩的题目是推荐系统模型
与学习算法研究
我的导师是朱小燕教授
以下是我的报告内容
首先介绍选题背景及意义
那么推荐系统在我们的生活中
是无处不在的
当我们在一个购物网站上
浏览商品
当我们在网上书店上
购买一本图书
或者我们在一个
电影评分网站上
对一部电影进行评分时
这些网站会给我们推荐一个
其他物品的列表
这些呢都是推荐系统的实例
那么推荐系统是指为用户
推荐用户可能感兴趣的物品
或者信息
它起到信息过滤
和购物导航的作用
形式化地说
一个推荐系统包含三个要素
用户、物品和效用函数
效用函数可以是任何一个函数
但是在电影推荐当中
它特指用户对物品的评分
那么推荐系统它的
根本问题在于
我们只能观察到部分
效用函数的取值
那么对于给定一个用户来说
一个推荐算法
需要去对没有观测到的
效用函数进行预测
然后将效用函数取值
比较高的那些物品集合
推荐给用户
推荐方法可以看作
是一种信息过滤的方式
那么推荐算法也称为过滤算法
最简单的推荐算法
可以根据用户在
个人主页上提供的年龄
或者性别等信息
为用户提供个性化的推荐
那么基于内容的过滤方法
是指为用户推荐与用户
过去喜欢过的物品
相类似的物品
这种推荐方法主要用在
包含文本信息的推荐应用当中
例如网页和新闻的推荐
那么这种方法
一般将用户的兴趣和物品的特征
表示为一组属性
物品的属性与用户的属性
匹配度高的那些物品
就会得到推荐
协同过滤是指为用户推荐
与用户有相似兴趣爱好的用户
所喜欢过的物品相类似的物品
那么与基于内容的过滤方法
相比较
协同过滤的应用就更加广泛一些
这是因为协同过滤
它不需要去收集用户与物品的
外部信息来构成用户
与物品的特征
协同过滤又可以分为邻域方法
和隐语义模型
其中隐语义模型
是指算法根据用户
对物品的评分
来学习一组隐语义因子
用来刻画用户的兴趣
和物品的特征
在隐语义模型中
矩阵分解是最具代表性的模型
混合式过滤是指
结合协同过滤和基于内容的
过滤的推荐方法
那尽管推荐方法
在理论和实践上都取得了
不少的进步
但是推荐
推荐系统的
研究热度并没有
因此而减退
尤其是近年来
随着电子商务
以及在线服务
和应用的蓬勃发展
又对推荐系统
提出了一些新的挑战
首先说网络数据的
冗余度非常高
那么我们以新闻
新闻文本推荐为例来说
如果一个用户他点击
阅读了一条马航失联的报道之后
那么推荐算法为用户
提供相似的新闻文本
就可能把同一个事件的
不同报道再次推荐给这个用户
那么这样的推荐结果
对于用户来说是不能令他满意的
因为用户从这样的推荐结果中
并不能获得有价值的信息
那么为了提高用户的满意度
我们在设计推荐算法的时候
除了考虑结果的相关度和精确度
我们应该将结果
推荐结果的多样性
也纳入考量
再来 在线服务
以及应用的规模越来越大
那新用户的数目
也越来越多
比如说我们看这个表格中
所示的电影推荐的例子
David就是一个新用户
他还没有为任何一部电影
评过分
Bob只为其中一部电影评分了
那通常他也被认为是
一个新的用户
那么传统推荐算法
常常依赖分析用户的
历史行为记录
来推断用户的兴趣爱好
然后为用户提供个性化的推荐
那么他们这种传统推荐算法
就很难为新用户
提供有效推荐
那为缺乏历史行为记录的
新用户提供推荐的算法
我们称之为冷启动的推荐算法
另外网络数据每时每刻
都在发生变化
即使是同一个时间
不同地点的信息
不同地点的数据
也有很大的差异
那么传统推荐
传统推荐算法可能忽略了
数据的这种动态性
不能给用户提供个性化的
及时的推荐
那么我们要设计一个
动态的推荐算法
我们的研究侧重点在于
如何为动态数据进行建模
此外网络数据的规模
越来越大
高维数据越来越普遍
对推荐算法的计算效率
也提出更高的要求
一些研究围绕着
加速传统的推荐算法而展开
比如说矩阵分解和聚类算法等
那么本文主要围绕以上
四个研究点展开
具体的说
我们在多样化的推荐算法方面
提出基于熵正则化因子的
多样化推荐算法
我们用熵正则化因子
来刻画物品集合的多样性
在冷启动的推荐方法方面
我们提出了基于内容的组合式
多臂老虎机模型
我们用老虎机模型
来对用户反馈进行建模
在动态数据建模方面
我们提出了函数式狄利克雷过程
这个函数式狄利克雷过程
可以作为随任意协变量
变化的动态非参数贝叶斯先验
在快速聚类算法方面
我们提出了基于稀疏嵌入的
快速K均值聚类算法
下面介绍多样化的推荐算法
那传统推荐
传统的推荐算法以提高
推荐结果的相关性
为唯一的目标
这样单一的目标可能
导致推荐结果存在冗余和重复
从而导致用户
对这个推荐结果的满意度降低
那么多样化的推荐方法
就需要权衡考虑
推荐结果的相关性和多样性
为了完成这个任务
我们需要回答三个方面
第一是如何刻画一组物品的
多样性
第二是如何定义目标函数
第三是如何求解目标函数
当然这三个问题
并不是孤立的
我们刻画物品多样性的方式
是目标函数定义的一个部分
然后目标函数的性质
又决定了目标函数
求解算法的效率
在已有的工作当中
有作者提出
利用语义信息
来提高推荐结果的多样性
以电影推荐为例
一部电影的语义信息
可以是这个电影的类别
这个电影的导演或者主演
那么他们的做法是
将语义信息形式化为特征向量
那么一个集合的多样性
也就定义为这个集合内
元素的两两距离之和
但是这种做法存在缺点
因为在许多应用中
语义信息是很难获得的
即使是在那些
很容易获得语义信息的
应用当中
我们用语义信息
去刻画物品集合的多样性
也并不总是可靠的
比如说一个导演
导演的两部电影
和一个演员主演的两部作品
它们并不一定是很相似的
那还有一些工作
利用物品的特征向量
来定义物品的多样性
然后利用一些启发式的算法
来求解目标函数
这些做法的缺点在于
现有的多数启发式算法
都不能保证找到
有理论边界的近似界
那本文将推荐任务形式化
为一个组合式的优化问题
假设有M个不同的物品
给定非负数K
我们需要找到一个大小
不大于K的一个集合
使目标函数取得最大值
这个目标函数是一个集合函数
它由两部分组成
评分函数R(S)
用来衡量集合内元素
与用户兴趣的符合程度
G(S)是熵正则化因子
它用来衡量集合内元素的
多样化程度
那这里评分函数
和熵正则化因子的定义
我们是基于概率性矩阵分解
这个模型来定义的
概率性矩阵分解模型
它是一个贝叶斯的方法
它将评分矩阵建模为
低秩矩阵相乘
这里U表示用户的兴趣矩阵
V表示物品特征矩阵
E表示噪声
UVE的先验分布都是高斯分布
给定一个用户
已知物品的特征和用户
已经标注的物品的评分
对于未标注物品集合的一个子集S
这个S内物品的评分的后验分布
是一个高斯分布
我们称这个高斯分布
为预测分布
接着我们定义这个
评分函数就为集合S内
物品的评分期望之和
不难发现
这里评分函数的定义
鼓励我们选择那些
评分期望比较高的物品
我们定义熵正则化因子为
预测分布的熵
因为这个预测分布是一个
多维高斯分布
那所以这个熵正则化因子
有一个闭合的形式
从信息论的角度来说
熵正则化因子
它用来衡量给定已标注的
物品的评分的时候
集合S内评分的
评分 集合S内物品
评分的不确定性
那当集合内
集合S内这些物品
互相不相似的时候
并且与已标注集合内的物品
也不相似的时候
那它的评分的不确定性
就会高一些
这是我们很直观的一个理解
那么这与我们定义于一个
多样性正则化因子的初衷
是一致的
从几何学的角度来说
给定两个物品的特征向量
我们通常认为
当这两个特征向量
互相垂直的时候
这两个物品的多样化程度
是最高的
当这两个特征向量
线性相关的时候
这两个物品的多样化程度
是最低的
那么推广到包含多个物品的
物品集合S中
我们通过以下定理给出
当集合S中的物品的
特征向量互相垂直
并且与已经标注的物品的特征
特征向量也垂直的时候
熵正则化因子取得最大值
这个引理证实
从几何学的角度
我们所定义的熵正则化因子
它也符合一个
多样性正则化因子的要求
好 现在我们回到
目标函数的求解
我们要找到一个大小
不大于K的集合
使这个目标函数取得最大值
那通常情况下求解
这个优化问题是NP难的
但是当目标函数同时满足
子模性和单调性的时候
我们可以找到一个有理论
下界的近似算法
这个算法是一个贪心算法
在每次迭代的时候
算法选取给目标函数
能够带来最大增益的一个物品
加入到集合中
直到满足算法结束条件
那么我们证明评分函数
和熵正则化因子
他们都满足子模性
并且在一定的参数设置下
这二者也同时满足单调性
这样目标函数也就满足
子模性和单调性
于是我们通过以下定理给出
上述贪心算法的近似比为
一减e分之一
也就是说我们上述贪心算法
可以找到的集合解S
它所对应的目标函数的
目标函数的取值
不小于一减e分之一倍的
最优解
我们在公开的电影评分
数据集上评测我们的方法
我们将数据集分为
训练集和测试集
用训练集来训练概率矩阵
分解模型
对测试集的每一个用户
我们对用户喜欢的电影
进行前K预测
我们用精度来评测我们的方法
我们与两个基线方法
进行比较
一个是标准的
概率矩阵分解模型
另一个是概率矩阵分解模型
结合一个流行的去冗余的方法
MMR
以下是在不同参数
不同参数设置下的实验结果
我们可以看到
在不同的参数设置下
我们的方法都可以取得
最好的效果
这说明用户的确有多样化的兴趣
而我们的熵正则化因子
可以有效地刻画
物品集合的多样性
从而更有效的找到
用户喜欢的电影
本章小结
我们在本章中
将推荐任务形式化为
评分函数与
熵正则化因子的线性组合
我们讨论熵正则化因子的性质
并在理论上给出证明
我们设计了贪心算法
来求解目标函数的近似最优解
并讨论所得近似解的理论边界
实验结果证实了
我们的方法可以有效的
优化推荐结果
下面介绍冷启动的推荐算法
为一个新用户提供推荐
我们有两个难点
一是新用户缺乏历史行为记录
二是新用户的
历史行为记录往往很少
那用户的多样化的兴趣
在这个很少的历史行为记录中
就得不到完全的体现
那么传统的以提高
相关性为目标的推荐算法
所提供的推荐结果
就可能过于集中在少数的
受欢迎的物品上
那在这种情况下
用户的反馈是非常重要的信息
本章我们研究如何在线利用
用户反馈
来为新用户提供多样化的推荐
我们用老虎机模型
来对用户反馈进行建模
老虎机是一种赌博游戏
玩家通过拉动这个游戏臂
随机获得回报
多臂老虎机模型
是指有多个臂的老虎机模型
每个臂的回报是随机的
然后这个随机函数的
均值是未知的
那均值回报最高的那个臂
我们称为最优臂
如果一个多臂老虎机的模型
多臂老虎机模型的每个臂
都由一个特征向量表示
我们称这样的多臂老虎机模型
为基于内容的多臂老虎机模型
那多臂老虎机模型
它是一个序列化的决策问题
在游戏的每一轮
玩家选择一个游戏臂
随机得到回报
在N轮游戏之后
玩家希望最大化
它的总回报
这里我们定义后悔值
为N轮游戏
我们总是选择最优臂
所得到的回报
与实际回报之间的差
那么我们最大化
N轮游戏的总回报
就等价于我们
要最小化这个后悔值
多臂老虎机模型
它的工作原理在于
它可以折衷考虑
探索和开发
以决定下一轮选择哪一个臂
那这在对于用户反馈
进行建模方面非常重要
在已有的工作中
冷启动算法多数是
混合式过滤方法
用基于内容的过滤技术
来弥补协同过滤
在冷启动方面的不足
那在统计学领域
有很多关于多臂老虎机
模型的研究
其中UCB算法
是目前为止最优的
多臂老虎机模型
多臂老虎机算法
在基于内容的多臂老虎机
模型方面
2002年有作者提出了
LinRel算法
接着Li等人
改进了这个LinRel算法
提出了LinUCB算法
并将这个基于内容的
多臂老虎机模型
应用到新闻文本推荐当中
取得了不错的效果
那在本文中
我们提出了基于内容的
组合式多臂老虎机模型
假设游戏有N轮
老虎机有M个臂
那么我们把一个游戏臂的集合
称为一个超级臂
那样在每一轮的时候
玩家是选择一个超级臂
然后观察臂的分数
然后得到相应的超级臂的回报
这里基于内容的组合式
多臂老虎机
它是一个一般化的模型
我们通过定义不同的期望
回报函数
可以将它应用到
不同的应用当中
我们这里只假设
这个期望回报函数
满足两个 两个基本假设
一个是单调性一个是连续性
这两个基本假设是可以
涵盖一大类函数的
那基于内容的组合式
多臂老虎机的目标
同样是最大化N轮
游戏之后的总回报
我们将基于内容的
组合式多臂老虎机模型
用来解决冷启动的多样化
多样化推荐的任务
对应的每次我们为用户
推荐一个电影集合
这个电影集合
相当于一个超级臂
那用户对这个集合内的电影
进行评分
算法也就观察到
其中超级臂内臂的分数
用户对电影集合的满意度
对应于这个超级臂的回报
那么这里我们定义
期望回报函数为上一章
所提到的集合目标函数
其中G(S)是熵正则化因子
由于求解这个目标函数
是NP难的
这里我们用最小化
α后悔值来代替后悔值
所谓的α后悔值是说
定义为α倍的最优回报
与实际回报之间的差值
那么我们为这个基于内容的
组合式多臂老虎机模型
设计如下算法
这是一个迭代算法
在每次迭代的时候
算法选择一个超级臂
收集用户的反馈
然后根据超级臂中臂的分数
重新进行参数估计
将重新估计之后的臂的
臂的分数输入给一个
先知算法
先知算法接着返回下一轮
所需要的超级臂
我们通过如下定理证实
在N轮之后
上述算法的α后悔值
大约为根号N。这个定理说明
当N趋近于无穷大的时候
平均到每一轮的α后悔值
趋近于零
我们采用与上一章一致的
数据集和实验设置
来评测我们的方法
我们与两个方法进行
两个基线方法进行比较
其中一个是K-LinUCB算法
这个算法相当于
不考虑多样性的冷启动推荐算法
另一个基线方法是
热启动推荐算法
所谓热启动推荐算法是指
这个算法可以获得
部分的用户评分数据
用来训练用户的兴趣特征
以下是不同参数设置下
实验结果
实验结果的展示
我们可以看到在开始的几轮
热启动算法的推荐效果
要优于冷启动算法的结果
但是随着推荐轮数不断增加
冷启动算法获得越来越多的
用户反馈
然后它冷启动推荐算法的
性能就逐渐超过热启动
推荐算法
本章小结
我们在这一章提出了
基于内容的组合式多臂
老虎机模型
并且为这个模型
设计了高效的算法
并给出严格的后悔值分析
我们用上述模型来解决
冷启动的多样化推荐问题
在公开的电影评论
数据集上的实验
证实我们的模型的确可以
有效的为新用户
提供多样化的推荐结果
下面介绍动态数据建模
贝叶斯方法是一种
重要的数据建模的方法
它在推荐系统中
有非常重要的应用
在基于内容的过滤中
它通常用于对文本
图象这些数据进行建模
用来挖掘隐层特征
那在协同过滤中
话题模型结合传统的
矩阵分解模型构成了一个
协同话题模型
从而使得矩阵分解
所挖掘出来的隐语义因子
在话题模型中找到
明晰的语义解释
另外非参数的协同过滤模型
是指借助于贝叶斯
非参数的技术
使得协同过滤不需
使得协同过滤算法不需要
事先确定隐语义因子的个数
而是在学习算法中自动获得
那所有这些贝叶斯方法中
它的关键在于有一个
贝叶斯先验
贝叶斯先验在对数据
进行建模的时候
需要一个基本假设
这个基本假设称为可交换性
可交换性是指当我们
交换数据的顺序的时候
概率保持不变
但是呢,在许多实际应用中
这个假设并不成立
比如说在新闻文本当中
话题是随着时间不断发生变化的
在同一个时间内的
同一个时间不同地点的话题
也是不同的
这里的时间和地点
我们称之为协变量
那么我们如果要对这些
带有动态性的数据
进行建模的时候
我们就需要一个构建一个
随任意协变量变化的
贝叶斯先验
在已有的工作中
许多研究工作是分别考虑
离散时间、连续时间或者地点
作为协变量的贝叶斯先验
而没有考虑这个协变量的统一性
在本章中我们提出一个
基于狄利克雷过程的
动态贝叶斯非参数先验
狄利克雷过程是一个
最重要的贝叶斯非参数先验之一
它可以自动学习聚类的个数
它的模型的组件
对应于聚类,满足可交换性
那么我们要构建一个
动态的贝叶斯非参数先验
我们观察到动态现象包括
随着协变量的变化
聚类可能产生可能消失
那么已有的聚类
也可能发生变化
那么相对应的
我们对这个动态非参数
贝叶斯先验
要求它有以下模型假设
它要允许新的模型组件的产生
允许现有的模型组件被移除
允许现有模型组件的参数
发生变化
那么我们在本章提出了
函数型狄利克雷过程
首先我们在函数空间上
构建一个狄利克雷过程
这个狄利克雷过程的组件
是定义域不同的函数
定义域等价于协变量
空间上的子集
而值域是目标参数空间
那么给定协变量空间上一点
目标参数空间上的随机分布
由约束和投影获得
这里的约束和投影
都是狄利克雷过程的
基本操作
根据狄利克雷过程的性质
对一个狄利克雷过程
进行约束和投影操作之后
得到的随机分布
它仍然是一个狄利克雷过程
在我们的构建方法中
一个函数的定义域的起点
对应于一个模型组建的产生
这个定义域的终点
对应于一个模型组建的消失
那么函数在定义域上
取值的变化
对应于这个模型组件
参数的变化
在这种构建方法当中
协变量空间上
距离相近的两个点
它的DP组件的相似性
也会高一些
我们通过三个实验来评测
我们的方法
第一个实验是进化的
高斯混合模型
它是一个模拟实验
我们模拟一组随时间进化的
高斯混合模型
对这个进化的高斯混合模型
进行采样取点
然后对产生的数据点
用我们的模型进行建模聚类
我们与两个基线方法进行比较
一个是静态的狄利克雷混合模型
另一个是目前为止最先进的
动态贝叶斯模型
它叫马尔可夫狄利克雷过程
以下所示是实验结果
上一幅图显示的是信息差异
信息差异衡量的是
聚类算法的
聚类算法的结果与数据的
真实结果之间的差异
下一幅图显示的是
在每一个时间点中
每一个时间点的聚类的个数
我们可以看到
在所有的比较方法当中
我们的
我们的方法得到的
聚类结果的效果是最好的
并且根据下一幅图
所显示的我们的
我们的聚类算法
所输出的结果
与数据的真实聚类结果之间
非常接近
第二个实验是时间相关的
动态话题模型
我们的数据集是NIPS会议上
1987年到2003年的
公开论文数据集
我们对这个数据集进行
动态话题的挖掘
这个图显示的是部分
话题的时间线
我们可以看到
随着时间的推进
一些新的话题产生了
一些已有的话题消失了
另外我们还显示一些
话题的权重最高的关键词
我们可以看到
随着年份的不同
话题的关键词在不断发生变化
第三个实验是地点相关的
文本建模
我们从Flickr网站上
抓取包含地点信息的图片标签
对这些图片标签进行话题建模
我们与标准的静态的
狄利克雷过程进行比较
我们将所挖掘到的话题
对应的GSP信息
显示到这个地图上
我们可以看到
下面三幅图是我们的模型
找到的话题
相比于静态狄利克雷过程
因为我们的方法考虑了
地点信息
我们挖掘到的话题
更加集中,意义也更加明晰
本章小结
我们在本章中提出
函数式狄利克雷过程
这个函数式狄利克雷过程
可以作为随任意协变量变化的
贝叶斯非参数先验
用来对动态数据进行建模
我们给出基于吉布斯采样的
模型推演算法
我们分别在模拟数据和
真实数据上
验证我们的模型和算法
实验结果证实
函数式狄利克雷过程
可有效地对动态数据进行建模
下面介绍快速聚类算法
聚类算法是一种非常重要的
传统推荐技术
在基于内容的过滤中
常用来对文本建模
在协同过滤中
常用来进行邻域计算
那么也有一些研究工作
利用聚类
利用聚类来提高
推荐结果的多样性
在所有的聚类算法当中
K均值聚类算法
是应用最广泛的聚类算法之一
那随着数据规模越来越大
高维数据越来越普遍
那传统的传统算法的计算效率
就不能够满足要求
但是我们观察到
高维数据有两个特点
它的稀疏度比较高
它的冗余度也比较高
这就启发我们是不是可以
利用降维技术来加速
聚类算法
在已有的工作当中
奇异值分解是一个
非常重要的降维技术
有一些工作利用奇异值分解
来找到高维数据的
一个低秩近似
那这个做法有一个缺点
在于奇异值分解
这个降维算法
本身的效率就不高
那么除非我们离线地
对数据进行降维
否则的话奇异值分解算法
是不能找到一个快速的
聚类算法的
Clarkson和Woodruff在2013年
提出了一种高效的随机投影算法
叫稀疏嵌入
随后一些作者
利用,一些研究者利用
这个稀疏嵌入来加速一些
非线性回归还有SVM等算法
都取得了不错的效果
当然这些研究和分析
不能直接应用到K均值算法的
研究和分析当中
K均值问题是指
给定数据矩阵
和聚类个数我们要找到
数据的一个划分
去最小化这个目标函数
这个问题
这个优化问题是一个
非常著名的NP难的问题
那么我们考虑这个优化问题的
γ近似算法
这个近似算法输出一个
近似的聚类结果
以高概率满足如下所示不等式
这个不等式的意思是指
近似算法返回的聚类结果
所对应的目标函数的取值
小于等于γ倍的
最优解对应的目标函数的取值
这里γ通常大于一
那不同的近似算法
所对应的γ的取值也不同
在本文中我们提出的
基于稀疏嵌入的K均值
聚类算法
算法的第一步
将数据矩阵
乘以一个稀疏嵌入矩阵
从而将高维的数据矩阵
降维为一个低维的近似
然后我们将这个低维近似
作为输入,调用γ近似算法
输出聚类结果
这里的稀疏嵌入矩阵
它的每一列只有一个元素是零
只有一个元素不是零
那么这 这使得这个
我们有这个稀疏嵌入矩阵
来压缩数据的时候
效率是非常高的
这个稀疏嵌入矩阵
可以将高维数据
转化为低维数据的同时
保持住数据内部的几何结构
从而保持它的聚类结果不会太差
那么我们通过如下定理证实
在一定参数设置
在一定的参数设置下
上述近似算法
返回的聚类结果以高概率
近似最优解
近似比为2加?倍的γ
其中这个?是一个精度参数
我们在四个真实的数据集上
评测我们的
评测我们的算法
其中前三个数据集
是图象聚类数据集
第四个数据集是新闻文本
聚类数据集
这个表格所示的是
这个 这四个数据集的
统计数据
我们与四种基线方法进行比较
包括标准的K均值聚类算法
和时下最先进的
基于降维技术的K均值聚类算法
他们分别是随机投影、随机采样
以及奇异值分解
在运行时间上
我们可以看到
在所有的数据集上
所有的比较方法当中
我们的算法的效率是最高的
那在目标函数的比较上
我们可以看到当压缩后的数据
维度足够大的时候
我们的算法输出的聚类结果
与输出的聚类结果的目标函数
非常接近标准聚类结果的
输出的结果所对应的目标函数
第三个是在信息差异上比较
我们可以看到
我们的算法输出的聚类结果
十分接近有时甚至好于
标准聚类算法的聚类结果
这个实验结果是合理的
因为标准的聚类 聚类算法
它并不一定能够输出
最优的聚类结果
因为数据存在冗余
存在重复
那么通过降维技术之后
有可能提升了聚类
聚类算法的效果
本章小结
我们在本章中提出
基于稀疏嵌入的快速
K均值聚类算法
并从理论上分析了
算法的近似比
我们在多个公开的聚类
数据集上进行实验
实验结果证明
我们的算法在运行时间
和精度上都要优于
已有的最先进的算法
下面介绍总结与展望
本文主要围绕四个研究点
进行研究和讨论
那么在多样化的推荐算法方面
我们提出基于熵正则化因子的
多样化推荐算法
我们在为后续的工作中考虑
利用熵正则化因子
来解决其他领域的
结果多样化的问题
那在冷启动的推荐
推荐算法方面我们提出
基于内容的组合式
多臂老虎机模型
用这个
用这个模型对用户反馈
进行建模
在推荐过程中不断改善
推荐结果
在后续的工作中
我们考虑回报函数的
更多可能性
然后形式化用户的满意度
在动态数据建模方面
我们提出函数式狄利克雷过程
函数式狄利克雷过程
可以作为随任意协变量变化的
贝叶斯非参数先验
在后续的工作中我们考虑
将函数式狄利克雷过程
应用到更多的实际推荐任务当中
比如说地点相关的推荐等
那在快速聚类算法方面
我们提出基于稀疏嵌入的
快速K均值聚类算法
在后续的工作中
我们考虑将这个快速聚类算法
应用到大规模的推荐应用当中
致谢部分
感谢我的导师朱小燕老师
在五年来对我的精心指导
感谢实验室的黄民烈老师
与郝宇老师
与全体实验室
实验室的全体同学
对我的帮助
谢谢
-王鑫《国际化对中国工资差距的影响研究》
--答辩人王鑫简介
--论文摘要
--论文答辩实况
--问答及答辩结果
--导师评价
--同学眼中的王鑫
--个人学术感言
-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》
--答辩人吴宇恩简介
--论文摘要
--吴宇恩答辩
--吴宇恩回答问题
--吴宇恩导师评价
--吴宇恩感言
-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》
--答辩人段昊泓简介
--论文摘要
--段昊泓答辩
--段昊泓问答
--段昊泓导师点评
--段昊泓采访
-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》
--答辩人刘凯简介
--论文摘要
-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》
--答辩人谢臣哲简介
--论文摘要
-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》
--答辩人张祎嵩简介
--论文摘要
--张祎嵩答辩
--导师点评
--个人学术感言
-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》
--答辩人吴文斌简介
--论文摘要
-李月标《交通流缺失数据补偿算法的研究》
--答辩人李月标简介
--论文摘要
-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》
--答辩人房宇巍简介
--论文摘要
--建筑房宇巍答辩
--房宇巍问答
-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》
--答辩人朱小琳简介
--论文摘要
--朱琳答辩
--建筑系朱琳问答
-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》
--答辩人杨睿简介
--论文摘要
--杨睿答辩
--杨睿回答问题
-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》
--答辩人邓施莹简介
--论文摘要
--邓施莹答辩
--邓施莹问答
-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》
--答辩人任兆欣简介
--论文摘要
--任兆欣答辩
--任兆欣问答
--任兆欣采访
--任兆欣导师点评
-章佳杰《车路协同框架下信号灯配时优化方法设计》
--答辩人章佳杰简介
--论文摘要
-杨凯棣《孤立过饱和交叉口信号配时问题研究》
--答辩人杨凯棣简介
--论文摘要
-秦利静《推荐系统模型与学习算法研究》
--答辩人秦利静简介
--论文摘要
-吴成钢《Property Testing and Related Problems》
--答辩人吴成钢简介
--论文摘要
- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》
--答辩人哈米德简介
--论文摘要
--伊朗留学生答辩
--伊朗留学生问答
--伊朗留学生访谈
-赖尚清《朱子仁论研究》
--答辩人赖尚清简介
--论文摘要
--人文-赖尚清答辩
--人文-赖尚清问答
--人文-赖尚清访谈
-姜海波《人的存在与作为真理之本质的自由》
--答辩人姜海波简介
--论文摘要
-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》
--答辩人刘军伟简介
--论文摘要