当前课程知识点：2015年清华大学研究生学位论文答辩（一） > 第2周机械系、自动化系、交叉信息学院 > 自动化系-黄高 > 答辩陈述

返回《2015年清华大学研究生学位论文答辩（一）》慕课在线视频课程列表

答辩陈述在线视频

答辩陈述

下一节:问答及答辩结果

返回《2015年清华大学研究生学位论文答辩（一）》慕课在线视频列表

答辩陈述课程教案、知识点、字幕

各位老师各位同学早上好

欢迎各位专家莅临

我们这次的博士学位

论文答辩会

首先我先简单介绍一下

我们出席这次的

博士答辩委员会名单

答辩委员主席

刘德荣研究员

来自中国科学院自动化所

我们的委员名单包括

王龙教授来自北京大学工学院

还有赵冬斌研究员

来自中国科学院自动化所

范玉顺教授

来自清华大学自动化系

周杰教授

来自清华大学自动化系

吴澄院士

来自清华大学自动化系

还有宋士吉教授

清华大学自动化系

首先我们有请我们那个

博士生答辩的

首先是黄高同学

他是出生于1988年

他本科毕业于北京航空航天大学

2009年至今在清华大学

攻读博士学位

黄高同学学分绩点是

达到93分

已经修满我们自动化系的

博士学位课程要求

同时黄高同学发表多篇SCI论文

也达到我们清华大学

博士学位论文要求

那么有请我们

答辩委员会主席主持答辩会议

这个黄高同学做这个

论文答辩，时间为45分钟左右。

各位老师各位同学大家早上好

我是来自自动化系

系统集成研究所的博士黄高

我的导师是吴澄院士

和宋士吉教授

我的博士论文题目是

基于机会约束的

机器学习方法及其应用

那么非常感谢大家

来参加我的博士论文答辩

今天我汇报的内容

主要包括以下四个部分

前两部分主要是介绍一下

课题的研究背景

以及相关研究工作

在国内外的一个研究进展

那么第三部分

是我汇报的主要内容

主要讨论我论文提出的

一些相关方法

以及应用还有创新点

那么第四部分做一个

简短的总结和研究展望

首先来看一下课题背景

那么现在是

随着信息化的大发展

尤其是互联网

在各个行业的渗透

我们的社会和经济形态

都发生了巨大的变革

其中一个比较典型的

一个现象就是

各个行业都面临着大量的数据

那么大家都相信这些数据中

必然蕴藏着巨大的价值

但是要让这些数据

真正发挥出价值

必须要对其进行合理的

开发以及利用

那么这样就不可避免的

涉及一系列与数据相关的

科学方法和技术手段

具体来说包括数据采集

数据储存数据管理

数据分析与挖掘

那么我的博士论文

主要围绕最后一个环节

数据分析与挖掘展开研究

那么具体来说

我研究的是机器学习方法

那么这是一种研究

利用计算机如何来模拟

或者实现人类的行为

以获取新的知识或者技能

从学习的模式上来讲

机器学习可以分为三大类型

包括监督学习

无监督学习以及半监督学习

那么监督式学习

指的是我的训练数据

不仅包含输入特征X

也包括输出的响应Y

那么这种比较典型的监督式学习

包括回归分析以及分类

那么无监督学习不同在于

它没有输出响应Y

只有给定的输入特征

那么这样的学习任务

包括聚类降维密度估计等等

半监督学习是近十多年来

才兴起的一个方向

那么它想做的是

既利用这种有标记的样本

就是同时给定输入和输出

这样的数据

同时还要利用无标记的样本

只有X这种情况

那么它想达到的目的就是

我利用两部分数据

能达到比单纯来监督学习

或者单纯的无监督学习

更好的效果

那么我的博士论文

将在这三个框架下

分别讨论机会约束

在机器学习中的一些应用

那么机器学习它其实

它的本质

它的本质是在于建模和优化

机会约束是一种数学

数学上常见的优化模型

它属于随机优化的一个分支

那么这是机会约束的

一种常见形式

它跟普通约束不同在于

一般的约束就是只有f(x)小于0

这是一个确定性的一个约束

那么如果参数ω

是具有随机性的

那么f(x)小于等于零是只能以

我们只能要求

它以一定的概率成立

那么P这里表示一个概率

η代表的是一个置信概率

表示一个阈值

那么这就是机会约束的

一个一般形式

求解这种机会约束规划模型

主要有两类方法

一类是将机会约束转化为

通过概率不等式

转化为这种确定性规划

然后用现有的

确定性规划来求解

那么另一类是采用

随机模拟的方式

用蒙特卡罗仿真等等

来近似的求解

求得最优解

那么第二种方法通常比较

计算代价比较大

我们在这里主要考虑是

第一类求解方法

那么机会约束在机器学习中

其实已经有很多应用了

尤其是在监督式学习中

这里有不少文献

用于将机会约束

用于解决经典的分类问题

经典的回归问题

还有鲁棒学习问题

包括有序回归联结预测等等

那么这些文章

基本上都发在机器学习

与数据挖掘

最顶级的期刊和会议上

与之相比

机会约束在半监督学习

和无监督学习中

应用得比较少

在半监督学习中

主要用于做半监督分类

在无监督学习中

主要用于做异常点检测

那么这些文献相对比较少

那么我的博士论文

主要就是要系统性的研究

机会约束在监督

半监督和无监督

三种学习模式中的应用的

进行一个讨论

那么下边是将详细介绍

论文的主要研究内容

大概分为四大块

前三大块是分别从监督学习

半监督学习和无监督学习

这三个框架下

来展开讨论

第四部分是讨论

在实际系统中的一个应用

首先来看

第一种学习算法

我们这里考虑的是一种

鲁棒支持向量回归算法

数据不确定性

在很多应用中是广泛存在的

为了处理这种

数据不确定性

在回归问题中

我们通常会采用一种

叫做鲁棒支持向量回归

算法的模型

那么这类方法

相关文献也非常多

根据它所处理的

不确定性类型

可以处理随机型

几何型区间型模糊型等等

不确定性类型的数据

但是我们可以发现

对于非线性回归问题

这些方法

或者只考虑

输入数据的不确定性

或者只考虑

输出数据的不确定性

而没有将两者同时

同时予以考虑

那么我们就做了一个工作

对已有工作进行一个推广

就是我要在

非线性回归的框架下

同时考虑这两种不确定性

在介绍方法之前

先看一下经典的

支持向量回归模型

这是不考虑

数据不确定性的一个模型

这是一个线性模型

我要学习一个线性的函数

然后使得

我所有的样本点

以尽可能多的处在

这个回归曲线附近的

一个领域之内

这是一个

标准的支持向量回归模型

如果数据具有不确定性

那么我们通常可以

采用随机性来描述

那么我们可以

把输入X和输出Y

都当成一组随机变量

它的均值和协方差是

假设是已知的

也就是每个样本

都具有一定的随机性

但是我知道

它的一二阶统计信息

与已有工作不同

就是我同时考虑X或者Y

和Y

同时都具有不确定性

都是随机变量

接下来我们考虑

如何在利用这个经典的

回归模型得到一个鲁棒的形式

具体来说

我这里考虑了两种模型

第一种是在原有的

这个模型约束

将它进行替换

原来是一个确定性的约束

现在替换成机会约束

那么这个机会约束

实际上是要求

这些样本点处在分类

这个回归曲线附近的

概率去最大化

所以这样就将随机性

考虑进来了

为了求解这个问题

我们采用马尔可夫不等式的

一系列转化

然后得到了一个凸优化模型

那么这是一个

二阶锥规划问题

所以可以用很多求解工具

求得它的全局最优解

这是第一个模型

第二个模型

就是在原有机会

在原有确定性约束的基础上

附加一组新的约束

那么这是一组

就是要求我的拟合的误差

当数据受到扰动的时候

拟合误差它的波动率要最小化

以一定的概率去最小化

那么在这里我们可以采用

chebyshev不等式

也对它进行转化

可以将它转化成

确定性的优化模型

这也是一个

二阶锥规划模型

然后对前面提到

都是线性模型

那么对于非线性模型

我们可以采用核学习的方法

通过引入核函数

可以将数据映射到特征空间

然后再进行类似的建模

然后最后也可以得到

这样两个凸优化模型

这是在一个

人工数据集上的结果

这是一个简单的

线性回归问题

那么我们在输入和输出数据中

同时加入一定的高斯噪声

然后用我们的方法去进行拟合

这里我们比较了

另外了两种方法

红色的曲线是已有的

鲁棒回归方法

然后蓝色的曲线是经典的

支持向量回归方法

然后绿色的线是我们的方法

然后纵轴是一个鲁棒误差

越小越好

那么可以看到

在这几个数据集上

当输入输出

数据同时存在状态的情况下

基本上我们的方法都是

一致性优于另外两种方法

在实际数据集上

也有一个类似的这种结果

接下来考虑

第二种监督式的学习方法

这里考虑的是降维问题

那么数据降维在

机器学习数据挖掘中

应用的非常多

它通常作为一种

数据分析、可视化

或者是预处理的手段广泛应用

其中线性辨别分析是一种

最为经典的一种

监督式的降维方法

这是LDA

也就是线性辨别分析的

一个基本形式

那么它对应于一个

广义特征值问题

虽然LDA在很多领域

应用非常多

但是我们会发现

它对于那种

类别分布不规则的多类数据集

有时候表现不是很稳定

那么像这个

这是LDA的一个结果

它会使得个别类跑得非常远

然后其它类不能很好的分开

那么我们分析它的原因

主要是两方面

主要是因为它

一方面是它的分子和

是一个求和的形式

另一个原因是它的分母

也是一个求和的形式

其实就是说

这种求和的形式

容易出现什么问题呢？

就是如果其中某一项特别大

那么

整个这一项就会被那些少数的

比较大的项所主导

其它项可能就被忽略了

那么这个问题

在现有文献中也研究非常多

从2001年到最近几年

有很多的文献

来考虑怎么去对这两个

这种求和项来进行优化

来防止它被少数的

这种项所主导

这些方法就是说

都取得了很好的效果

那么我们认为这些方法

虽然在都有各自的好处

但是他们仍然

沿用了LDA的一套思路

就是他们基本上都采用

还是采用一个整体的

类类离散图

和类间离散图进行建模

那么我们回想一下降维

它的主要目的是为了

实现数据可视化

或者是为了后续分类做得更好

它其实是要求

任意两个类别在投影之后

在降维之后

都具有比较好的可分性

那么我们就想

我们是不是可以

直接来进行建模

来实现它的这个目的

那么我们考虑

摆脱使用一个

整体的离散图矩阵

而是直接来最大化

这种两两可分性

接下来为了定义

这种两两可分性

我们引入了一种可分概率

为什么引入概率呢

因为概率是一个

在0到1区间上取值的

所以它是一个有界的

不会被某些个别项所主导

不会出现特别大的项

而且它跟

实际上跟分类里边的

1对1的正确率是直接挂钩的

那么考虑这个可分概率

还有一个好处就是

2002年有一篇文献

叫最小最大概率机

它有一个相关结论

就是说我如果在考虑

数据分布的最坏的情况下

这个Pij这个是有一个

闭式的表达式的

也就是我们有一个

闭式的目标

可以来计算

那么有了这个

可分性的定义之后

那么目标函数其实就很简单

那我就把所有的

这些可分概率

加在一起来最大化

实现这种

成对可分概率的最大化

关于目标函数的优化

这是

这不是一个凸优化问题

我们在论文里边

提出用共轭梯度法进行优化

初始值可以用

先用LDA得到一个初始解

然后在这个初始解

作为基础进行梯度搜索

这个目标函数学的

还是一个一维的

一维的投影

如果我们要将数据降到多维

那么就需要学习多个投影向量

在这里我们给出一个

迭代的形式

就是假设我们现在

已经学到了r的投影

现在我想学第r+1个投影

那么目标函数还是一样的

我还是最大化这个可分概率

但是我们附加了一组约束

这个约束是要求

新学的这个投影方向

关于以前的投影方向是

关于这个ST矩阵共轭的

ST是一个

所有样本的离散度举证

那么这个模型

可以通过斯密特正交化过程

也可以把它转化成一个

无约束的优化问题

跟上边那个优化目标是一致的

所以我们同样也可以

用共轭梯度法进行优化

这是在几个

实际数据集上的一个

将几个图象数据集

投影到二维平面

最右边这一列是LDA的投影

我们可以看到

对于这几个数据集

都会出现少数类别比较

少数类别离得比较远

但是出现其它类别

聚在特别紧的情况

那么相比之下

我们提出的

这种方法叫做PDA

可以将数据投影得比较均匀

这是降维后

我们再用（19：25）

来做分类的一个正确率的比较

那么横轴是降维的目标维数

纵轴是分类的正确率

那么最上边红色的曲线

代表是我们方法

然后我们跟一系列方法

进行了比较

可以看到我们的方法

在低维的时候

优势是非常明显的

就是我们

特别是降到二维三维这种

比较容易处理的空间的话

我们方法得到准确率

要远远高于其它几类方法

接下来在半监督学习的框架下

我来讨论

如何用机会约束进行建模

那么在介绍具体的算法之前

先大概的回顾一下半监督学习

因为它是近十多年来

才兴起的一个方向

那么为什么

要研究半监督学习呢

就是因为在很多实际系统中

我要收集标签样本

是非常困难的

就是有可能需要

耗费大量的时间或者精力

但是与此同时

无标记的样本

却相对容易采集

像我们大量的传感器数据

互联网数据都是无标记的

那么人们自然就希望

能够利用这些廉价的

无标记样本来提升算法的

一个学习精度

那么这是Web of Science

关于半监督学习出版的文献数

以及每年的引文数

可以看到这些年发展非常迅速

然后MIT出版社

2006年也专门出版了一本

半监督学习的专著

那么半监督学习

它都是建立在一定的假设之上

离开了这个假设

半监督学习可能

根本得不到好的效果

那么通常采用的两个假设

一个是聚类假设

另一类是流形假设

那么我们提出的算法

主要是在聚类假设的

框架下进行讨论

但是我们在文章里边也提到了

如果我们的模型

其实是也可以加入流形假设

使得它同时能

具有两者的优越性

（这部分内容）在论文里边有所提及

我们来看一下聚类假设

用通俗的话讲

它就是认为如果两个样本

它属于同一个聚类

那么它极可能属于同一个类别

这个思想

启发了一系列的

半监督学习算法

在聚类假设的基础上

有人对它进行了另外一种描述

就是认为分类面应当以

应当穿过样本密度

比较低的区域

那么这两个假设

其实在一定程度上是等价的

不过这种新的描述形式

又启发了另一类

半监督学习算法

包括半监督（SVM）

即支持向量机（等）一系列算法

那么我们在此基础上

又提出了一个新的假设

叫所谓的高分离概率假设

我们认为样本点

应当以最大的概率

去远离分类面

那么它背后的动机和聚类假设

和低密度分类假设是一致的

但是我们可以看到

当我们提出这种假设之后

我们可以更方便的进行建模

然后得到比较简洁的算法

我们的优化目标

就是要最大化这种

可分离的概率

就是让所有的样本点

以最大的概率

去远离分类面

那么具体来就

这样就得到了一个新的

一个机会约束模型

那么ε

这里是一个描述到分类面

远近的一个参数

在半监督学习中

我们自然

它的标签是不知道的

在这里我们需要将它作为

一种优化变量来加以优化

对于ε

取这种特殊情况下的

取特殊值的时候

那么这个模型也是可以通过

概率不等式的转化

变成这么一种新的优化形式

那么这个约束是附加上去的

这是一个类平衡的约束

就是在半监督学习中

我们通常希望

对于无标记样本

我们有一个先验

希望这个分到

正类的样本的比率是r

这是一个给定的值

接下来就是关于

这种模型的优化

可以看到它主要有两个参数

一个是W

这是分类器的参数

是在连续空间取值的

那么Yu是关于

无标记样本的标签值

那么它是（01）值

对于两类分类问题

那么这是一个典型的

混合整数规划问题

通常比较难以求得它的最优解

那么在论文中

我们提出用交替优化的方法

来进行求解

也就是说两个变量

固定一个来优化另外一个

然后反复迭代直到算法收敛

我们在论文里边证明了

这种算法肯定是在

有限步之内收敛的

有了这种算法之后

我们可以看到W的优化

其实是比较简单的

它对应它的复杂度

是跟样本维数成3次方

如果样本不是特别高维的话

那么W的优化是比较高效的

那么对于Y的优化

我们也可以看到

如果我们提出

用标签交换方法来进行优化

可以看到这种算法

它其实复杂度很高

跟样本的4次方成比例

那么这是一个很高的复杂度

为了提高这一部分的效率

我们采用了两个措施

第一个措施是

我们给出了一个

均值和方差的更新方程

也就是每一对样本

进行交换之后

我如何通过这个公式

快速的得到新的类别的

这个均值和方差

那么这里只涉及向量运算

所以可以很快的得到

它的均值和方差的更新

第二步是我们给出了

两个判别准则

这是我们如何去找到

两个可以被交换

可以使得目标函数

可以朝最大化这个方向走的

这么两个样本

那么我们给出两个

很简洁的判别准则

也就是只要满足这两个准则

我们可以证明

在交换它们的标签之后

它的目标函数值是严格增加的

那么有了这个保证

那么算法肯定是

可以收敛的

可以看到

这是进行优化之后

算法复杂度的提升

最后其实是跟样本数成线性

这里有个NlogN

NlogN这一项是

只是对标签的一个排序

如果N不是特别大的时候

这一项在实际算法中

其实都可以被忽略

所以它基本上是跟样本数

成线性的一个复杂度

那么总的算法的复杂度

也是跟样本数成线性的

这是算法的一个演示

这是一个两类分类问题

每一类都是一个高斯分布

这是一个真实的类别

那么我们只标记了

两个标记样本

就是这个粗体的

方框和十字表示的

那么我们的算法

通过不停的进行标签交换

这些点是被交换的点

绿色的和灰色的这些点是被

每一步被交换的点

然后不停的更新

这个分类器的参数

这种在第五步之后

就得到了收敛

最后达到了100%的分类准确率

这是一个示例

那么在实际数据集上

我们做了很多试验

那么可以看到

我们提出的这类方法

在绝大部分数据集上

都是得到了最低的分类误差

而且方差比其它方法都要小

说明我们这个算法比较稳定

因为它只有一个超参数

而且（对这个参数）不是很敏感

所以这是算法的

一个很大的优势

这是算法时间的一个比较

绿色的线是对应我们的算法

跟其它算法基本上要快

特别是跟现在用的比较多的

直推式支持向量机算法

要快几个数量级

这是Log坐标

接下来我们在半监督学习框架下

讨论第二种学习算法

那么这是一种基于多聚类假设的

一个学习算法

那么经典的半监督学习

我们通常假设每一类样本

来自于单个的聚类

或者单个的流形

但是这种假设在很多情况下

是不成立的

因为有时候我们一个类别

可能包含多个子类

那么每个子类

可能有各自的聚类

属于各自的聚类

或者流形

那么多聚类假设

就是解决上述问题的

一个有效的方法

这种多聚类假设

在监督式学习中提的比较多

那么最近几年都有人研究

但是在半监督学习中

却没有得到足够的重视

只有在2000年的时候

机器学习杂志上

有一篇文章

提到了这个问题

在这里

我们通过引入机会约束

给出了一种新的

基于多聚类假设的

半监督学习算法

这个算法是一个两阶段的算法

第一阶段大致来说

它是学习数据的局部特征

主要是用K近临算法

将数据集划分成不同的子集

然后我们对这些子集

来计算它的一二阶统计信息

然后在算法的第二阶段

提出一种基于机会约束的

分类算法

那么这个算法的好处就是

我能直接基于上一阶段

得到的子集来进行分类

而不需要去考虑单个的样本

这样对于样本量比较大的情况

可以大幅提升算法的效率

那么我们在用多维Chebyshev不等式

也可以将这样一个模型

转化成一个二阶锥规划模型

因此可以方便的求得

它的全局最优解

这是在实际数据集上的一个结果

USPS是一个

手写体字符数据集

也就是0到9十个

数字的图片的识别

那么为了验证我们的算法

我们将数据构造了

一系列的不对称的数据集

也就是每一个问题

我们都是选取其中一个数字

跟另外九个数字做分类

那么很显然这个数据集

这个问题是不均衡的

而且其中一个类别

包含了多个子类

可以看到

在这种情况下我们提出的方法

基本上都要优于经典的分类算法

以及不考虑

以及建立在单聚类假设上的

半监督学习算法

最后讨论的是在无监督的

学习框架下

来讨论机会约束的一个应用

然后这里考虑的是聚类问题

聚类问题在机器学习中也是非常

应用的非常广泛的一种

学习模式

它希望做的是将数据集

划分成不同的

不相交的子集

那么每一个子集

就在样本点尽可能的相似

而不同子集类的样本

尽可能的差异性比较大

那么聚类的方法非常多

辨别式聚类是其中

这些年研究的比较多的一类方法

比较有代表性的是

最大间隔聚类

最大容积聚类等等

那么它主要的特点是

希望将监督式学习中的

分类的目标函数

用到无监督学习中

那么我们来看一下

辨别式聚类它的关键在于

它要使得不同的簇之间

具有比较好的可分性

也就是一个好的聚类结果

应当使得不同的聚类之间

具有好的可分性

那么这里可以看到这样一个聚类

如果我们学习这么一个

信息分类器的话

它可以很好的分开

如果对于这样绿色的

把绿色的点当成一类

把红色的点当成一类的话

那么很难找到一个

线性分类器把它们很好的分开

那么既然这样的话

我们就在想

是不是可以用

分类里边的泛化正确率

来作为评价聚类质量的一个指标

那么方法正确率通俗的讲就是

一个分类器

在未知样本上的预测的准确率

那用这个泛化正确率

作为评价指标有什么好处呢

首先它是具有固定的取值区间

因为它肯定是在[0 1]上取值的

那么这对于在不同问题上

进行比较提供了很大的方便

其次它不受数据样本量的影响

此外它对异向特征尺度缩放

具有不变性

这是一个非常有用的一个性质

因为对于很多实际问题

我的特征可能来自于不同的

物理变量

可能具有不同的物理量纲

那么如果不受这个特征尺度

缩放影响的话

那么这个算法

就可以对这种量纲的规划不敏感

就不依赖于数据背后的物理量纲

那么值得一提的是

几乎在我们工作发表的同时

UIUC的 THOMAS HUANG

他们课题组也发表了一篇

类似的文章

也提到了用这个指标来作为

用这个指标来做评价

来评价聚类的质量

那么它们的方法

主要是在一个理论的框架下给出

用这种泛化正确率

做聚类指标的可能性

但是他们并没有给出一个

具体的可计算的指标

那么我们在这里将采用

最大最小分离概率

给出一个切实可计算的

这么一个指标

具体来说我们又考虑了

这篇文献里边

提到的最小最大概率机

因为它可以通过解一个

凸优化问题

来得到对泛化正确率的

一个下界的估计

那么因为我们要想计算

泛化正确率

通常在实际上是不可操作的

因为我们要

我是不可能知道

位置样本的标签的

所以我们只能去进行一个估计

那么这个方法

就提供了一种很好的估计手段

我可以通过解一个凸优化问题

来得到对泛化正确率下界的

一个估计

而且这个下界肯定是非平凡的

是有意义的

那么在此基础上

我们就定义了这样一个

最大最小分离概率的聚类指标

我们分析了

对于这个指标

首先它能够满足有效聚类指标的

三条公理

说明它是有效的

然后这个指标能够对作用在

输入变量上的可逆线性变化

具有不变性

也就是对异向特征尺度缩放是

确实是可以具有不变性的

那么既然有了这个指标

我们就可以通过最大化

这个指标来实现聚类

那么为了优化这个新提出来的

聚类指标的话

我们给出了几种优化方式

第一种也是用交替优化的方法

那么它有两个优化变量W和Y

Y是这个聚类的标签

那么我们可以采用交替化的方式

来轮流优化这两个变量

直到算法收敛

优化的第二种方式

是我推导了这个

优化目标的一个下界

这个下界在一定条件下是紧的

然后优化这个下界的时候

我们同样可以用

交替优化的思路

两个变量交替的进行优化

不过在这里优化W的时候

它对应是解一个广义特征值问题

那么第三种优化方法是

用所谓的标签变量松驰法

因为聚类标签

本来是一个离散变量

那么在这里我们将它进行松驰

先让它取连续值

那么我们可以证明

如果当它可以取连续值的时候

我们求这个标签变量

可以解这么一个矩阵

或者这个矩阵的最大特征值

对应的特征向量来得到

在得到这个特征向量之后

我们再可以恢复出

离散的这个聚类标签

下面给出了几个定理

这几个定理主要是讨论了

它跟现在比较用的比较多的

最大间隔聚类的

一个区别和联系

尤其是论证了

为什么我们这种方法

具有对异向特征尺度缩放不变的

这种性质

而其他方法不具有这种性质

接下来就是我们在

大量的数据集上

也做了一个验证

那么可以看到

我们提出的这个方法

后边是对应的三种不同的

优化方式

我们看到其实第一种优化方式

它的结果是最好的

尤其在后边几个

比较大的数据集上

它的聚类误差非常的小

相比于其他方法

那么这是聚类训练时间的

一个对比

我们这种算法的效率

也是非常高的

对于这种上万个样本的数据集

后边几个是

大概一万多个样本

基本上几秒钟之内

就能聚类完成

最后就是验证了我们算法

对这种异向特征尺度缩放的

是不是稳定

那么我们对每个数据集

随机选取它的一个特征

然后将它放大两倍

四倍八倍和十六倍

来看它的聚类正确率

会不会受这个缩放的的影响

那么最上边红色的曲线是

对应于我们的算法

可以看到跟蓝色的曲线是K均值

红色的曲线是最大间隔聚类

可以看到我们的算法是最稳定的

当然它在一定程度上

还是会受影响

这主要是因为

我们只能通过近似算法

解得它的局部最优值造成的

如果有一种算法能够

解得它的全局最优解

那么就会像我们前面定理所说的

它是严格稳定的

严格不变的

最后讨论一下

在实际系统中的应用

我们在这里考虑的是

风力发电机的

机组的状态监控

与故障诊断问题

那么在这里

我主要给出了几个示例

我们有实际系统

但在这里我们挑选了几个

示例来作为演示

其中第一个问题是

风功率曲线的拟合

那么风功率曲线是

描述风机的整体运行状态的

一个重要曲线

因为它反映的是将风机

将风能转化成电能的一个

一个效率

横轴是风速

纵轴是功率

那么我们如何基于实际数据

来进行拟合

很显然这是一个

非现象拟合问题

而且它的输入数据和输出数据

都不可避免的受到

造成了干扰

因此我们正好可以采用

我们前面提出的这种

鲁棒支持向量回归进行拟合

我们可以看到

蓝色的曲线是我们拟合的结果

红色的曲线是

经典的支持向量回归的

拟合的结果

可以看到红色的曲线

会受少量的这种异常点的干扰

出现波动

而我们的方法

表现的比较稳定

第二个示例是

将半监督学习

用于故障诊断

因为在故障诊断中

我们要获得这种故障标记的样本

通常是比较困难的

很难进行收集

因为本身故障可能发生

就不是很频繁

而且需要人工的去记录

那么用半监督学习

正好可以用大量的

这种无标记样本

因为无标记样本

其实就是无时无刻

不在采集的这些传感器数据

就是非常多

我们在这里做了一个示例

我们将这些数据

投影到二维平面

为了便于观察

红色的点表示有故障的样本

绿色的点表示正常样本

那么我们用监督式的学习

来进行故障的识别

蓝色的这些圈内表示的点

是被误诊断的点

那么如果我们采用

半监督学习方式进行诊断的话

可以将误诊断率大幅的降低

第三个示例是用

无监督聚类来做故障诊断

也就是我只有这种状态未知的

无标记样本

不知道它是故障还是无故障

我们希望先对它进行聚类

然后通过聚类来反映了

去找出那些异常的点

那么我们用了最后提出来这种

最大最小分离概率聚类

与现有的这种

最大间隔聚类

来进行的一个比较

这是所谓的ROC曲线

横轴是虚警率

纵轴是识别正确率

那么可以看到

在同样虚警率的情况下

我们的算法可以得到更高的

识别正确率

那么最后对这份工作

进行一个简单的总结

我们在监督学习

和半监督学习

以及无监督学习三个框架下

都提出了相应的算法

那么具体来说

首先我们给出了一种鲁棒的

支持向量回归的方法

那这种方法主要是

解决了线性分类问题中

输入和输出

非线性拟合问题中

输入和输出同时存在

不确定性这样的问题

然后拓展了已有鲁棒学习

回归方法的一个应用范围

那么下一步工作

可以考虑通过引入在线计算

来提升这个算法的效率

来降低它的

时间和空间复杂度

使它能够应用于

大规模的数据

那么第二个研究成果是

提出来一个新的降维算法

那么这个降维算法

我们提出直接来优化

这种分类正确率的思路

然后为降维研究提供的新的这种

思路和算法

那么下一步工作可以考虑

对这个目标函数进行一个优化

使它转化成凸的问题

或者更加易于求解的这种形式

那么在半监督学习框架下

我们首先提出了一种

新的半监督学习假设

最大分离概率假设

那么它为研究半监督学习

提供了新的视角

然后我们也给出了相应的算法

那么下一个阶段可以考虑

将这种算法推广到多类分类问题

那么第二种半监督学习算法

主要是针对于

具有多聚类特性的数据集

我们给出了一种

新的半监督学习算法

那么作为下一步工作

可以考虑在模型中

用降维或者聚类

来更好的学习数据的局部

或者全局特征

那么最后在无监督学习框架下

我们主要是提出了一种

新的基于机会约束的聚类指标

然后我们分析了它的很多

很好的理论性质

然后论文还给出了很多

实际可行的聚类算法

所以为聚类研究提供了

一个新的思路

和可行的算法

下一阶段可以考虑

我们如何将这些聚类指标

因为现在还主要是两类聚类问题

那么如何推广到多类问题

这是我博士在读期间

发表论文的情况

包括六篇SCI论文

以及两篇会议论文

都是CCF的A类会议和B类会议

那么还有多篇合作论文都是SCI

或者是A类会议

最后我要特别感谢导师

吴老师和宋老师

对我的关心和栽培

然后感谢实验室的同学

对我的帮助

然后感谢所有的家人和朋友们

然后我的汇报结束

2015年清华大学研究生学位论文答辩（一）课程列表：

第1周化工系、热能系、航院、土木系

-化工系-侯瑞君

--答辩人侯瑞君简介

--问答及答辩结果

-化工系-靖宇

--答辩人靖宇简介

--问答及答辩结果

-化工系-申春

--答辩人申春简介

--问答及答辩结果

-热能系-周会

--答辩人周会简介

--问答及答辩结果

-航院-李京阳

--答辩人李京阳简介

--问答及答辩结果

-土木系-安钰丰

--答辩人安钰丰简介

--问答及答辩结果

第2周机械系、自动化系、交叉信息学院

-机械系-刘向

--答辩人刘向简介

--问答及答辩结果

-机械系-白鹏

--答辩人白鹏简介

--问答及答辩结果

-自动化系-黄高

--答辩人黄高简介

--问答及答辩结果

-自动化系-江奔奔

--答辩人江奔奔简介

--问答及答辩结果

-自动化系-杨霄

--答辩人杨霄简介

--问答及答辩结果

-自动化系-王圣尧

--答辩人王圣尧简介

--问答及答辩结果

-交叉信息学院-顾钊铨

--答辩人顾钊铨简介

--问答及答辩结果

第3周水利系、微纳电子系、工物系、材料学院、医学院、法学院

-水利系-武明鑫

--答辩人武明鑫简介

--问答及答辩结果

-微纳电子系-田禾

--答辩人田禾简介

--问答及答辩结果

-工程物理系-付明

--答辩人付明简介

--问答及答辩结果

-工程物理系-刘飞翔

--答辩人刘飞翔简介

-材料学院-李洒

--答辩人李洒简介

--问答及答辩结果

-医学院-江力玮

--答辩人江力玮简介

--问答及答辩结果

-医学院-左腾

--答辩人左腾简介

--问答及答辩结果

-法学院-王一超

-- 答辩人王一超简介

--问答及答辩结果

答辩陈述笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。