当前课程知识点:2015年清华大学研究生学位论文答辩(一) > 第2周 机械系、自动化系、交叉信息学院 > 自动化系-黄高 > 答辩陈述
返回《2015年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表
返回《2015年清华大学研究生学位论文答辩(一)》慕课在线视频列表
各位老师 各位同学早上好
欢迎各位专家莅临
我们这次的博士学位
论文答辩会
首先我先简单介绍一下
我们出席这次的
博士答辩委员会名单
答辩委员主席
刘德荣研究员
来自中国科学院自动化所
我们的委员名单包括
王龙教授来自北京大学工学院
还有赵冬斌研究员
来自中国科学院自动化所
范玉顺教授
来自清华大学自动化系
周杰教授
来自清华大学自动化系
吴澄院士
来自清华大学自动化系
还有宋士吉教授
清华大学自动化系
首先我们有请我们那个
博士生答辩的
首先是黄高同学
他是出生于1988年
他本科毕业于北京航空航天大学
2009年至今在清华大学
攻读博士学位
黄高同学学分绩点是
达到93分
已经修满我们自动化系的
博士学位课程要求
同时黄高同学发表多篇SCI论文
也达到我们清华大学
博士学位论文要求
那么有请我们
答辩委员会主席主持答辩会议
这个黄高同学做这个
论文答辩,时间为45分钟左右。
各位老师 各位同学大家早上好
我是来自自动化系
系统集成研究所的博士黄高
我的导师是吴澄院士
和宋士吉教授
我的博士论文题目是
基于机会约束的
机器学习方法及其应用
那么非常感谢大家
来参加我的博士论文答辩
今天我汇报的内容
主要包括以下四个部分
前两部分主要是介绍一下
课题的研究背景
以及相关研究工作
在国内外的一个研究进展
那么第三部分
是我汇报的主要内容
主要讨论我论文提出的
一些相关方法
以及应用还有创新点
那么第四部分做一个
简短的总结和研究展望
首先来看一下课题背景
那么现在是
随着信息化的大发展
尤其是互联网
在各个行业的渗透
我们的社会和经济形态
都发生了巨大的变革
其中一个比较典型的
一个现象就是
各个行业都面临着大量的数据
那么大家都相信这些数据中
必然蕴藏着巨大的价值
但是要让这些数据
真正发挥出价值
必须要对其进行合理的
开发以及利用
那么这样就不可避免的
涉及一系列与数据相关的
科学方法和技术手段
具体来说包括数据采集
数据储存数据管理
数据分析与挖掘
那么我的博士论文
主要围绕最后一个环节
数据分析与挖掘展开研究
那么具体来说
我研究的是机器学习方法
那么这是一种研究
利用计算机如何来模拟
或者实现人类的行为
以获取新的知识或者技能
从学习的模式上来讲
机器学习可以分为三大类型
包括监督学习
无监督学习以及半监督学习
那么监督式学习
指的是我的训练数据
不仅包含输入特征X
也包括输出的响应Y
那么这种比较典型的监督式学习
包括回归分析以及分类
那么无监督学习不同在于
它没有输出响应Y
只有给定的输入特征
那么这样的学习任务
包括聚类 降维 密度估计等等
半监督学习是近十多年来
才兴起的一个方向
那么它想做的是
既利用这种有标记的样本
就是同时给定输入和输出
这样的数据
同时还要利用无标记的样本
只有X这种情况
那么它想达到的目的就是
我利用两部分数据
能达到比单纯来监督学习
或者单纯的无监督学习
更好的效果
那么我的博士论文
将在这三个框架下
分别讨论机会约束
在机器学习中的一些应用
那么机器学习它其实
它的本质
它的本质是在于建模和优化
机会约束是一种数学
数学上常见的优化模型
它属于随机优化的一个分支
那么这是机会约束的
一种常见形式
它跟普通约束不同在于
一般的约束就是只有f(x)小于0
这是一个确定性的一个约束
那么如果参数ω
是具有随机性的
那么f(x)小于等于零是只能以
我们只能要求
它以一定的概率成立
那么P这里表示一个概率
η代表的是一个置信概率
表示一个阈值
那么这就是机会约束的
一个一般形式
求解这种机会约束规划模型
主要有两类方法
一类是将机会约束转化为
通过概率不等式
转化为这种确定性规划
然后用现有的
确定性规划来求解
那么另一类是采用
随机模拟的方式
用蒙特卡罗仿真等等
来近似的求解
求得最优解
那么第二种方法通常比较
计算代价比较大
我们在这里主要考虑是
第一类求解方法
那么机会约束在机器学习中
其实已经有很多应用了
尤其是在监督式学习中
这里有不少文献
用于将机会约束
用于解决经典的分类问题
经典的回归问题
还有鲁棒学习问题
包括有序回归 联结预测等等
那么这些文章
基本上都发在机器学习
与数据挖掘
最顶级的期刊和会议上
与之相比
机会约束在半监督学习
和无监督学习中
应用得比较少
在半监督学习中
主要用于做半监督分类
在无监督学习中
主要用于做异常点检测
那么这些文献相对比较少
那么我的博士论文
主要就是要系统性的研究
机会约束在监督
半监督和无监督
三种学习模式中的应用的
进行一个讨论
那么下边是将详细介绍
论文的主要研究内容
大概分为四大块
前三大块是分别从监督学习
半监督学习和无监督学习
这三个框架下
来展开讨论
第四部分是讨论
在实际系统中的一个应用
首先来看
第一种学习算法
我们这里考虑的是一种
鲁棒支持向量回归算法
数据不确定性
在很多应用中是广泛存在的
为了处理这种
数据不确定性
在回归问题中
我们通常会采用一种
叫做鲁棒支持向量回归
算法的模型
那么这类方法
相关文献也非常多
根据它所处理的
不确定性类型
可以处理随机型
几何型 区间型 模糊型等等
不确定性类型的数据
但是我们可以发现
对于非线性回归问题
这些方法
或者只考虑
输入数据的不确定性
或者只考虑
输出数据的不确定性
而没有将两者同时
同时予以考虑
那么我们就做了一个工作
对已有工作进行一个推广
就是我要在
非线性回归的框架下
同时考虑这两种不确定性
在介绍方法之前
先看一下经典的
支持向量回归模型
这是不考虑
数据不确定性的一个模型
这是一个线性模型
我要学习一个线性的函数
然后使得
我所有的样本点
以尽可能多的处在
这个回归曲线附近的
一个领域之内
这是一个
标准的支持向量回归模型
如果数据具有不确定性
那么我们通常可以
采用随机性来描述
那么我们可以
把输入X和输出Y
都当成一组随机变量
它的均值和协方差是
假设是已知的
也就是每个样本
都具有一定的随机性
但是我知道
它的一二阶统计信息
与已有工作不同
就是我同时考虑X或者Y
和Y
同时都具有不确定性
都是随机变量
接下来我们考虑
如何在利用这个经典的
回归模型得到一个鲁棒的形式
具体来说
我这里考虑了两种模型
第一种是在原有的
这个模型约束
将它进行替换
原来是一个确定性的约束
现在替换成机会约束
那么这个机会约束
实际上是要求
这些样本点处在分类
这个回归曲线附近的
概率去最大化
所以这样就将随机性
考虑进来了
为了求解这个问题
我们采用马尔可夫不等式的
一系列转化
然后得到了一个凸优化模型
那么这是一个
二阶锥规划问题
所以可以用很多求解工具
求得它的全局最优解
这是第一个模型
第二个模型
就是在原有机会
在原有确定性约束的基础上
附加一组新的约束
那么这是一组
就是要求我的拟合的误差
当数据受到扰动的时候
拟合误差它的波动率要最小化
以一定的概率去最小化
那么在这里我们可以采用
chebyshev不等式
也对它进行转化
可以将它转化成
确定性的优化模型
这也是一个
二阶锥规划模型
然后对前面提到
都是线性模型
那么对于非线性模型
我们可以采用核学习的方法
通过引入核函数
可以将数据映射到特征空间
然后再进行类似的建模
然后最后也可以得到
这样两个凸优化模型
这是在一个
人工数据集上的结果
这是一个简单的
线性回归问题
那么我们在输入和输出数据中
同时加入一定的高斯噪声
然后用我们的方法去进行拟合
这里我们比较了
另外了两种方法
红色的曲线是已有的
鲁棒回归方法
然后蓝色的曲线是经典的
支持向量回归方法
然后绿色的线是我们的方法
然后纵轴是一个鲁棒误差
越小越好
那么可以看到
在这几个数据集上
当输入输出
数据同时存在状态的情况下
基本上我们的方法都是
一致性优于另外两种方法
在实际数据集上
也有一个类似的这种结果
接下来考虑
第二种监督式的学习方法
这里考虑的是降维问题
那么数据降维在
机器学习 数据挖掘中
应用的非常多
它通常作为一种
数据分析、可视化
或者是预处理的手段广泛应用
其中线性辨别分析是一种
最为经典的一种
监督式的降维方法
这是LDA
也就是线性辨别分析的
一个基本形式
那么它对应于一个
广义特征值问题
虽然LDA在很多领域
应用非常多
但是我们会发现
它对于那种
类别分布不规则的多类数据集
有时候表现不是很稳定
那么像这个
这是LDA的一个结果
它会使得个别类跑得非常远
然后其它类不能很好的分开
那么我们分析它的原因
主要是两方面
主要是因为它
一方面是它的分子和
是一个求和的形式
另一个原因是它的分母
也是一个求和的形式
其实就是说
这种求和的形式
容易出现什么问题呢?
就是如果其中某一项特别大
那么
整个这一项就会被那些少数的
比较大的项所主导
其它项可能就被忽略了
那么这个问题
在现有文献中也研究非常多
从2001年到最近几年
有很多的文献
来考虑怎么去对这两个
这种求和项来进行优化
来防止它被少数的
这种项所主导
这些方法就是说
都取得了很好的效果
那么我们认为这些方法
虽然在都有各自的好处
但是他们仍然
沿用了LDA的一套思路
就是他们基本上都采用
还是采用一个整体的
类类离散图
和类间离散图进行建模
那么我们回想一下降维
它的主要目的是为了
实现数据可视化
或者是为了后续分类做得更好
它其实是要求
任意两个类别在投影之后
在降维之后
都具有比较好的可分性
那么我们就想
我们是不是可以
直接来进行建模
来实现它的这个目的
那么我们考虑
摆脱使用一个
整体的离散图矩阵
而是直接来最大化
这种两两可分性
接下来为了定义
这种两两可分性
我们引入了一种可分概率
为什么引入概率呢
因为概率是一个
在0到1区间上取值的
所以它是一个有界的
不会被某些个别项所主导
不会出现特别大的项
而且它跟
实际上跟分类里边的
1对1的正确率是直接挂钩的
那么考虑这个可分概率
还有一个好处就是
2002年有一篇文献
叫最小最大概率机
它有一个相关结论
就是说我如果在考虑
数据分布的最坏的情况下
这个Pij这个是有一个
闭式的表达式的
也就是我们有一个
闭式的目标
可以来计算
那么有了这个
可分性的定义之后
那么目标函数其实就很简单
那我就把所有的
这些可分概率
加在一起来最大化
实现这种
成对可分概率的最大化
关于目标函数的优化
这是
这不是一个凸优化问题
我们在论文里边
提出用共轭梯度法进行优化
初始值可以用
先用LDA得到一个初始解
然后在这个初始解
作为基础进行梯度搜索
这个目标函数学的
还是一个一维的
一维的投影
如果我们要将数据降到多维
那么就需要学习多个投影向量
在这里我们给出一个
迭代的形式
就是假设我们现在
已经学到了r的投影
现在我想学第r+1个投影
那么目标函数还是一样的
我还是最大化这个可分概率
但是我们附加了一组约束
这个约束是要求
新学的这个投影方向
关于以前的投影方向是
关于这个ST矩阵共轭的
ST是一个
所有样本的离散度举证
那么这个模型
可以通过斯密特正交化过程
也可以把它转化成一个
无约束的优化问题
跟上边那个优化目标是一致的
所以我们同样也可以
用共轭梯度法进行优化
这是在几个
实际数据集上的一个
将几个图象数据集
投影到二维平面
最右边这一列是LDA的投影
我们可以看到
对于这几个数据集
都会出现少数类别 比较
少数类别离得比较远
但是出现其它类别
聚在特别紧的情况
那么相比之下
我们提出的
这种方法叫做PDA
可以将数据投影得比较均匀
这是降维后
我们再用(19:25)
来做分类的一个正确率的比较
那么横轴是降维的目标维数
纵轴是分类的正确率
那么最上边红色的曲线
代表是我们方法
然后我们跟一系列方法
进行了比较
可以看到我们的方法
在低维的时候
优势是非常明显的
就是我们
特别是降到二维 三维这种
比较容易处理的空间的话
我们方法得到准确率
要远远高于其它几类方法
接下来在半监督学习的框架下
我来讨论
如何用机会约束进行建模
那么在介绍具体的算法之前
先大概的回顾一下半监督学习
因为它是近十多年来
才兴起的一个方向
那么为什么
要研究半监督学习呢
就是因为在很多实际系统中
我要收集标签样本
是非常困难的
就是有可能需要
耗费大量的时间或者精力
但是与此同时
无标记的样本
却相对容易采集
像我们大量的传感器数据
互联网数据都是无标记的
那么人们自然就希望
能够利用这些廉价的
无标记样本来提升算法的
一个学习精度
那么这是Web of Science
关于半监督学习出版的文献数
以及每年的引文数
可以看到这些年发展非常迅速
然后MIT出版社
2006年也专门出版了一本
半监督学习的专著
那么半监督学习
它都是建立在一定的假设之上
离开了这个假设
半监督学习可能
根本得不到好的效果
那么通常采用的两个假设
一个是聚类假设
另一类是流形假设
那么我们提出的算法
主要是在聚类假设的
框架下进行讨论
但是我们在文章里边也提到了
如果我们的模型
其实是也可以加入流形假设
使得它同时能
具有两者的优越性
(这部分内容)在论文里边有所提及
我们来看一下聚类假设
用通俗的话讲
它就是认为如果两个样本
它属于同一个聚类
那么它极可能属于同一个类别
这个思想
启发了一系列的
半监督学习算法
在聚类假设的基础上
有人对它进行了另外一种描述
就是认为分类面应当以
应当穿过样本密度
比较低的区域
那么这两个假设
其实在一定程度上是等价的
不过这种新的描述形式
又启发了另一类
半监督学习算法
包括半监督(SVM)
即支持向量机(等)一系列算法
那么我们在此基础上
又提出了一个新的假设
叫所谓的高分离概率假设
我们认为样本点
应当以最大的概率
去远离分类面
那么它背后的动机和聚类假设
和低密度分类假设是一致的
但是我们可以看到
当我们提出这种假设之后
我们可以更方便的进行建模
然后得到比较简洁的算法
我们的优化目标
就是要最大化这种
可分离的概率
就是让所有的样本点
以最大的概率
去远离分类面
那么具体来就
这样就得到了一个新的
一个机会约束模型
那么ε
这里是一个描述到分类面
远近的一个参数
在半监督学习中
我们自然
它的标签是不知道的
在这里我们需要将它作为
一种优化变量来加以优化
对于ε
取这种特殊情况下的
取特殊值的时候
那么这个模型也是可以通过
概率不等式的转化
变成这么一种新的优化形式
那么这个约束是附加上去的
这是一个类平衡的约束
就是在半监督学习中
我们通常希望
对于无标记样本
我们有一个先验
希望这个分到
正类的样本的比率是r
这是一个给定的值
接下来就是关于
这种模型的优化
可以看到它主要有两个参数
一个是W
这是分类器的参数
是在连续空间取值的
那么Yu是关于
无标记样本的标签值
那么它是(01)值
对于两类分类问题
那么这是一个典型的
混合整数规划问题
通常比较难以求得它的最优解
那么在论文中
我们提出用交替优化的方法
来进行求解
也就是说两个变量
固定一个来优化另外一个
然后反复迭代直到算法收敛
我们在论文里边证明了
这种算法肯定是在
有限步之内收敛的
有了这种算法之后
我们可以看到W的优化
其实是比较简单的
它对应它的复杂度
是跟样本维数成3次方
如果样本不是特别高维的话
那么W的优化是比较高效的
那么对于Y的优化
我们也可以看到
如果我们提出
用标签交换方法来进行优化
可以看到这种算法
它其实复杂度很高
跟样本的4次方成比例
那么这是一个很高的复杂度
为了提高这一部分的效率
我们采用了两个措施
第一个措施是
我们给出了一个
均值和方差的更新方程
也就是每一对样本
进行交换之后
我如何通过这个公式
快速的得到新的类别的
这个均值和方差
那么这里只涉及向量运算
所以可以很快的得到
它的均值和方差的更新
第二步是我们给出了
两个判别准则
这是我们如何去找到
两个可以被交换
可以使得目标函数
可以朝最大化这个方向走的
这么两个样本
那么我们给出两个
很简洁的判别准则
也就是只要满足这两个准则
我们可以证明
在交换它们的标签之后
它的目标函数值是严格增加的
那么有了这个保证
那么算法肯定是
可以收敛的
可以看到
这是进行优化之后
算法复杂度的提升
最后其实是跟样本数成线性
这里有个NlogN
NlogN这一项是
只是对标签的一个排序
如果N不是特别大的时候
这一项在实际算法中
其实都可以被忽略
所以它基本上是跟样本数
成线性的一个复杂度
那么总的算法的复杂度
也是跟样本数成线性的
这是算法的一个演示
这是一个两类分类问题
每一类都是一个高斯分布
这是一个真实的类别
那么我们只标记了
两个标记样本
就是这个粗体的
方框和十字表示的
那么我们的算法
通过不停的进行标签交换
这些点是被交换的点
绿色的和灰色的这些点是被
每一步被交换的点
然后不停的更新
这个分类器的参数
这种在第五步之后
就得到了收敛
最后达到了100%的分类准确率
这是一个示例
那么在实际数据集上
我们做了很多试验
那么可以看到
我们提出的这类方法
在绝大部分数据集上
都是得到了最低的分类误差
而且方差比其它方法都要小
说明我们这个算法比较稳定
因为它只有一个超参数
而且(对这个参数)不是很敏感
所以这是算法的
一个很大的优势
这是算法时间的一个比较
绿色的线是对应我们的算法
跟其它算法基本上要快
特别是跟现在用的比较多的
直推式支持向量机算法
要快几个数量级
这是Log坐标
接下来我们在半监督学习框架下
讨论第二种学习算法
那么这是一种基于多聚类假设的
一个学习算法
那么经典的半监督学习
我们通常假设每一类样本
来自于单个的聚类
或者单个的流形
但是这种假设在很多情况下
是不成立的
因为有时候我们一个类别
可能包含多个子类
那么每个子类
可能有各自的聚类
属于各自的聚类
或者流形
那么多聚类假设
就是解决上述问题的
一个有效的方法
这种多聚类假设
在监督式学习中提的比较多
那么最近几年都有人研究
但是在半监督学习中
却没有得到足够的重视
只有在2000年的时候
机器学习杂志上
有一篇文章
提到了这个问题
在这里
我们通过引入机会约束
给出了一种新的
基于多聚类假设的
半监督学习算法
这个算法是一个两阶段的算法
第一阶段大致来说
它是学习数据的局部特征
主要是用K近临算法
将数据集划分成不同的子集
然后我们对这些子集
来计算它的一二阶统计信息
然后在算法的第二阶段
提出一种基于机会约束的
分类算法
那么这个算法的好处就是
我能直接基于上一阶段
得到的子集来进行分类
而不需要去考虑单个的样本
这样对于样本量比较大的情况
可以大幅提升算法的效率
那么我们在用多维Chebyshev不等式
也可以将这样一个模型
转化成一个二阶锥规划模型
因此可以方便的求得
它的全局最优解
这是在实际数据集上的一个结果
USPS是一个
手写体字符数据集
也就是0到9十个
数字的图片的识别
那么为了验证我们的算法
我们将数据构造了
一系列的不对称的数据集
也就是每一个问题
我们都是选取其中一个数字
跟另外九个数字做分类
那么很显然这个数据集
这个问题是不均衡的
而且其中一个类别
包含了多个子类
可以看到
在这种情况下我们提出的方法
基本上都要优于经典的分类算法
以及不考虑
以及建立在单聚类假设上的
半监督学习算法
最后讨论的是在无监督的
学习框架下
来讨论机会约束的一个应用
然后这里考虑的是聚类问题
聚类问题在机器学习中也是非常
应用的非常广泛的一种
学习模式
它希望做的是将数据集
划分成不同的
不相交的子集
那么每一个子集
就在样本点尽可能的相似
而不同子集类的样本
尽可能的差异性比较大
那么聚类的方法非常多
辨别式聚类是其中
这些年研究的比较多的一类方法
比较有代表性的是
最大间隔聚类
最大容积聚类等等
那么它主要的特点是
希望将监督式学习中的
分类的目标函数
用到无监督学习中
那么我们来看一下
辨别式聚类它的关键在于
它要使得不同的簇之间
具有比较好的可分性
也就是一个好的聚类结果
应当使得不同的聚类之间
具有好的可分性
那么这里可以看到这样一个聚类
如果我们学习这么一个
信息分类器的话
它可以很好的分开
如果对于这样绿色的
把绿色的点当成一类
把红色的点当成一类的话
那么很难找到一个
线性分类器把它们很好的分开
那么既然这样的话
我们就在想
是不是可以用
分类里边的泛化正确率
来作为评价聚类质量的一个指标
那么方法正确率通俗的讲就是
一个分类器
在未知样本上的预测的准确率
那用这个泛化正确率
作为评价指标有什么好处呢
首先它是具有固定的取值区间
因为它肯定是在[0 1]上取值的
那么这对于在不同问题上
进行比较提供了很大的方便
其次它不受数据样本量的影响
此外它对异向特征尺度缩放
具有不变性
这是一个非常有用的一个性质
因为对于很多实际问题
我的特征可能来自于不同的
物理变量
可能具有不同的物理量纲
那么如果不受这个特征尺度
缩放影响的话
那么这个算法
就可以对这种量纲的规划不敏感
就不依赖于数据背后的物理量纲
那么值得一提的是
几乎在我们工作发表的同时
UIUC的 THOMAS HUANG
他们课题组也发表了一篇
类似的文章
也提到了用这个指标来作为
用这个指标来做评价
来评价聚类的质量
那么它们的方法
主要是在一个理论的框架下给出
用这种泛化正确率
做聚类指标的可能性
但是他们并没有给出一个
具体的可计算的指标
那么我们在这里将采用
最大最小分离概率
给出一个切实可计算的
这么一个指标
具体来说我们又考虑了
这篇文献里边
提到的最小最大概率机
因为它可以通过解一个
凸优化问题
来得到对泛化正确率的
一个下界的估计
那么因为我们要想计算
泛化正确率
通常在实际上是不可操作的
因为我们要
我是不可能知道
位置样本的标签的
所以我们只能去进行一个估计
那么这个方法
就提供了一种很好的估计手段
我可以通过解一个凸优化问题
来得到对泛化正确率下界的
一个估计
而且这个下界肯定是非平凡的
是有意义的
那么在此基础上
我们就定义了这样一个
最大最小分离概率的聚类指标
我们分析了
对于这个指标
首先它能够满足有效聚类指标的
三条公理
说明它是有效的
然后这个指标能够对作用在
输入变量上的可逆线性变化
具有不变性
也就是对异向特征尺度缩放是
确实是可以具有不变性的
那么既然有了这个指标
我们就可以通过最大化
这个指标来实现聚类
那么为了优化这个新提出来的
聚类指标的话
我们给出了几种优化方式
第一种也是用交替优化的方法
那么它有两个优化变量W和Y
Y是这个聚类的标签
那么我们可以采用交替化的方式
来轮流优化这两个变量
直到算法收敛
优化的第二种方式
是我推导了这个
优化目标的一个下界
这个下界在一定条件下是紧的
然后优化这个下界的时候
我们同样可以用
交替优化的思路
两个变量交替的进行优化
不过在这里优化W的时候
它对应是解一个广义特征值问题
那么第三种优化方法是
用所谓的标签变量松驰法
因为聚类标签
本来是一个离散变量
那么在这里我们将它进行松驰
先让它取连续值
那么我们可以证明
如果当它可以取连续值的时候
我们求这个标签变量
可以解这么一个矩阵
或者这个矩阵的最大特征值
对应的特征向量来得到
在得到这个特征向量之后
我们再可以恢复出
离散的这个聚类标签
下面给出了几个定理
这几个定理主要是讨论了
它跟现在比较用的比较多的
最大间隔聚类的
一个区别和联系
尤其是论证了
为什么我们这种方法
具有对异向特征尺度缩放不变的
这种性质
而其他方法不具有这种性质
接下来就是我们在
大量的数据集上
也做了一个验证
那么可以看到
我们提出的这个方法
后边是对应的三种不同的
优化方式
我们看到其实第一种优化方式
它的结果是最好的
尤其在后边几个
比较大的数据集上
它的聚类误差非常的小
相比于其他方法
那么这是聚类训练时间的
一个对比
我们这种算法的效率
也是非常高的
对于这种上万个样本的数据集
后边几个是
大概一万多个样本
基本上几秒钟之内
就能聚类完成
最后就是验证了我们算法
对这种异向特征尺度缩放的
是不是稳定
那么我们对每个数据集
随机选取它的一个特征
然后将它放大两倍
四倍 八倍和十六倍
来看它的聚类正确率
会不会受这个缩放的的影响
那么最上边红色的曲线是
对应于我们的算法
可以看到跟蓝色的曲线是K均值
红色的曲线是最大间隔聚类
可以看到我们的算法是最稳定的
当然它在一定程度上
还是会受影响
这主要是因为
我们只能通过近似算法
解得它的局部最优值造成的
如果有一种算法能够
解得它的全局最优解
那么就会像我们前面定理所说的
它是严格稳定的
严格不变的
最后讨论一下
在实际系统中的应用
我们在这里考虑的是
风力发电机的
机组的状态监控
与故障诊断问题
那么在这里
我主要给出了几个示例
我们有实际系统
但在这里我们挑选了几个
示例来作为演示
其中第一个问题是
风功率曲线的拟合
那么风功率曲线是
描述风机的整体运行状态的
一个重要曲线
因为它反映的是将风机
将风能转化成电能的一个
一个效率
横轴是风速
纵轴是功率
那么我们如何基于实际数据
来进行拟合
很显然这是一个
非现象拟合问题
而且它的输入数据和输出数据
都不可避免的受到
造成了干扰
因此我们正好可以采用
我们前面提出的这种
鲁棒支持向量回归进行拟合
我们可以看到
蓝色的曲线是我们拟合的结果
红色的曲线是
经典的支持向量回归的
拟合的结果
可以看到红色的曲线
会受少量的这种异常点的干扰
出现波动
而我们的方法
表现的比较稳定
第二个示例是
将半监督学习
用于故障诊断
因为在故障诊断中
我们要获得这种故障标记的样本
通常是比较困难的
很难进行收集
因为本身故障可能发生
就不是很频繁
而且需要人工的去记录
那么用半监督学习
正好可以用大量的
这种无标记样本
因为无标记样本
其实就是无时无刻
不在采集的这些传感器数据
就是非常多
我们在这里做了一个示例
我们将这些数据
投影到二维平面
为了便于观察
红色的点表示有故障的样本
绿色的点表示正常样本
那么我们用监督式的学习
来进行故障的识别
蓝色的这些圈内表示的点
是被误诊断的点
那么如果我们采用
半监督学习方式进行诊断的话
可以将误诊断率大幅的降低
第三个示例是用
无监督聚类来做故障诊断
也就是我只有这种状态未知的
无标记样本
不知道它是故障还是无故障
我们希望先对它进行聚类
然后通过聚类来反映了
去找出那些异常的点
那么我们用了最后提出来这种
最大最小分离概率聚类
与现有的这种
最大间隔聚类
来进行的一个比较
这是所谓的ROC曲线
横轴是虚警率
纵轴是识别正确率
那么可以看到
在同样虚警率的情况下
我们的算法可以得到更高的
识别正确率
那么最后对这份工作
进行一个简单的总结
我们在监督学习
和半监督学习
以及无监督学习三个框架下
都提出了相应的算法
那么具体来说
首先我们给出了一种鲁棒的
支持向量回归的方法
那这种方法主要是
解决了线性分类问题中
输入和输出
非线性拟合问题中
输入和输出同时存在
不确定性这样的问题
然后拓展了已有鲁棒学习
回归方法的一个应用范围
那么下一步工作
可以考虑通过引入在线计算
来提升这个算法的效率
来降低它的
时间和空间复杂度
使它能够应用于
大规模的数据
那么第二个研究成果是
提出来一个新的降维算法
那么这个降维算法
我们提出直接来优化
这种分类正确率的思路
然后为降维研究提供的新的这种
思路和算法
那么下一步工作可以考虑
对这个目标函数进行一个优化
使它转化成凸的问题
或者更加易于求解的这种形式
那么在半监督学习框架下
我们首先提出了一种
新的半监督学习假设
最大分离概率假设
那么它为研究半监督学习
提供了新的视角
然后我们也给出了相应的算法
那么下一个阶段可以考虑
将这种算法推广到多类分类问题
那么第二种半监督学习算法
主要是针对于
具有多聚类特性的数据集
我们给出了一种
新的半监督学习算法
那么作为下一步工作
可以考虑在模型中
用降维或者聚类
来更好的学习数据的局部
或者全局特征
那么最后在无监督学习框架下
我们主要是提出了一种
新的基于机会约束的聚类指标
然后我们分析了它的很多
很好的理论性质
然后论文还给出了很多
实际可行的聚类算法
所以为聚类研究提供了
一个新的思路
和可行的算法
下一阶段可以考虑
我们如何将这些聚类指标
因为现在还主要是两类聚类问题
那么如何推广到多类问题
这是我博士在读期间
发表论文的情况
包括六篇SCI论文
以及两篇会议论文
都是CCF的A类会议和B类会议
那么还有多篇合作论文都是SCI
或者是A类会议
最后我要特别感谢导师
吴老师和宋老师
对我的关心和栽培
然后感谢实验室的同学
对我的帮助
然后感谢所有的家人和朋友们
然后我的汇报结束
-化工系-侯瑞君
--答辩人侯瑞君简介
--论文摘要
--答辩陈述
--问答及答辩结果
-化工系-靖宇
--答辩人靖宇简介
--论文摘要
--答辩陈述
--问答及答辩结果
-化工系-申春
--答辩人申春简介
--论文摘要
--答辩陈述
--问答及答辩结果
-热能系-周会
--答辩人周会简介
--论文摘要
--答辩陈述
--问答及答辩结果
-航院-李京阳
--答辩人李京阳简介
--论文摘要
--答辩陈述
--问答及答辩结果
--导师点评
--个人感言
-土木系-安钰丰
--答辩人安钰丰简介
--论文摘要
--答辩陈述
--问答及答辩结果
-机械系-刘向
--答辩人刘向简介
--论文摘要
--答辩陈述
--问答及答辩结果
-机械系-白鹏
--答辩人白鹏简介
--论文摘要
--答辩陈述
--问答及答辩结果
-自动化系-黄高
--答辩人黄高简介
--论文摘要
--答辩陈述
--问答及答辩结果
-自动化系-江奔奔
--答辩人江奔奔简介
--论文摘要
--答辩陈述
--问答及答辩结果
-自动化系-杨霄
--答辩人杨霄简介
--论文摘要
--答辩陈述
--问答及答辩结果
-自动化系-王圣尧
--答辩人王圣尧简介
--论文摘要
--答辩陈述
--问答及答辩结果
-交叉信息学院-顾钊铨
--答辩人顾钊铨简介
--论文摘要
--答辩陈述
--问答及答辩结果
--导师点评
--个人感言
-水利系-武明鑫
--答辩人武明鑫简介
--论文摘要
--答辩陈述
--问答及答辩结果
-微纳电子系-田禾
--答辩人田禾简介
--论文摘要
--答辩陈述
--问答及答辩结果
-工程物理系-付明
--答辩人付明简介
--论文摘要
--答辩陈述
--问答及答辩结果
-工程物理系-刘飞翔
--答辩人刘飞翔简介
--论文摘要
--答辩陈述
-材料学院-李洒
--答辩人李洒简介
--论文摘要
--答辩陈述
--问答及答辩结果
-医学院-江力玮
--答辩人江力玮简介
--论文摘要
--答辩陈述
--问答及答辩结果
-医学院-左腾
--答辩人左腾简介
--论文摘要
--答辩陈述
--问答及答辩结果
-法学院-王一超
-- 答辩人王一超简介
--论文摘要
--答辩陈述
--问答及答辩结果