线性支持向量机(5)慕课视频播放-机器学习概论-MOOC慕课视频教程-柠檬大学

现在我们就有了一个新的公式

这个公式是前面的这一项是线性可分的那个情况在这个上面

我们引入了一个引入了松弛变量就是使得它的训练样例可以有错

然后在这里面我们现在用了Hinge loss

就是这个铰链损失 Hinge loss 然后前面乘一个系数c来去描述

然后其中这个z就是它的定义就是等于y乘以f(x)

那么在这个里面你会看到事实上我们有这个是大家了解一下就行了

就是事实上我们要让(Hinge loss)最小的那个的时候

事实上你是希望把它等价于你是希望找到一个最小的ε

然后使得ε大于等于1-z 就是我们这个上面就是最小的ε大于等于1-z

就是让你这个1-z小于一个ε

引入了这个松弛变量之后就是我们把这个ε

把它叫做松弛变量然后这个ε我们把它这个ε的定义

就是等于maximum的(0,1-z) 就是这个Hinge loss 就是我们的这个loss

我们把它写成ε 然后我们是ε它是大于等于0的

如果它等于0的时候就是之前线性可分的情况

然后这个问题就变成了让它minimize一个前面的原来的这个部分

就是我们的法向量的模的这个部分

再加上 c的系数乘以一个我们现在的松弛变量

就是你的Hinge loss 同时约束条件也有点变化

约束条件是y乘以f(x) 它是大于等于1-ε

所谓松弛变量就是它不是要完全要大于等于1了

它是要让大于等于1减去一个ε 就是它比1小一点没关系

你可以有一些错误它比1小一点是可以接受的

所以它是1-ε的这样的值

然后这个里面我们就引入了一个和ε相关的松弛变量

这个就是在解决线性不可分的问题和原来的做对比

就主要是后面的这个松弛变量的这个部分

是什么意思呢我们其实就在这里看一下

我们也把这种情况下叫做soft margin 就是之前是hard margin

就是一个硬的margin 它就是这个间隔

在这个间隔内是没有任何点的间隔两边也很干净

正例的都在一边反例的都在另外的一条线的另外一边

那么现在我们在这种带有松弛变量的情况下

我们把这种margin叫做Soft margin 叫做软的间隔

这个软间隔我们会看到这里这个宽度仍然是是跟原来的一样

那么就是这个宽度的间隔没变

只是我们现在会引入了一个松弛变量

和它的前面这个系数那么这个在这次我们除了要找到

最大margin的这个平面之外我们是允许有一些样例点

被分错了就是它原来是负例到另外一边这个正例到了另外一边

也允许有一些样例点它们落在了margin的区域内

落在了间隔的区域内那么这个就是我们的

现在要找的soft margin的这样一个问题

那么这个soft margin的时候它是什么意义呢

就是我们看一看这个soft margin 这个代表的就是一个

你找到的是一个soft margin 它是什么含义

就是当我的ε这个松弛变量等于0的时候

就意味着你只有前面这一部分就找对了

找对了就意味着你所有的点其实就是在这个boundary的上面的点

以及在boundary以外的点它们都是在自己正确的位置上都是对的

这是ε等于0的情况也就是我们线性可分的那种情况

这些点是都做对了的

这些点要么是在margin上要不是在你的boundary上

边界上要么在边界外面如果ε在0到1之间 ε在0到1之间

那事实上就是说我们的这个它在区域内但是它没错

它是对的就是跟你的决策面

比如说这个上面的这个点这个点它其实在margin里面了

所以这个ε是在0到1之间它在区域里但是它没错它是对的

因为你的那个分界面是等于0的这条线所以你还是能分对的

只是说它只是落在了这个之间它有一个很小的一个loss

如果ε大于1 就是这两个点了如果ε大于1 就表示它们做错了

它们跑到错误的那一边去了因此ε它应该是大于等于0的

但是等于0和在0到1之间和大于1 代表的是不一样的情况

有在落到了margin里面但是做对的以及落在了margin外面的地方

并且就是不一定是margin外面以及它做错了的

走到错误的那一边的时候

所以其实我们看着这个图和这样的表达式其实我们会看

我们事实上是要求这两个的和是最小的

它其实也仍然代表了一种tradeoff 就是代表了一种取得平衡的意思

前面这一项代表的是你的margin是不是足够大代表你这个算法

它是不是有足够强的描述能力 margin越大它的泛化能力越强

泛化能力就是说来新的时候你有足够多的余地是能够做的对

你能够把它们分得足够开所以你的泛化能力越强

我们由这一部分描述的就是描述的是我们把它叫做结构风险

后面这一部分描述的是我们希望有足够大的margin

然后我们还希望有足够少的错误的分类的（点）就是误分类的错误率

那么希望足够小的误分类的误差的话

那其实我们把它叫做经验风险就是你的这个loss

你做错的这个要尽量少比如说这个因为你如果不是两个都考虑

你有可能会得到一些奇奇怪怪的点比如说你看刚才的这个例子

你说我可以得到这样的一个margin 你要是嫌这个margin不够大

你说好我可以给他这么大的一个margin 这个margin够大的吧

非常好对吧但是你分错的就会更多了

就是你的 loss错误的就会更多

所以事实上这个margin看上去小一点但是分错的少一些只错三个点

所以说其实前面的这个margin的部分是用来描述结构风险的

后面这部分描述的是你的经验的风险

把两个融合到一起是一个balance的话

那我们当然会希望边界又比较大错误又比较小的这种情况

所以这个是在我觉得这个应该是

大家听到这里会有一些似曾相识的感觉

就是我们其实在前些课里面跟大家提到过MDL

我们说我们希望一个不要过于复杂的模型

就是那个模型的描述长度比较短另外呢它做错的比较少

其实那个也是描述结构风险和经验风险的部分

还有我们之前也提到过我们说不是严格的说法

有一个叫做Occam's Razor这样的法则就是简单的比较好简单的好在哪呢

好在它的结构风险小但是它的错误

有的时候可能会比较大所以你需要找到一个

一个不是最简单的是最好的而是又简单

然后错误又少一些的会比较好也同时我们再回过头去想一想

我们当时的过拟合问题过拟合问题就有点类似于

我们这找到的这个曲面了它的经验风险很小就是基本上没什么错

但是呢它模型太复杂了所以它的结构风险比较大

所以大家一定要经过我们的这么多的每堂课下来

要有这样的一个概念在里面

那么同样其实我们会发现在这个问题上面

我们解决的对偶问题只改了一个地方就是这个αi

原来的αi只是大于等于0就行了

现在在解决这个非线性可分问题上

我的这个是要让它小于等于c 就可以了

然后同样我们说仍然是就是由support vectors来决定

而这个support vectors它既包括那些在区域内

也包括做错了的那部分但是做对的没在边界上面

那些是不叫support vectors

然后那这个问题我们就同样的可以解出来

法向量是这个表达 Bias是这个表达

唯一有变化的是Bias这里有一个上界的有一个c

然后Hyperplane看起来跟原来也是一样的所以线性不可分的问题

我们也解决了目前为止我们解决方式就是通过

引入一个松弛变量然后给了他αi这个系数

是给了他一个上界c的这个系数

好那么这个东西有人把它用在各种各样的问题上

我这只是举了一个简单的例子就是有人用这种low level的features 就是底层的向量

然后和SVM来去做图像分类当时的效果还是可以的

就是它的效果在如果每个category用15个分类train的话

它的最后的正确率是70% 然后每category找30个image来分类的话

错误率不是错误率就是它的精度能够达到73%

这个只是其中的一个例子大家看一看就行

第三个部分看起来好像是还挺复杂的

那么我们其实在这里给大家提一点点概念

但是在下课之前跟大家简单说一下

我们事实上刚才都说是线性可分的问题

但是有的时候太线性不可分了怎么办呢我们有一个想法是说

我们是不是可以把一个东西从我的输入空间

映射到一个特征空间上那这样呢我们其实就可以

把一个线性不可分的问题加一维就变成了线性可分的

比如说这个点它不是一个线性可分的它虽然可以分隔出来

它不是线性可分我们把它做一个映射映射到了高维空间上

映射到了这样的三维空间上每一维分别等于原来x1的平方

另外一个是x2平方第三维是根号2的x1x2

我发现映射到高维空间上它俩就可分了这个问题其实特别简单

是吧就是如果三个点中间的是另外一个点

你分不出来怎么办呢我往上提一个空间把这俩点往上挪

这个点不变那你就变成一个线性可分的问题了

所以SVM有一个特别漂亮的扩展就是好

所以SVM有一个特别漂亮的扩展就是通过一个核函数的映射

把低维空间上不可分的东西映射到高维空间上然后在高维空间上

它们变得更稀疏了并且通过映射就变得线性可分了

到底怎么做的呢我们下节课跟大家继续来介绍一下这部分内容

好我们今天的课就到这大家下课

机器学习概论课程列表：

第一章绪论

-1.1 课程介绍

-1.2 机器学习的背景

-1.3 什么是机器学习

-1.4 机器学习系统设计

-第一章作业

第二章决策树学习（I）

-2.1 决策树的基本概念

-2.2 决策树的实例和发展历史

-2.3 经典决策树算法ID3

-2.4 过拟合和前剪枝

-第二章作业

第三章决策树学习（II）和贝叶斯学习

-3.1 下午茶时间：勒索软件

-3.2 后剪枝

-3.3 决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间：微博的垃圾检测

-4.2 马尔可夫模型

-4.3 隐马尔可夫模型

-4.4 评估问题

-4.5 解码问题

-4.6 隐马尔可夫模型的应用

-第四章作业

第五章假设检验

-5.1 下午茶时间：图灵奖

-5.2 假设评估

-5.3 置信度和置信区间

-5.4 有限数据下的比较

-第五章作业

第六章基于实例的学习

-6.1 下午茶时间：黑洞照片

-6.2 基于实例的学习的基本概念

-6.3 最近邻算法

-6.4 K邻近算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章支持向量机（I）

-7.1 支持向量机的背景

-7.2 线性支持向量机

-第七章作业

第八章支持向量机（II）和无监督学习

-8.1 核函数支持向量机

-8.4 支持向量机总结

-8.5 无监督学习简介

-8.6 层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

线性支持向量机(5)在线视频

线性支持向量机(5)课程教案、知识点、字幕

机器学习概论课程列表：

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习

线性支持向量机(5)笔记与讨论

也许你还感兴趣的课程:

线性支持向量机(5)在线视频

线性支持向量机(5)课程教案、知识点、字幕

机器学习概论课程列表：

第一章 绪论

第二章 决策树学习（I）

第三章 决策树学习（II）和贝叶斯学习

第四章 马尔可夫模型和隐马尔可夫模型

第五章 假设检验

第六章 基于实例的学习

第七章 支持向量机（I）

第八章 支持向量机（II）和无监督学习

线性支持向量机(5)笔记与讨论

也许你还感兴趣的课程:

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习