K近邻算法慕课视频播放-机器学习概论-MOOC慕课视频教程-柠檬大学

我们上堂课讲到到底怎么判断你这个权制是什么

其实有很多种不同的做法但其中有一种做法呢

我们觉得还是比较比较合理的做法之一是用互信息互信息呢

其实你们应该上过你们上过什么概率课

然后应该知道什么是互信息吧还是不知道呀

知道什么是互信息的同学举一下手好像很个别的同学知道

好没关系我把公式放在这儿了

x和y它的mutual information互信息一般用 i(x y) 表示

它呢就是等于H(X)+H(Y)墒你们一定知道

因为我们在哪怕你之前没学过你在我们决策树学习里面也学过

就等于那个H(X)+H(Y)- H(X,Y)就joint entropy

这个联合商等于什么呢

就是-p 还是-plog(p) 就是负的x和y它的联合概率

乘以xy的概率的log值然后去求和加到一起就行了

所以那我们其实是可以用互信息

就是这个互信息是什么和什么的互信息呢

是我们每一个属性和你最终的 label就你最终把它分成哪一类

这个之间的互信息来去描述的

其实也就相当于看你这个属性跟这个类别之间有我多大的关联程度

有多大的相关性有多大的信息量就是

所以事实上是用这个我们可以很好地来衡量

如果一个属性它是决定你这个 label的很关键的信息

那你接下来你就可以给它比较大的权值

但当然还有其他的方法哈那么我们在KNN的这个里面呢

它是讨论第三个问题我们刚才在讨论了距离有

其实有更多的距离函数可选然后还讨论了如果怎么样处理属性

属性就是你要做规划你可以给属性不同的权值

对了当你这个权值等于零的时候也就意味着你去掉了这个属性

这个是可以的如果你学到发现这个权值它应该是零也是可以的

多说一句这种去除呀我们把它叫做 soft的这种去除

就是说你是通过参数和权重来去去掉这个feature的去掉这个属性的

而不是hard的去除就是硬去除硬去除就属于你在数据处理的时候

你压根儿就没把这个feature 提出来那个是硬去除

一般来说我们会觉得soft的这种方式会比hard的方式要更灵活

然后也有可能会效果更好

但是要注意 soft的时候如果你这个如果已经小到

比如说你这个weight 变成0.0001了那你索性就把它变成0就好了

因为你的数据很有可能不足以支持它变成这么微妙的敏感的变化

那有可能你这个值是由于 overfitting 带来的

你不如就把它认为就把它变成0就好

就让它变得这样就会让它变得更鲁棒一些

第三个问题我们刚才说的那些都是离散的输出 yes或者no

good或者poor 那么如果是连续输出连续的目标函数怎么办

因为离散输出我其实三个 KNN K等于三的时候你投票就好了

如果有连续的呢其实最简单的做法就是求均值

看一下它们的平均值取到多少就是多少

给大家来看一下一些连续输出的这个例子

比如说红线是它我们原始的就是其实它

你知道它应该是就是这个样子然后上面的这些点

这些带十字号的这个点是我们观察到的样例

红色的是它背后真实的那个那个目标函数应该是这个样子

如果用1NN最近临来看我们学到的是蓝色的这样的一个

一个不能叫曲线就是它阶梯状的这样的形状

如果是3NN呢是这种样子 5NN就是这种

从这个上面你会看到可能3nn会比3近临会比5近临稍微好一点

就是它的这个突的这个部分建模的还凑合但是它在这个这个

这两端它的那个损失就比较大比如说在这端 1近临呢

看起来其实每一个点 fit的很好但是它特别抖动

就是它不是那么的平滑但这个是用KNN的方法得到的结果

看起来似乎不是那么好别着急我们还有办法的

但我们现在讨论另外一个问题啊

就是K 刚才有同学在下面问K值应该怎么选

K呢非常多的情况 By default的情况我们一般不会让K等于太多

通常一般默认值你如果什么都不知道

你可以先试一试K等于3 3或者5这样的

不知道大家注意到了没有我说的时候

基本上说的都是单数 135 我没有说K等于2 K等于4 因为

要投票

对偶数非常容易出现投票的冲突

只有单数如果尤其在二分类的时候单数就比较好

但是然后呢其实大家一定要有这样的概念 K并不是越大越好

刚才你从那个例子里面会看到K等于5的时候它已经

已经损失掉了非常多的信息了到底怎么样选K呢

我们其实有一个做法是用cross validation的方法来做

现在大家会觉得交叉验证cross validation

不是一个很复杂的名词了

就是我们在上一堂那个理论课机器学习理论课上已经提到

但这个呢是用最特殊的一种方法我们把它叫做Leave one out

我们之前上堂课介绍的时候是说我们比如说k-fold validation 是我们有一个

有一份数据我们把它分成了K份然后呢每次用一份来去测试

你还可用另外一份来做验证剩下的八份来做train 等等

总之就是有一份测试等等这种k-fold validation 有一种最极端的情况Leave one out

就是我每次拿一个数据点验证其他所有的都可以拿来做训练

这样的话你的数据规模有多大你其实就可以重复这个实验多少次

就不是k-fold 了你如果有一百个点那你每次Leave one out

你就可以重复一百次测试它的效果是怎么样的

然后这种方法呢我们引用Leave one out

也会把它叫做throw one out或者hold one out都有这样的叫法

好然后呢一般来说我们通常就是你测试一下你给不同的

取不同的K值 K等于3的时候train一下 validation set上面有一个结果

然后呢用K等于5的时候有一个结果然后通过学习的办法

通过那个training 和 validation 的方法来去选一个合适的K值就行了

所以呢总的来说 KNN是比较稳定的

就是因为它你的如果训练样例里面的比较小的扰动

其实不会特别那么显著的影响结果

当然碰巧你如果那天K个邻居全都是或者K个邻居里面绝大多

占大多数的优势的都是噪声那可能这个结果会错了

但它也只是影响那一片的那个结果而已

所以KNN相对比较稳定但是呢有一种特殊的情况

就是它可能会有ties 就是死锁了就比如说如果你是有三个类

然后你的K还等于3 然后现在呢就会发现你就不好办了

这个时候怎么办呢有什么办法大家可以想一想分别说一下

简单的办法

机器学习概论课程列表：

第一章绪论

-1.1 课程介绍

-1.2 机器学习的背景

-1.3 什么是机器学习

-1.4 机器学习系统设计

-第一章作业

第二章决策树学习（I）

-2.1 决策树的基本概念

-2.2 决策树的实例和发展历史

-2.3 经典决策树算法ID3

-2.4 过拟合和前剪枝

-第二章作业

第三章决策树学习（II）和贝叶斯学习

-3.1 下午茶时间：勒索软件

-3.2 后剪枝

-3.3 决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间：微博的垃圾检测

-4.2 马尔可夫模型

-4.3 隐马尔可夫模型

-4.4 评估问题

-4.5 解码问题

-4.6 隐马尔可夫模型的应用

-第四章作业

第五章假设检验

-5.1 下午茶时间：图灵奖

-5.2 假设评估

-5.3 置信度和置信区间

-5.4 有限数据下的比较

-第五章作业

第六章基于实例的学习

-6.1 下午茶时间：黑洞照片

-6.2 基于实例的学习的基本概念

-6.3 最近邻算法

-6.4 K邻近算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章支持向量机（I）

-7.1 支持向量机的背景

-7.2 线性支持向量机

-第七章作业

第八章支持向量机（II）和无监督学习

-8.1 核函数支持向量机

-8.4 支持向量机总结

-8.5 无监督学习简介

-8.6 层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

K近邻算法在线视频

K近邻算法课程教案、知识点、字幕

机器学习概论课程列表：

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习

K近邻算法笔记与讨论

也许你还感兴趣的课程:

K近邻算法在线视频

K近邻算法课程教案、知识点、字幕

机器学习概论课程列表：

第一章 绪论

第二章 决策树学习（I）

第三章 决策树学习（II）和贝叶斯学习

第四章 马尔可夫模型和隐马尔可夫模型

第五章 假设检验

第六章 基于实例的学习

第七章 支持向量机（I）

第八章 支持向量机（II）和无监督学习

K近邻算法笔记与讨论

也许你还感兴趣的课程:

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习