基于实例的学习的基本概念慕课视频播放-机器学习概论-MOOC慕课视频教程-柠檬大学

那我们今天进入到了第七个topic了就是我们接触到的第七类方法

那这个方法呢我加了一个问号这个不是编码错误

那么我们今天想讲什么呢

在那之前啊先考虑一下我们以前学过的很多算法

其实往往我们需要用三个步骤第一个步骤呢是我要先去

去研究一下这个问题的分布就是数据的分布比如说它的概率分布呀

或者研究一下这个问题它的特性是什么然后接下来呢

我们会做一些假设比如说我们之前研究假设

我们要去用梯度下降的办法去做一做

或者我们认为它可以决策树YesNo如果怎么样

又怎么样这样的概念来去表述

或者呢说我们想要找这个极大后验的假设然后以及朴素贝叶斯

甚至我们有时候还假设它这个问题是一个隐马尔科夫模型

上一个时刻的数据对下一个时刻有影响或者你甚至可以往前看两步

甚至还有一些是观察不到隐变量等等

我们其实都是在反复的对模型做了一堆假设然后呢

我们要做的事情就是在我们选择的这个模型的基础下

就这个问题来去选择优化的参数

就把这个具体的参数是什么选择出来在decision tree里面选择先用哪个feature

这个feature 走到什么样的分支上

在隐马尔可夫模型里面就是确定它应该是哪怎么走最好的

找到最佳的路径等等那么我们其实在想

这个世界是不是真的所有的问题都可以用这样的一条思路去解决

是不是有例外我们是不是可以存在一种情况

有没有这样的一个发散的想象有没有这样的一些方法

我不用假设模型什么样也不用假设就是给出很多前提

也不是说我就限定了这个模型我去做参数的估计

其实呢听起来好像觉得有点悬如果不设计模型那怎么做呢

能怎么做呢好那么好消息是有可能的

我们其实机器学习里面的很多东西都来自于跟生活的经验

有特别多的一一对应的关系甚至是比如说有一种说法是说

人们是通过记忆和学习来去做事情的

尤其是现在人们对脑科学去研究出来说小朋友到底是怎么样学

有了认知的发展呢说他其实呀不知道他就是记

从小的时候我女儿还不会说话的时候指着一个东西啊啊啊

我们就告诉她这叫窗帘然后又很好奇又指啊啊啊

我们就说那是支水杯就是这样就是你告诉她是什么

她看到了听了一次两次三次然后听完人们靠记忆然后呢学到了东西

还有呢一种说法是说有人说思考什么是思考

有一些认知学的人是这样说思考其实就是回忆然后做一些分析

就是你可能在此基础上做一些推理和分析那么还有呢

就是有一种说法我们成语一些成语说近朱者赤近墨者黑

这个说法其实非常非常的常见然后甚至当年比我们

比我当年高考早两年甚至高考的语文题就是

请论述正方或者反方论述什么是近朱者赤近墨者黑

那么回到我们计算机的任务上面也确实有一些类似的任务

这样的类似的任务比如说你有一张照片

然后然后你想哎呀这个地方好美呀

再帮我找一些也是类似这样的照片吧

或者呢其实在其他的比如说有两个基因序列

你想要找到这个特别接近的基因序列到底是什么样

这个是挺有实际研究意义的那么这是什么问题呢

我们其实刚好跟我们其中一种机器学习的方法

我们刚才提到很多人类学习的方法机器学习的方法有一类叫做instance based learning

基于实例的学习他们其实就跟我们人类的思考方法非常的接近

你可以认为它是来自于这样的一种人类的思考的方法

这也是我们今天这堂课要给大家分享的

它的思路跟我们之前的都完全不一样

那么在介绍这个之前呢先给大家介绍一些概念一个是叫参数化

还有一个叫做非参数化那么参数化的呢

事实上就是我要假设我有某一个函数的表达式然后接下来呢

我们这种方法你其实要做的就是你把这个参数确定了

那它其实比较简单就因为你连表达式都确定了你只要有数据

你就可以把那个参数基于这批数据学出来也许它会有误差

那你可以采用不同的学习的方法来做然后所以它比较简单

而且比较容易估计但是呢它的缺点就是它有可能有很大的偏差

就是有可能会有很大的bias 就比如说你一上来就把它给

给搞反了你假设一上来说这个它是一个线性模型然后呢

就比如说我看到了一批点好我画的时候

大家你会觉得你这个显然不适用但如果你看到的时候呢

你一上来你把它搞成了一个线型模型

那有可能你模型本身就是bias的那你不管再怎么找这个直线

它都有可能会学不到它真正的那个学习的目标函数

另外一类方法呢叫做非参数化的方法就是它其实是用数据

让数据本身就data driven的用数据本身来告诉你

它的分布是什么密度的估计是什么而并不提前给它一个设计设定

然后这种方法呢它相对假设比较少一点但是

但是其实它有缺点缺点是什么我们今天这堂课的后面会分析到

那我们今天介绍的这个方法呢基于实例的学习方法

就是属于非参数化的方法还有其他的叫法

就或者相关的很多term大家以后会看到

比如说Instance based learning 基于实例的学习

Instance based method基于实例的方法

或者呢也有人讲Memory base learning 就基于记忆的学习

Case base learning基于实例的这种case base

或者是Similarity bas learning基于相似性的学习

然后以及和learning相关的还有一大批关于同样的叫法叫做

reasoning的就是它的推理那么Instance base learning呢

就是它最核心的就是我们一开始不去构建一个模型

那你要做的事情就是把训练样例存起来存好了就完了

这个就是你的训练的过程然后呢

那比如说我们现在假设要看给不给这些人发信用卡

什么的这样的例子 Response和No response有两类

现在来了一个新的实例的时候你去看近朱者赤还是近墨者黑

就是看你这个人呢这个实例它跟哪一个阵营更接近

然后找把它分配给最接近的更像的那个类就可以了

所以所有的事情都是当你要判断要predict 要去分类预测的那个实例来了之后

再去做所以这就是Instance base learning的核心的思想

貌似我们已经把它感觉好像快要讲完了

因为确实它的基本思想非常简单这堂课并不复杂

但是我们有好多要讨论的内容呢首先我们把它形式化的描述一下

什么是Instance base learning呢我们说假设我们有一个concept

这个concept叫做C I 然后呢我们其中基于这个concept呢

我们还有一些你看到的example 一些数据一些example样例

然后呢你这个时候你所以我们Instance base learning

你需要的就是三个东西第一你要有样例已经用来的训练样例

第二呢要有一个相似度的这个表达函数计算的函数

就是近朱者赤那么什么叫近怎么去衡量近还是远

所以这个是是你需要事先定义的

第三个呢你需要一个阈值就是有多近才算近

有多远是觉得就不相似了

有了这三个东西的话那么你其实要做基于实例的学习

就是来了对于任何一个Instance A

它判断它是否属于这个concept C的话

你只要去看一看把基于已知这个concept C的所有的实例

Ei 你去看一看Ei和A它之间的距离用你的这个距离函数去度量

这个距离呢它是不是大于一个就相似度

sorry 我这里不应该说距离应该说它的相似度

它的相似度如果大于这个阈值那么我们就认为它可以属于这个类

相似度呢就像我刚才口误的时候呢经常会把它说成了距离

其实相似度我们往往认为它和距离相关那它俩是反向相关的关系

距离越小越相似距离越大越不相似

一会儿我们还会具体的讨论到所以呢

最第一个基于实例学习相关的第一个算法就是Nearest neighbor

最近邻算法这个思路太简单了大家看一下这个简单的示意图

就我已经有了黑色和绿色两类了来一个新的之后

我就计算一下它和所有的已知的样例之间的距离然后呢

我会发现它最近的这个类是黑色的距离最近的是黑色

我就认为我当前的这个点应该是黑色的这个就是最近邻算法

再举一个实际的例子比如说我们现在有这么ABCD这么多个人

他们呢其实classifier就说它是一个好的适合发信用卡的

还是不是一个好的信用卡优质客户

就是good还是poor这是我们最终的lable

我们哪怕简化这个问题就是两个feature 一个feature呢

是叫做它的late的就是平均每年他的晚还信用卡的次数

然后呢 R的这个呢是说他的收入支出比就是他的收入和消费比

这是用这两个feature我们已经知道了有这些状态

但其实这些点呢我们有一些是good的绿色的这些是good的

红色的这些是bad的 poor的

机器学习概论课程列表：

第一章绪论

-1.1 课程介绍

-1.2 机器学习的背景

-1.3 什么是机器学习

-1.4 机器学习系统设计

-第一章作业

第二章决策树学习（I）

-2.1 决策树的基本概念

-2.2 决策树的实例和发展历史

-2.3 经典决策树算法ID3

-2.4 过拟合和前剪枝

-第二章作业

第三章决策树学习（II）和贝叶斯学习

-3.1 下午茶时间：勒索软件

-3.2 后剪枝

-3.3 决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间：微博的垃圾检测

-4.2 马尔可夫模型

-4.3 隐马尔可夫模型

-4.4 评估问题

-4.5 解码问题

-4.6 隐马尔可夫模型的应用

-第四章作业

第五章假设检验

-5.1 下午茶时间：图灵奖

-5.2 假设评估

-5.3 置信度和置信区间

-5.4 有限数据下的比较

-第五章作业

第六章基于实例的学习

-6.1 下午茶时间：黑洞照片

-6.2 基于实例的学习的基本概念

-6.3 最近邻算法

-6.4 K邻近算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章支持向量机（I）

-7.1 支持向量机的背景

-7.2 线性支持向量机

-第七章作业

第八章支持向量机（II）和无监督学习

-8.1 核函数支持向量机

-8.4 支持向量机总结

-8.5 无监督学习简介

-8.6 层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

基于实例的学习的基本概念在线视频

基于实例的学习的基本概念课程教案、知识点、字幕

机器学习概论课程列表：

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习

基于实例的学习的基本概念笔记与讨论

也许你还感兴趣的课程:

基于实例的学习的基本概念在线视频

基于实例的学习的基本概念课程教案、知识点、字幕

机器学习概论课程列表：

第一章 绪论

第二章 决策树学习（I）

第三章 决策树学习（II）和贝叶斯学习

第四章 马尔可夫模型和隐马尔可夫模型

第五章 假设检验

第六章 基于实例的学习

第七章 支持向量机（I）

第八章 支持向量机（II）和无监督学习

基于实例的学习的基本概念笔记与讨论

也许你还感兴趣的课程:

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习