当前课程知识点:机器学习概论 >  第六章 基于实例的学习 >  6.2 基于实例的学习的基本概念 >  基于实例的学习的基本概念

返回《机器学习概论》慕课在线视频课程列表

基于实例的学习的基本概念在线视频

下一节:最近邻算法

返回《机器学习概论》慕课在线视频列表

基于实例的学习的基本概念课程教案、知识点、字幕

那我们今天进入到了第七个topic了 就是我们接触到的第七类方法

那这个方法呢 我加了一个问号 这个不是编码错误

那么我们今天想讲什么呢

在那之前啊 先考虑一下 我们以前学过的很多算法

其实往往我们需要用三个步骤第一个步骤呢 是我要先去

去研究一下这个问题的分布 就是数据的分布 比如说它的概率分布呀

或者研究一下这个问题它的特性是什么 然后接下来呢

我们会做一些假设 比如说我们之前研究假设

我们要去用梯度下降的办法去做一做

或者我们认为它可以决策树YesNo如果怎么样

又怎么样这样的概念来去表述

或者呢说我们想要找这个极大后验的假设 然后以及朴素贝叶斯

甚至我们有时候还假设它这个问题是一个隐马尔科夫模型

上一个时刻的数据对下一个时刻有影响 或者你甚至可以往前看两步

甚至还有一些是观察不到隐变量等等

我们其实都是在反复的对模型做了一堆假设 然后呢

我们要做的事情就是在我们选择的这个模型的基础下

就这个问题来去选择优化的参数

就把这个具体的参数是什么选择出来 在decision tree里面选择先用哪个feature

这个feature 走到什么样的分支上

在隐马尔可夫模型里面就是确定它应该是哪怎么走最好的

找到最佳的路径等等 那么我们其实在想

这个世界是不是真的所有的问题都可以用这样的一条思路去解决

是不是有例外 我们是不是可以存在一种情况

有没有这样的一个发散的想象 有没有这样的一些方法

我不用假设模型什么样 也不用假设就是给出很多前提

也不是说我就限定了这个模型我去做参数的估计

其实呢 听起来好像觉得有点悬 如果不设计模型那怎么做呢

能怎么做呢 好 那么好消息是有可能的

我们其实机器学习里面的很多东西都来自于跟生活的经验

有特别多的一一对应的关系 甚至是比如说有一种说法是说

人们是通过记忆和学习来去做事情的

尤其是现在人们对脑科学去研究出来说 小朋友到底是怎么样学

有了认知的发展呢 说他其实呀 不知道 他就是记

从小的时候我女儿还不会说话的时候 指着一个东西啊啊啊

我们就告诉她这叫窗帘 然后又很好奇又指啊啊啊

我们就说那是支水杯 就是这样 就是你告诉她是什么

她看到了听了一次两次三次 然后听完人们靠记忆 然后呢学到了东西

还有呢 一种说法是说有人说思考 什么是思考

有一些认知学的人是这样说 思考其实就是回忆 然后做一些分析

就是你可能在此基础上做一些推理和分析 那么还有呢

就是有一种说法我们成语 一些成语说近朱者赤 近墨者黑

这个说法其实非常非常的常见 然后甚至当年比我们

比我当年高考早两年 甚至高考的语文题就是

请论述正方或者反方论述什么是近朱者赤 近墨者黑

那么回到我们计算机的任务上面 也确实有一些类似的任务

这样的类似的任务比如说你有一张照片

然后然后你想哎呀这个地方好美呀

再帮我找一些也是类似这样的照片吧

或者呢 其实在其他的比如说有两个基因序列

你想要找到这个特别接近的基因序列到底是什么样

这个是挺有实际研究意义的 那么这是什么问题呢

我们其实刚好跟我们其中一种机器学习的方法

我们刚才提到很多人类学习的方法 机器学习的方法有一类叫做instance based learning

基于实例的学习 他们其实就跟我们人类的思考方法非常的接近

你可以认为它是来自于这样的一种人类的思考的方法

这也是我们今天这堂课要给大家分享的

它的思路跟我们之前的都完全不一样

那么在介绍这个之前呢 先给大家介绍一些概念 一个是叫参数化

还有一个叫做非参数化 那么参数化的呢

事实上就是我要假设我有某一个函数的表达式 然后接下来呢

我们这种方法你其实要做的就是你把这个参数确定了

那它其实比较简单 就因为你连表达式都确定了 你只要有数据

你就可以把那个参数基于这批数据学出来 也许它会有误差

那你可以采用不同的学习的方法来做 然后所以它比较简单

而且比较容易估计 但是呢 它的缺点就是它有可能有很大的偏差

就是有可能会有很大的bias 就比如说你一上来就把它给

给搞反了 你假设一上来说这个它是一个线性模型 然后呢

就比如说我看到了一批点 好 我画的时候

大家你会觉得你这个显然不适用 但如果你看到的时候呢

你一上来你把它搞成了一个线型模型

那有可能你模型本身就是bias的 那你不管再怎么找这个直线

它都有可能会学不到它真正的那个学习的目标函数

另外一类方法呢 叫做非参数化的方法 就是它其实是用数据

让数据本身就data driven的 用数据本身来告诉你

它的分布是什么 密度的估计是什么 而并不提前给它一个设计设定

然后这种方法呢 它相对假设比较少一点 但是

但是其实它有缺点 缺点是什么 我们今天这堂课的后面会分析到

那我们今天介绍的这个方法呢 基于实例的学习方法

就是属于非参数化的方法 还有其他的叫法

就或者相关的很多term大家以后会看到

比如说Instance based learning 基于实例的学习

Instance based method基于实例的方法

或者呢也有人讲Memory base learning 就基于记忆的学习

Case base learning基于实例的这种case base

或者是Similarity bas learning基于相似性的学习

然后以及和learning相关的还有一大批关于同样的叫法叫做

reasoning的就是它的推理 那么Instance base learning呢

就是它最核心的就是我们一开始不去构建一个模型

那你要做的事情就是把训练样例存起来 存好了 就完了

这个就是你的训练的过程 然后呢

那比如说我们现在假设要看给不给这些人发信用卡

什么的这样的例子 Response和No response有两类

现在来了一个新的实例的时候 你去看近朱者赤还是近墨者黑

就是看你这个人呢 这个实例它跟哪一个阵营更接近

然后找把它分配给最接近的更像的那个类就可以了

所以所有的事情都是当你要判断 要predict 要去分类预测的那个实例来了之后

再去做 所以这就是Instance base learning的核心的思想

貌似我们已经把它感觉好像快要讲完了

因为确实它的基本思想非常简单 这堂课并不复杂

但是我们有好多要讨论的内容呢 首先我们把它形式化的描述一下

什么是Instance base learning呢 我们说假设我们有一个concept

这个concept叫做C I 然后呢 我们其中基于这个concept呢

我们还有一些你看到的example 一些数据一些example样例

然后呢 你这个时候你 所以我们Instance base learning

你需要的就是三个东西 第一你要有样例 已经用来的训练样例

第二呢 要有一个相似度的这个表达函数 计算的函数

就是近朱者赤 那么什么叫近 怎么去衡量近还是远

所以这个是是你需要事先定义的

第三个呢 你需要一个阈值 就是有多近才算近

有多远是觉得就不相似了

有了这三个东西的话 那么你其实要做基于实例的学习

就是来了对于任何一个Instance A

它判断它是否属于这个concept C的话

你只要去看一看把基于已知这个concept C的所有的实例

Ei 你去看一看Ei和A它之间的距离 用你的这个距离函数去度量

这个距离呢 它是不是大于一个 就相似度

sorry 我这里不应该说距离 应该说它的相似度

它的相似度如果大于这个阈值 那么我们就认为它可以属于这个类

相似度呢 就像我刚才口误的时候呢 经常会把它说成了距离

其实相似度我们往往认为它和距离相关 那它俩是反向相关的关系

距离越小越相似 距离越大越不相似

一会儿我们还会具体的讨论到 所以呢

最第一个基于实例学习相关的第一个算法 就是Nearest neighbor

最近邻算法 这个思路太简单了 大家看一下这个简单的示意图

就我已经有了黑色和绿色两类了 来一个新的之后

我就计算一下它和所有的已知的样例之间的距离 然后呢

我会发现它最近的这个类是黑色的 距离最近的是黑色

我就认为我当前的这个点应该是黑色的 这个就是最近邻算法

再举一个实际的例子 比如说我们现在有这么ABCD这么多个人

他们呢 其实classifier就说它是一个好的适合发信用卡的

还是不是一个好的信用卡优质客户

就是good还是poor这是我们最终的lable

我们哪怕简化这个问题 就是两个feature 一个feature呢

是叫做它的late的 就是平均每年他的晚还信用卡的次数

然后呢 R的这个呢 是说他的收入支出比 就是他的收入和消费比

这是用这两个feature我们已经知道了有这些状态

但其实这些点呢 我们有一些是good的 绿色的这些是good的

红色的这些是bad的 poor的

机器学习概论课程列表:

第一章 绪论

-1.1 课程介绍

--课程介绍(1)

--课程介绍(2)

-1.2 机器学习的背景

--机器学习的背景

-1.3 什么是机器学习

--什么是机器学习

-1.4 机器学习系统设计

--机器学习系统设计(1)

--机器学习系统设计(2)

-第一章作业

-第一章课件

第二章 决策树学习(I)

-2.1 决策树的基本概念

--决策树的基本概念

-2.2 决策树的实例和发展历史

--决策树的实例和发展历史

-2.3 经典决策树算法ID3

--经典决策树算法ID3(1)

--经典决策树算法ID3(2)

--经典决策树算法ID3(3)

-2.4 过拟合和前剪枝

--过拟合和前剪枝

-第二章作业

-第二章课件

第三章 决策树学习(II)和贝叶斯学习

-3.1 下午茶时间:勒索软件

--下午茶时间:勒索软件

-3.2 后剪枝

--后剪枝

-3.3 决策树的改进和归纳学习假设

--决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

--贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章 马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间:微博的垃圾检测

--下午茶时间:微博的垃圾检测

-4.2 马尔可夫模型

--马尔可夫模型

-4.3 隐马尔可夫模型

--隐马尔可夫模型

-4.4 评估问题

--评估问题(1)

--评估问题(2)

-4.5 解码问题

--解码问题

-4.6 隐马尔可夫模型的应用

--隐马尔可夫模型的应用

-第四章课件

-第四章作业

第五章 假设检验

-5.1 下午茶时间:图灵奖

--下午茶时间:图灵奖(1)

--下午茶时间:图灵奖(2)

-5.2 假设评估

--假设评估(1)

--假设评估(2)

--假设评估(3)

-5.3 置信度和置信区间

--置信度和置信区间(1)

--置信度和置信区间(2)

--置信度和置信区间(3)

-5.4 有限数据下的比较

--有限数据下的比较

-第五章课件

-第五章作业

第六章 基于实例的学习

-6.1 下午茶时间:黑洞照片

--下午茶时间:黑洞照片

-6.2 基于实例的学习的基本概念

--基于实例的学习的基本概念

-6.3 最近邻算法

--最近邻算法

-6.4 K邻近算法

--K近邻算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章 支持向量机(I)

-7.1 支持向量机的背景

--支持向量机的背景

-7.2 线性支持向量机

--线性支持向量机(1)

--线性支持向量机(2)

--线性支持向量机(3)

--线性支持向量机(4)

--线性支持向量机(5)

-第七章课件

-第七章作业

第八章 支持向量机(II)和无监督学习

-8.1 核函数支持向量机

--核函数支持向量机:向量空间

--核函数支持向量机:核函数(1)

--核函数支持向量机:核函数(2)

-8.4 支持向量机总结

--支持向量机总结

-8.5 无监督学习简介

--无监督学习简介(1)

--无监督学习简介(2)

-8.6 层次聚类

--层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

基于实例的学习的基本概念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。