当前课程知识点:机器学习概论 > 第六章 基于实例的学习 > 6.2 基于实例的学习的基本概念 > 基于实例的学习的基本概念
那我们今天进入到了第七个topic了 就是我们接触到的第七类方法
那这个方法呢 我加了一个问号 这个不是编码错误
那么我们今天想讲什么呢
在那之前啊 先考虑一下 我们以前学过的很多算法
其实往往我们需要用三个步骤第一个步骤呢 是我要先去
去研究一下这个问题的分布 就是数据的分布 比如说它的概率分布呀
或者研究一下这个问题它的特性是什么 然后接下来呢
我们会做一些假设 比如说我们之前研究假设
我们要去用梯度下降的办法去做一做
或者我们认为它可以决策树YesNo如果怎么样
又怎么样这样的概念来去表述
或者呢说我们想要找这个极大后验的假设 然后以及朴素贝叶斯
甚至我们有时候还假设它这个问题是一个隐马尔科夫模型
上一个时刻的数据对下一个时刻有影响 或者你甚至可以往前看两步
甚至还有一些是观察不到隐变量等等
我们其实都是在反复的对模型做了一堆假设 然后呢
我们要做的事情就是在我们选择的这个模型的基础下
就这个问题来去选择优化的参数
就把这个具体的参数是什么选择出来 在decision tree里面选择先用哪个feature
这个feature 走到什么样的分支上
在隐马尔可夫模型里面就是确定它应该是哪怎么走最好的
找到最佳的路径等等 那么我们其实在想
这个世界是不是真的所有的问题都可以用这样的一条思路去解决
是不是有例外 我们是不是可以存在一种情况
有没有这样的一个发散的想象 有没有这样的一些方法
我不用假设模型什么样 也不用假设就是给出很多前提
也不是说我就限定了这个模型我去做参数的估计
其实呢 听起来好像觉得有点悬 如果不设计模型那怎么做呢
能怎么做呢 好 那么好消息是有可能的
我们其实机器学习里面的很多东西都来自于跟生活的经验
有特别多的一一对应的关系 甚至是比如说有一种说法是说
人们是通过记忆和学习来去做事情的
尤其是现在人们对脑科学去研究出来说 小朋友到底是怎么样学
有了认知的发展呢 说他其实呀 不知道 他就是记
从小的时候我女儿还不会说话的时候 指着一个东西啊啊啊
我们就告诉她这叫窗帘 然后又很好奇又指啊啊啊
我们就说那是支水杯 就是这样 就是你告诉她是什么
她看到了听了一次两次三次 然后听完人们靠记忆 然后呢学到了东西
还有呢 一种说法是说有人说思考 什么是思考
有一些认知学的人是这样说 思考其实就是回忆 然后做一些分析
就是你可能在此基础上做一些推理和分析 那么还有呢
就是有一种说法我们成语 一些成语说近朱者赤 近墨者黑
这个说法其实非常非常的常见 然后甚至当年比我们
比我当年高考早两年 甚至高考的语文题就是
请论述正方或者反方论述什么是近朱者赤 近墨者黑
那么回到我们计算机的任务上面 也确实有一些类似的任务
这样的类似的任务比如说你有一张照片
然后然后你想哎呀这个地方好美呀
再帮我找一些也是类似这样的照片吧
或者呢 其实在其他的比如说有两个基因序列
你想要找到这个特别接近的基因序列到底是什么样
这个是挺有实际研究意义的 那么这是什么问题呢
我们其实刚好跟我们其中一种机器学习的方法
我们刚才提到很多人类学习的方法 机器学习的方法有一类叫做instance based learning
基于实例的学习 他们其实就跟我们人类的思考方法非常的接近
你可以认为它是来自于这样的一种人类的思考的方法
这也是我们今天这堂课要给大家分享的
它的思路跟我们之前的都完全不一样
那么在介绍这个之前呢 先给大家介绍一些概念 一个是叫参数化
还有一个叫做非参数化 那么参数化的呢
事实上就是我要假设我有某一个函数的表达式 然后接下来呢
我们这种方法你其实要做的就是你把这个参数确定了
那它其实比较简单 就因为你连表达式都确定了 你只要有数据
你就可以把那个参数基于这批数据学出来 也许它会有误差
那你可以采用不同的学习的方法来做 然后所以它比较简单
而且比较容易估计 但是呢 它的缺点就是它有可能有很大的偏差
就是有可能会有很大的bias 就比如说你一上来就把它给
给搞反了 你假设一上来说这个它是一个线性模型 然后呢
就比如说我看到了一批点 好 我画的时候
大家你会觉得你这个显然不适用 但如果你看到的时候呢
你一上来你把它搞成了一个线型模型
那有可能你模型本身就是bias的 那你不管再怎么找这个直线
它都有可能会学不到它真正的那个学习的目标函数
另外一类方法呢 叫做非参数化的方法 就是它其实是用数据
让数据本身就data driven的 用数据本身来告诉你
它的分布是什么 密度的估计是什么 而并不提前给它一个设计设定
然后这种方法呢 它相对假设比较少一点 但是
但是其实它有缺点 缺点是什么 我们今天这堂课的后面会分析到
那我们今天介绍的这个方法呢 基于实例的学习方法
就是属于非参数化的方法 还有其他的叫法
就或者相关的很多term大家以后会看到
比如说Instance based learning 基于实例的学习
Instance based method基于实例的方法
或者呢也有人讲Memory base learning 就基于记忆的学习
Case base learning基于实例的这种case base
或者是Similarity bas learning基于相似性的学习
然后以及和learning相关的还有一大批关于同样的叫法叫做
reasoning的就是它的推理 那么Instance base learning呢
就是它最核心的就是我们一开始不去构建一个模型
那你要做的事情就是把训练样例存起来 存好了 就完了
这个就是你的训练的过程 然后呢
那比如说我们现在假设要看给不给这些人发信用卡
什么的这样的例子 Response和No response有两类
现在来了一个新的实例的时候 你去看近朱者赤还是近墨者黑
就是看你这个人呢 这个实例它跟哪一个阵营更接近
然后找把它分配给最接近的更像的那个类就可以了
所以所有的事情都是当你要判断 要predict 要去分类预测的那个实例来了之后
再去做 所以这就是Instance base learning的核心的思想
貌似我们已经把它感觉好像快要讲完了
因为确实它的基本思想非常简单 这堂课并不复杂
但是我们有好多要讨论的内容呢 首先我们把它形式化的描述一下
什么是Instance base learning呢 我们说假设我们有一个concept
这个concept叫做C I 然后呢 我们其中基于这个concept呢
我们还有一些你看到的example 一些数据一些example样例
然后呢 你这个时候你 所以我们Instance base learning
你需要的就是三个东西 第一你要有样例 已经用来的训练样例
第二呢 要有一个相似度的这个表达函数 计算的函数
就是近朱者赤 那么什么叫近 怎么去衡量近还是远
所以这个是是你需要事先定义的
第三个呢 你需要一个阈值 就是有多近才算近
有多远是觉得就不相似了
有了这三个东西的话 那么你其实要做基于实例的学习
就是来了对于任何一个Instance A
它判断它是否属于这个concept C的话
你只要去看一看把基于已知这个concept C的所有的实例
Ei 你去看一看Ei和A它之间的距离 用你的这个距离函数去度量
这个距离呢 它是不是大于一个 就相似度
sorry 我这里不应该说距离 应该说它的相似度
它的相似度如果大于这个阈值 那么我们就认为它可以属于这个类
相似度呢 就像我刚才口误的时候呢 经常会把它说成了距离
其实相似度我们往往认为它和距离相关 那它俩是反向相关的关系
距离越小越相似 距离越大越不相似
一会儿我们还会具体的讨论到 所以呢
最第一个基于实例学习相关的第一个算法 就是Nearest neighbor
最近邻算法 这个思路太简单了 大家看一下这个简单的示意图
就我已经有了黑色和绿色两类了 来一个新的之后
我就计算一下它和所有的已知的样例之间的距离 然后呢
我会发现它最近的这个类是黑色的 距离最近的是黑色
我就认为我当前的这个点应该是黑色的 这个就是最近邻算法
再举一个实际的例子 比如说我们现在有这么ABCD这么多个人
他们呢 其实classifier就说它是一个好的适合发信用卡的
还是不是一个好的信用卡优质客户
就是good还是poor这是我们最终的lable
我们哪怕简化这个问题 就是两个feature 一个feature呢
是叫做它的late的 就是平均每年他的晚还信用卡的次数
然后呢 R的这个呢 是说他的收入支出比 就是他的收入和消费比
这是用这两个feature我们已经知道了有这些状态
但其实这些点呢 我们有一些是good的 绿色的这些是good的
红色的这些是bad的 poor的
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业



