10173803

当前课程知识点:机器学习概论 >  第三章 决策树学习(II)和贝叶斯学习 >  3.5 极大似然假设、朴素贝叶斯和最小描述长度 >  极大似然假设、朴素贝叶斯和最小描述长度

返回《机器学习概论》慕课在线视频课程列表

极大似然假设、朴素贝叶斯和最小描述长度在线视频

下一节:第三章课件

返回《机器学习概论》慕课在线视频列表

极大似然假设、朴素贝叶斯和最小描述长度课程教案、知识点、字幕

极大似然假设特别特别的常用 因为在我们的真实情况下面

非常多的情况下 你对那个假设本身的分布是不知道的

或者说你可以认为假设本身就是这种随机均匀分布的

另外还有为什么极大似然的这个假设这么重要呢

我们对大家做这样一个分析 极大似然和这个最小均方误差

之间的关系 你看假设我们会有一个训练数据集x

它的这个每个训练样例是xi 它的这个标签是di

那么di其实就是它的输出 它的输出di

它其实是我们目标函数的输出f(xi)再加上一个噪声一个错误

一个错误的噪声 然后一般来说我们没有任何情况

没有任何其他附加情况的时候 我们通常会认为这个噪声是白噪声

所谓白噪声就是服从高斯分布的这样

以中心在零的高斯分布的噪声

当你没有特殊的额外的某一个特定的噪声源的时候

我们通常会用比较常用的法就是用高斯分布来描述噪声

说起这个我就想起来 我非常难忘我当时上本科时候的

概率与数理统计的那个老师 那个老师非常神奇 平常挺不拘小节的

有时候比如说还毛衣穿反了就上课 然后来了 一看大家有点笑

发现了之后 就当着大家的面再把毛衣倒过来 再顺过来

所以这个老师 他说根据我的人生经验我告诉你们 什么是高斯分布

什么是正态分布 他说你们家如果有电冰箱

电冰箱的那个前门上放了一碗花生米 然后没封口 你拉的猛了

然后啪花生米掉到了地上 那个分布就是正态分布

然后我们当时觉得很开心 老师这样的例子 就让我们真正记住了他

真的很符合这个老师 可能真的是他的人生经验曾经发生过这样的事

后来一想这个例子举的非常非常的巧妙 就是因为你那个噪声

它是很多个噪声的叠加 这种随机运动的这种东西的叠加

叠加它们相对而言 你可以认为是独立的 所以也得是花生米

不能是一碗米饭 因为一碗米饭它相互是有黏度的

所以它们不是独立的 就是这样的东西掉下来的时候 它足够多

而足够多掉下来 它的分布 因为这个是由大数定律决定的

我们在后面的课上还会再重复用到 如果同学有点不是那么清晰的话

可以回顾一下 大数定律知道 甭管你原来的每一个

就是它各自原来服从的是多少复杂

就是你这一批如果它们是独立同分布的 然后这一些数据

然后甭管它原来的那个分布是多么复杂的分布 甚至你描述不出来

当你的这个数据观测点足够多的时候 这些数据它们叠加到一起

它们的平均一定是服从正态分布的

也是因此我们会把噪声看作是正态分布是合理的

你可以认为它是很多很多复杂因素的叠加

它平均下来它就是一个正态分布 为什么我们要强调正态分布

因为正态分布有很好的性质 这个性质我们接下来就会带大家看到

你会看到这条实线它本来的目标的输出 但是因为它有噪声的扰动

于是你观察到的是这些带有噪声值的这些输出 那么好

我们现在想说的是极大似然估计

那么在有噪声情况下你的那个极大似然估计其实你想估计的就

给定这个假设之后 我观察到这个数据的概率

那么我们事实上假设我们的这个样例都是独立的样例

就是你看到的每个训练数据它都是独立同分布的 就是它是独立的样例

所以大家会看到独立同分布特别重要

因为只有独立我们才可以把这个数据拆分成每一个数据点的乘积

因此让这个数据观察到这一批数据的概率最大

就是相当于让每一个观察到每一个数据概率最大的这个乘积

好 这个数据可以描述成什么样子呢

就是它可以描述成以我们当前的目标值输出为中心的

这样的一个叠加上的一个高斯分布白噪声的这样一个分布

这是我们的数据点 你的这个假设和它的数据点

就是以你的输出为中心的 带有噪声 可看起来有点复杂

大家应该已经非常对这个正态分布的公式已经非常的熟悉了

到了这以后 让它最大 那很好玩 你会看到前面的这个部分

我们首先第一步非常喜欢取对数 因为取了对数之后

你的这个指数 我们再取了自然对数 因为对数函数是一个单调的函数

取对数不改变它的方向性 所以原来使得它最大的

你取了对数它的对数值也一样是最大的 所以在求这种最大值或者最小值的时候

取对数是一个常用的操作 我们就把指数拉到底下

然后就变成了减去二分之一的这一项

好 你会发现前面这一项它和假设无关 就不用管它了

它是一个常数 它是你的噪声分布的那一部分 跟你的假设无关

所以使得这个东西最大的 其实就是使得后面的这一部分最大

但后面这部分最大 你看它有个负数 然后这还有一个求和

就是你噪声的那个部分 噪声的标准差的这部分也和你的假设无关

你相当于是把这部分去掉 和二分之一也没有关系

因为它都是保序的 大家注意我这里之所以是等号

是因为我取的是argmax argmax的意思是说使得后面取得最大的参数

然后使得后面取得最大的参数 如果不是argmax 只是max的话

你就不能是等号 你就只能是等比于

那我们应该是argmax就使得它最大的 这个应该是负号 对吗

好 那我们就把它 使得它后面带负值的最大

也就相当于把负号去掉 使得它最小 到这大家就看出来了很好玩

你看我们也最初的推导的是极大似然估计

如果你的这个噪声是一个白噪声的话 它等于什么呢

等于最小平方误差和 这不就是你的估计值和数据值误差之间的

平方和吗 所以非常好玩 你会看到经过这样的推导之后

我们有了正态分布的很多性质和我们之前的中心极限定理

推到现在你会发现 其实服从极大似然的估计的假设

就是服从最小平方误差的假设 也就说你的这个数据估计出来的误差

平方误差是最小的 如果你独立性条件都满足

所以极大似然估计用的非常的多 就是因为它有这样的

对误差的刻画能力 就是你的估计精准程度

在平方误差上面是最小的 这是一个特别好的性质

如果大家还特别感兴趣想加强一下的话 你可以读一下Machine Learning那本书

英文版第164页 就是它的6.4节也对这个问题做了一些讨论

接下来 所以你看后面的这个数据和假设无关的数据的分母的部分

把它忽略的话 我们得到了刚才的其他后验假设

那么再进一步我们如果关于这个假设本身的先验如果觉得它一致

就是先验是一样的 概率是一样的

或者你什么都不知道你只能假设它一样的时候

你就会变成一个极大似然估计 极大似然估计我们刚才分析了

它和最小平方误差有这样的对应关系 是等价的

在你的独立性条件满足 以及你的噪声满足的情况下

好 那么接下来我们就可以给大家介绍下一个了

叫朴素贝叶斯分类器 Naive Bayesian Classifier

这个朴素贝叶斯分类器 你看其实挺好玩的 你看这个公式里面

你瞧它右边一共只有三项 我们已经就两项做了一些讨论了

很自然的我们现在会想到前面这一项 我们是不是还可以讨论一下

有点文章可以做呢 的确是 关于前面这一项的文章

就是给定H 我们下面这个数据的部分 我们看一看 我们还能做什么

因为你这个数据序列 我们说如果你这个数据本身

观察到的那些属性它们都是独立的话

就是每一个数据点都是独立的话 那我们整个数据的序列

就可以拆分成它的每一个属性的乘积 每一个数据点的乘积

好 那么我们其实整个数据 还是从极大后验假设出来

使得满足极大后验的那个假设 它其实就把前面给定H之后的

那个D就把它拆成了 我们这还是X

下一步我们就可以把它拆成了独立属性的乘积

注意我们这里说的是属性 属性是什么

其实就是我们在里面说的一些特征 如果你这些特征是独立的话

你的数据的描述 你可以认为它在不同特征下面分布的

那个概率的乘积 好 这个其实朴素贝叶斯分类器

就是基于这个来去做的 就是我想让这个乘积是最大

那我们经常又用到了对数 对数非常好用 因为它单调

我们刚才说因为它可以把指数变成乘法

同时它还可以把乘法变成加法 转换成加法

所以对数在我们后面学习算法里面用的非常多 常用的手法

那你会看到它就等于这两项的那个对数值之和

这个是满足这样条件的分类器 我们就把它叫做朴素贝叶斯分类器

这个东西挺有用的 简单的来说如果你的属性的独立性条件满足的话

那么朴素贝叶斯的假设就是极大后验假设

好 这个给大家举个例子到底怎么用 比如说词义消歧

比如说在自然语言里面 我们通常一个词有多个含义

比如说英文词fly 它既可以是飞行 也可以是名词的苍蝇

bank它既可以是银行 也可以是河岸 所以我们把这种一词多义

消除一词多义 确定它到底是什么意思这样的工作

叫做Word Sense Disambiguation词义的消歧 消除歧义

比如说我用了一个常用的英文上面的绕口令

就是A fly flies into the kitchen while he fry the chicken

然后这个其实就是有两个fly 一个是苍蝇 一个是飞

我们做自然语言处理的时候 你怎么让机器自动判断出来

哪一个是哪一个意思 所以在这个问题里面

我们就选取一组词作为上下文 作为这个词的上下文

然后我们用它的上下文就代表这个词的属性 作为这个词的特征

也有相当于跟这个词共同出现的那些词 作为这个词的特征

这是在我们文本处理里面特别常用的一种手法

然后我们其中把它的第i个含义 我们把它叫做si

就是我们可能输出的这个标签 那么根据朴素贝叶斯假设

这里要用到一个假设 就是假设是说一个词它的上下文

跟这个是独立的 其实在我们的语言里面这个独立性并不完全成立

比如说我说了清华大 后面很有可能是一个学

但我也有可能是清华大别的什么东西 比如说清华大多数人

你也可能也是一个多 或者什么的

也就是说每一个词的上下文其实我们语言实际是有一些影响

但是在自然语言处理里面 非常非常常用的一个假设

是用Bag of Words 就词袋模型 认为每一个词是独立的 可以成为上下文

他们不考虑它的关联关系 这时问题就简化

那么这样的时候 我们就把这个上下文的这一串词

就变成了每一个词的这个概率的乘积

也就是说我们知道了当前这个词义 给出当前词义是苍蝇的时候

它的前文是a的概率 以及这个当前的词义是苍蝇的时候

它的后文跟着fly的概率 把同样这个概率求出来

就是你这个词义所对应的 它的总的你要求出来的它的概率

因此贝叶斯决策就是使得我这样的一个概率最大的

这样的一种假设 怎么算P(sk) 甭管你上下文是什么

就是它sk 也就是说这个sk在这里面

我们说是这个词的第k个意思 比如说这个fly这个词是苍蝇

这个怎么计算 就是数数 就是看在所有的出现了fly了这个词的

你整个数据集里面出现了fly这个词的时候

有多少次它的意思是苍蝇 有多少次它的意思是飞行

那么就分别有了P(s1)和P(s2)

这个这个是根据你的训练样例里面得到的 就是你已经标注

那么给定这个属性 就给定它的当前的词义后面

它的上下文的每一个词出现的概率 这个也很好算 就是看一看

比如说如果这个苍蝇就是当fly当成苍蝇用的一共有这么多次

其中在这么多次时候 有多少次它和a一起用的 那么数数数

那么这个求出来就是 给定这个属性是苍蝇的时候

它的上下文之一是a这个词的概率 同样的依此类推

还有into 还有flies 别的都可以计算出来 那么把它代进来

使得后面的这个乘积 使得后面公式最大的这样的一个词义

就是我当前这个单词的词义 所以朴素贝叶斯计算方法非常的简单

说白了它就是数数 就是做一些统计就行了 做一些数数

所以大家会看到这个东西挺常用的

那我们接下来再看 回顾一下

我们刚才说如果当你这个数据的属性的独立性成立的话

那我们极大后验的估计 它就是一个朴素贝叶斯

服从你的朴素贝叶斯估计得到的结果 基本上我们学完了

但是我想跟大家讨论一点点关于最小描述长度

这个我其实在上节课跟大家提到过一些 在上周

那么其实我们说Occam's Razor Occam's剃刀

说我们想要看一看 想要那些最短的 什么是最短的

其实还有MDL里面是说我想要最小的描述长度

描述长度用什么描述呢 在这里面我用 基本上我们希望那样的假设

这个假设就是它的在编码C1下面

它的描述长度如果用LCx来去描述的话

那我其实就是希望对这个假设的编码长度 以及给定这个假设之后

我对数据的描述长度 加到一起最小的那样的假设

就是服从了最小描述长度的假设 好像有一点点绕

我举一点实际的例子 我们一说到编码

因为MDL我们最早是从信息论这里面用的比较多

我们就经常提到 大家不知道有没有上信息论的课

经常说艾丽斯和鲍德他们两个要传输一段话这传输一段话的话

到底哪个是他们最优的传输方式 其实在比如说我想传输

他想传BABAD等等这一大串的东西

那你的A和B和D分别用什么来代表 在编码这种01串

这种方式就是二进制的编码 就是00、01、10、11

大家觉得我们看计算机经常容易 四种状态 就是用这种去描述

这个串就写成这样的编码了 那根据香农信息论

香农曾经证明说了 事实上有另外一种更优编码的做法

就是给出现次数最多的那个代码给它最短编码

在这个里面其实就像A出现的特别多就是0 B就是10

C和D分别是110和111 这样写下来你得到的这个编码非常短

那么事实上 Shannon和Weaver他们在1949年得出过证明

说最优的编码的长度是-log2(p) 这么多的比特就够了

这是它的最优编码 感兴趣的同学可以稍微想想看 为什么是这个

非常容易考虑 为什么我会谈到这个问题

就是最优编码为什么要说是-log2(p)

因为大家看一看 发现它好像刚才正好跟我们MDL的样子很像

的确是的 我们其实这个就是对假设的最优编码

事实上已知我的假设是这个的时候 我的数据最优编码

就是我们MDL第二项描述的就是对这个数据的最优编码

好 它有什么关系呢 我们从极大后验假设开始

极大后验假设就是我们刚才贝叶斯公式分母的这一部分

它取得最大的那样一个参数 我们想让它取得最大

我们取一个对数 取了对数之后 就是让这两项 就是h的先验

以及它的似然度这两项分别取对数取最大

这个是对数保序的性质 让这两个取最大

就相当于让它们的负号取最小 你放在这很好看

这个不就是已知假设下对数据的编码吗 这不就是对假设的编码吗

所以它其实就是MDL 很好玩 对不对 我们会发现极大后验假设

服从极大后验的假设 就是服从最小描述长度的假设

所以我觉得这个东西特别有意思 当你把这个公式吃透了之后

你会发现在不同的条件下 满足一定的条件

我们所认知的这些东西它就一点点被串起来了

相互之间被关联起来 它就不再是散落的一个一个石子

可能串在一起就变成一个项链了 所以这个公式

那我们今天这个是什么解释呢 我们其实想用这个来解释

给大家举一个实际的例子 比如说艾丽斯和鲍德他们要传一个信息

这个数据假设传的这个串 双方都已经知道了

我们看一看他们的代价 如果哪个都没传错 没有冲突

那这个代价为零 两个人之间不用再传任何东西了

但假设如果其中有一个数据是错的 那么这个时候

鲍德要给艾丽斯传两个东西

第一个东西我得告诉你第几位的数据错了 你才能修正

第二我得告诉你 第几位的数据错了 要怎么最优编码 这个编码我假设有M个样例

我最优编码就是log2(m)多个来去描述 告诉你哪一个错了

还得告诉他错了之后 你得纠正成什么 对吧 要纠正成什么

现在假设你一共有k个类 所以说它的标签 不是1 而是5 那好

你得告诉这件事 所以你至少需要log2(k) 所以MDL描述的是什么

描述的其实是说你自己本身传输这个假设的代价

以及你传错了之后 你需要纠正的代价 因此我们在这种情况下

我们事实上是一个平衡 我们其实不喜欢那些

如果有一个假设特别复杂 然后它这个时候没有错

但是你假设本身的传输代价太大了

你加到一起描述长度也不会太小

相反的我们可能会 尽管刚才的错误是零

我们会希望假设本身比较短 以及你有一点错 错的不多

让这两项加到一起比较小 这样的是比较好的

大家会发现这是一个很好的东西 它解决了什么问题呢

它其实比较方便解决过拟合问题

过拟合就是说我其实不希望一个过于复杂的模型完美的拟合了

我当前的数据 我可能假设简单一点

就像我们剪枝一样剪的简单一点 我可能有一些错误

但是错误不多 其实反而它的泛化能力是会更强

好 我希望能够在这个课 今天的这个内容里面虽然不那么复杂

但是帮大家串起来很多东西的概念 比如说极大后验假设

比如说极大似然假设 比如说朴素贝叶斯分类器

以及我们讨论了极大似然假设和最小均方误差之间的关系

它又在一定程度上是等价的

以及最小描述长度的假设和极大后验假设之间的关系

希望大家回去你其实回去就把这样的一个 把这个公式吃透了

想清楚它是怎么回事 就把我们以前看起来零散的知识

把它融合到一起 其实我们今天这堂课讲了四个不同的算法

每一个都是相关的算法

机器学习概论课程列表:

第一章 绪论

-1.1 课程介绍

--课程介绍(1)

--课程介绍(2)

-1.2 机器学习的背景

--机器学习的背景

-1.3 什么是机器学习

--什么是机器学习

-1.4 机器学习系统设计

--机器学习系统设计(1)

--机器学习系统设计(2)

-第一章作业

-第一章课件

第二章 决策树学习(I)

-2.1 决策树的基本概念

--决策树的基本概念

-2.2 决策树的实例和发展历史

--决策树的实例和发展历史

-2.3 经典决策树算法ID3

--经典决策树算法ID3(1)

--经典决策树算法ID3(2)

--经典决策树算法ID3(3)

-2.4 过拟合和前剪枝

--过拟合和前剪枝

-第二章作业

-第二章课件

第三章 决策树学习(II)和贝叶斯学习

-3.1 下午茶时间:勒索软件

--下午茶时间:勒索软件

-3.2 后剪枝

--后剪枝

-3.3 决策树的改进和归纳学习假设

--决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

--贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章 马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间:微博的垃圾检测

--下午茶时间:微博的垃圾检测

-4.2 马尔可夫模型

--马尔可夫模型

-4.3 隐马尔可夫模型

--隐马尔可夫模型

-4.4 评估问题

--评估问题(1)

--评估问题(2)

-4.5 解码问题

--解码问题

-4.6 隐马尔可夫模型的应用

--隐马尔可夫模型的应用

-第四章课件

-第四章作业

第五章 假设检验

-5.1 下午茶时间:图灵奖

--下午茶时间:图灵奖(1)

--下午茶时间:图灵奖(2)

-5.2 假设评估

--假设评估(1)

--假设评估(2)

--假设评估(3)

-5.3 置信度和置信区间

--置信度和置信区间(1)

--置信度和置信区间(2)

--置信度和置信区间(3)

-5.4 有限数据下的比较

--有限数据下的比较

-第五章课件

-第五章作业

第六章 基于实例的学习

-6.1 下午茶时间:黑洞照片

--下午茶时间:黑洞照片

-6.2 基于实例的学习的基本概念

--基于实例的学习的基本概念

-6.3 最近邻算法

--最近邻算法

-6.4 K邻近算法

--K近邻算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章 支持向量机(I)

-7.1 支持向量机的背景

--支持向量机的背景

-7.2 线性支持向量机

--线性支持向量机(1)

--线性支持向量机(2)

--线性支持向量机(3)

--线性支持向量机(4)

--线性支持向量机(5)

-第七章课件

-第七章作业

第八章 支持向量机(II)和无监督学习

-8.1 核函数支持向量机

--核函数支持向量机:向量空间

--核函数支持向量机:核函数(1)

--核函数支持向量机:核函数(2)

-8.4 支持向量机总结

--支持向量机总结

-8.5 无监督学习简介

--无监督学习简介(1)

--无监督学习简介(2)

-8.6 层次聚类

--层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

极大似然假设、朴素贝叶斯和最小描述长度笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。