极大似然假设、朴素贝叶斯和最小描述长度慕课视频播放-机器学习概论-MOOC慕课视频教程-柠檬大学

极大似然假设特别特别的常用因为在我们的真实情况下面

非常多的情况下你对那个假设本身的分布是不知道的

或者说你可以认为假设本身就是这种随机均匀分布的

另外还有为什么极大似然的这个假设这么重要呢

我们对大家做这样一个分析极大似然和这个最小均方误差

之间的关系你看假设我们会有一个训练数据集x

它的这个每个训练样例是xi 它的这个标签是di

那么di其实就是它的输出它的输出di

它其实是我们目标函数的输出f(xi)再加上一个噪声一个错误

一个错误的噪声然后一般来说我们没有任何情况

没有任何其他附加情况的时候我们通常会认为这个噪声是白噪声

所谓白噪声就是服从高斯分布的这样

以中心在零的高斯分布的噪声

当你没有特殊的额外的某一个特定的噪声源的时候

我们通常会用比较常用的法就是用高斯分布来描述噪声

说起这个我就想起来我非常难忘我当时上本科时候的

概率与数理统计的那个老师那个老师非常神奇平常挺不拘小节的

有时候比如说还毛衣穿反了就上课然后来了一看大家有点笑

发现了之后就当着大家的面再把毛衣倒过来再顺过来

所以这个老师他说根据我的人生经验我告诉你们什么是高斯分布

什么是正态分布他说你们家如果有电冰箱

电冰箱的那个前门上放了一碗花生米然后没封口你拉的猛了

然后啪花生米掉到了地上那个分布就是正态分布

然后我们当时觉得很开心老师这样的例子就让我们真正记住了他

真的很符合这个老师可能真的是他的人生经验曾经发生过这样的事

后来一想这个例子举的非常非常的巧妙就是因为你那个噪声

它是很多个噪声的叠加这种随机运动的这种东西的叠加

叠加它们相对而言你可以认为是独立的所以也得是花生米

不能是一碗米饭因为一碗米饭它相互是有黏度的

所以它们不是独立的就是这样的东西掉下来的时候它足够多

而足够多掉下来它的分布因为这个是由大数定律决定的

我们在后面的课上还会再重复用到如果同学有点不是那么清晰的话

可以回顾一下大数定律知道甭管你原来的每一个

就是它各自原来服从的是多少复杂

就是你这一批如果它们是独立同分布的然后这一些数据

然后甭管它原来的那个分布是多么复杂的分布甚至你描述不出来

当你的这个数据观测点足够多的时候这些数据它们叠加到一起

它们的平均一定是服从正态分布的

也是因此我们会把噪声看作是正态分布是合理的

你可以认为它是很多很多复杂因素的叠加

它平均下来它就是一个正态分布为什么我们要强调正态分布

因为正态分布有很好的性质这个性质我们接下来就会带大家看到

你会看到这条实线它本来的目标的输出但是因为它有噪声的扰动

于是你观察到的是这些带有噪声值的这些输出那么好

我们现在想说的是极大似然估计

那么在有噪声情况下你的那个极大似然估计其实你想估计的就

给定这个假设之后我观察到这个数据的概率

那么我们事实上假设我们的这个样例都是独立的样例

就是你看到的每个训练数据它都是独立同分布的就是它是独立的样例

所以大家会看到独立同分布特别重要

因为只有独立我们才可以把这个数据拆分成每一个数据点的乘积

因此让这个数据观察到这一批数据的概率最大

就是相当于让每一个观察到每一个数据概率最大的这个乘积

好这个数据可以描述成什么样子呢

就是它可以描述成以我们当前的目标值输出为中心的

这样的一个叠加上的一个高斯分布白噪声的这样一个分布

这是我们的数据点你的这个假设和它的数据点

就是以你的输出为中心的带有噪声可看起来有点复杂

大家应该已经非常对这个正态分布的公式已经非常的熟悉了

到了这以后让它最大那很好玩你会看到前面的这个部分

我们首先第一步非常喜欢取对数因为取了对数之后

你的这个指数我们再取了自然对数因为对数函数是一个单调的函数

取对数不改变它的方向性所以原来使得它最大的

你取了对数它的对数值也一样是最大的所以在求这种最大值或者最小值的时候

取对数是一个常用的操作我们就把指数拉到底下

然后就变成了减去二分之一的这一项

好你会发现前面这一项它和假设无关就不用管它了

它是一个常数它是你的噪声分布的那一部分跟你的假设无关

所以使得这个东西最大的其实就是使得后面的这一部分最大

但后面这部分最大你看它有个负数然后这还有一个求和

就是你噪声的那个部分噪声的标准差的这部分也和你的假设无关

你相当于是把这部分去掉和二分之一也没有关系

因为它都是保序的大家注意我这里之所以是等号

是因为我取的是argmax argmax的意思是说使得后面取得最大的参数

然后使得后面取得最大的参数如果不是argmax 只是max的话

你就不能是等号你就只能是等比于

那我们应该是argmax就使得它最大的这个应该是负号对吗

好那我们就把它使得它后面带负值的最大

也就相当于把负号去掉使得它最小到这大家就看出来了很好玩

你看我们也最初的推导的是极大似然估计

如果你的这个噪声是一个白噪声的话它等于什么呢

等于最小平方误差和这不就是你的估计值和数据值误差之间的

平方和吗所以非常好玩你会看到经过这样的推导之后

我们有了正态分布的很多性质和我们之前的中心极限定理

推到现在你会发现其实服从极大似然的估计的假设

就是服从最小平方误差的假设也就说你的这个数据估计出来的误差

平方误差是最小的如果你独立性条件都满足

所以极大似然估计用的非常的多就是因为它有这样的

对误差的刻画能力就是你的估计精准程度

在平方误差上面是最小的这是一个特别好的性质

如果大家还特别感兴趣想加强一下的话你可以读一下Machine Learning那本书

英文版第164页就是它的6.4节也对这个问题做了一些讨论

接下来所以你看后面的这个数据和假设无关的数据的分母的部分

把它忽略的话我们得到了刚才的其他后验假设

那么再进一步我们如果关于这个假设本身的先验如果觉得它一致

就是先验是一样的概率是一样的

或者你什么都不知道你只能假设它一样的时候

你就会变成一个极大似然估计极大似然估计我们刚才分析了

它和最小平方误差有这样的对应关系是等价的

在你的独立性条件满足以及你的噪声满足的情况下

好那么接下来我们就可以给大家介绍下一个了

叫朴素贝叶斯分类器 Naive Bayesian Classifier

这个朴素贝叶斯分类器你看其实挺好玩的你看这个公式里面

你瞧它右边一共只有三项我们已经就两项做了一些讨论了

很自然的我们现在会想到前面这一项我们是不是还可以讨论一下

有点文章可以做呢的确是关于前面这一项的文章

就是给定H 我们下面这个数据的部分我们看一看我们还能做什么

因为你这个数据序列我们说如果你这个数据本身

观察到的那些属性它们都是独立的话

就是每一个数据点都是独立的话那我们整个数据的序列

就可以拆分成它的每一个属性的乘积每一个数据点的乘积

好那么我们其实整个数据还是从极大后验假设出来

使得满足极大后验的那个假设它其实就把前面给定H之后的

那个D就把它拆成了我们这还是X

下一步我们就可以把它拆成了独立属性的乘积

注意我们这里说的是属性属性是什么

其实就是我们在里面说的一些特征如果你这些特征是独立的话

你的数据的描述你可以认为它在不同特征下面分布的

那个概率的乘积好这个其实朴素贝叶斯分类器

就是基于这个来去做的就是我想让这个乘积是最大

那我们经常又用到了对数对数非常好用因为它单调

我们刚才说因为它可以把指数变成乘法

同时它还可以把乘法变成加法转换成加法

所以对数在我们后面学习算法里面用的非常多常用的手法

那你会看到它就等于这两项的那个对数值之和

这个是满足这样条件的分类器我们就把它叫做朴素贝叶斯分类器

这个东西挺有用的简单的来说如果你的属性的独立性条件满足的话

那么朴素贝叶斯的假设就是极大后验假设

好这个给大家举个例子到底怎么用比如说词义消歧

比如说在自然语言里面我们通常一个词有多个含义

比如说英文词fly 它既可以是飞行也可以是名词的苍蝇

bank它既可以是银行也可以是河岸所以我们把这种一词多义

消除一词多义确定它到底是什么意思这样的工作

叫做Word Sense Disambiguation词义的消歧消除歧义

比如说我用了一个常用的英文上面的绕口令

就是A fly flies into the kitchen while he fry the chicken

然后这个其实就是有两个fly 一个是苍蝇一个是飞

我们做自然语言处理的时候你怎么让机器自动判断出来

哪一个是哪一个意思所以在这个问题里面

我们就选取一组词作为上下文作为这个词的上下文

然后我们用它的上下文就代表这个词的属性作为这个词的特征

也有相当于跟这个词共同出现的那些词作为这个词的特征

这是在我们文本处理里面特别常用的一种手法

然后我们其中把它的第i个含义我们把它叫做si

就是我们可能输出的这个标签那么根据朴素贝叶斯假设

这里要用到一个假设就是假设是说一个词它的上下文

跟这个是独立的其实在我们的语言里面这个独立性并不完全成立

比如说我说了清华大后面很有可能是一个学

但我也有可能是清华大别的什么东西比如说清华大多数人

你也可能也是一个多或者什么的

也就是说每一个词的上下文其实我们语言实际是有一些影响

但是在自然语言处理里面非常非常常用的一个假设

是用Bag of Words 就词袋模型认为每一个词是独立的可以成为上下文

他们不考虑它的关联关系这时问题就简化

那么这样的时候我们就把这个上下文的这一串词

就变成了每一个词的这个概率的乘积

也就是说我们知道了当前这个词义给出当前词义是苍蝇的时候

它的前文是a的概率以及这个当前的词义是苍蝇的时候

它的后文跟着fly的概率把同样这个概率求出来

就是你这个词义所对应的它的总的你要求出来的它的概率

因此贝叶斯决策就是使得我这样的一个概率最大的

这样的一种假设怎么算P(sk) 甭管你上下文是什么

就是它sk 也就是说这个sk在这里面

我们说是这个词的第k个意思比如说这个fly这个词是苍蝇

这个怎么计算就是数数就是看在所有的出现了fly了这个词的

你整个数据集里面出现了fly这个词的时候

有多少次它的意思是苍蝇有多少次它的意思是飞行

那么就分别有了P(s1)和P(s2)

这个这个是根据你的训练样例里面得到的就是你已经标注

那么给定这个属性就给定它的当前的词义后面

它的上下文的每一个词出现的概率这个也很好算就是看一看

比如说如果这个苍蝇就是当fly当成苍蝇用的一共有这么多次

其中在这么多次时候有多少次它和a一起用的那么数数数

那么这个求出来就是给定这个属性是苍蝇的时候

它的上下文之一是a这个词的概率同样的依此类推

还有into 还有flies 别的都可以计算出来那么把它代进来

使得后面的这个乘积使得后面公式最大的这样的一个词义

就是我当前这个单词的词义所以朴素贝叶斯计算方法非常的简单

说白了它就是数数就是做一些统计就行了做一些数数

所以大家会看到这个东西挺常用的

那我们接下来再看回顾一下

我们刚才说如果当你这个数据的属性的独立性成立的话

那我们极大后验的估计它就是一个朴素贝叶斯

服从你的朴素贝叶斯估计得到的结果基本上我们学完了

但是我想跟大家讨论一点点关于最小描述长度

这个我其实在上节课跟大家提到过一些在上周

那么其实我们说Occam's Razor Occam's剃刀

说我们想要看一看想要那些最短的什么是最短的

其实还有MDL里面是说我想要最小的描述长度

描述长度用什么描述呢在这里面我用基本上我们希望那样的假设

这个假设就是它的在编码C1下面

它的描述长度如果用LCx来去描述的话

那我其实就是希望对这个假设的编码长度以及给定这个假设之后

我对数据的描述长度加到一起最小的那样的假设

就是服从了最小描述长度的假设好像有一点点绕

我举一点实际的例子我们一说到编码

因为MDL我们最早是从信息论这里面用的比较多

我们就经常提到大家不知道有没有上信息论的课

经常说艾丽斯和鲍德他们两个要传输一段话这传输一段话的话

到底哪个是他们最优的传输方式其实在比如说我想传输

他想传BABAD等等这一大串的东西

那你的A和B和D分别用什么来代表在编码这种01串

这种方式就是二进制的编码就是00、01、10、11

大家觉得我们看计算机经常容易四种状态就是用这种去描述

这个串就写成这样的编码了那根据香农信息论

香农曾经证明说了事实上有另外一种更优编码的做法

就是给出现次数最多的那个代码给它最短编码

在这个里面其实就像A出现的特别多就是0 B就是10

C和D分别是110和111 这样写下来你得到的这个编码非常短

那么事实上 Shannon和Weaver他们在1949年得出过证明

说最优的编码的长度是-log2(p) 这么多的比特就够了

这是它的最优编码感兴趣的同学可以稍微想想看为什么是这个

非常容易考虑为什么我会谈到这个问题

就是最优编码为什么要说是-log2(p)

因为大家看一看发现它好像刚才正好跟我们MDL的样子很像

的确是的我们其实这个就是对假设的最优编码

事实上已知我的假设是这个的时候我的数据最优编码

就是我们MDL第二项描述的就是对这个数据的最优编码

好它有什么关系呢我们从极大后验假设开始

极大后验假设就是我们刚才贝叶斯公式分母的这一部分

它取得最大的那样一个参数我们想让它取得最大

我们取一个对数取了对数之后就是让这两项就是h的先验

以及它的似然度这两项分别取对数取最大

这个是对数保序的性质让这两个取最大

就相当于让它们的负号取最小你放在这很好看

这个不就是已知假设下对数据的编码吗这不就是对假设的编码吗

所以它其实就是MDL 很好玩对不对我们会发现极大后验假设

服从极大后验的假设就是服从最小描述长度的假设

所以我觉得这个东西特别有意思当你把这个公式吃透了之后

你会发现在不同的条件下满足一定的条件

我们所认知的这些东西它就一点点被串起来了

相互之间被关联起来它就不再是散落的一个一个石子

可能串在一起就变成一个项链了所以这个公式

那我们今天这个是什么解释呢我们其实想用这个来解释

给大家举一个实际的例子比如说艾丽斯和鲍德他们要传一个信息

这个数据假设传的这个串双方都已经知道了

我们看一看他们的代价如果哪个都没传错没有冲突

那这个代价为零两个人之间不用再传任何东西了

但假设如果其中有一个数据是错的那么这个时候

鲍德要给艾丽斯传两个东西

第一个东西我得告诉你第几位的数据错了你才能修正

第二我得告诉你第几位的数据错了要怎么最优编码这个编码我假设有M个样例

我最优编码就是log2(m)多个来去描述告诉你哪一个错了

还得告诉他错了之后你得纠正成什么对吧要纠正成什么

现在假设你一共有k个类所以说它的标签不是1 而是5 那好

你得告诉这件事所以你至少需要log2(k) 所以MDL描述的是什么

描述的其实是说你自己本身传输这个假设的代价

以及你传错了之后你需要纠正的代价因此我们在这种情况下

我们事实上是一个平衡我们其实不喜欢那些

如果有一个假设特别复杂然后它这个时候没有错

但是你假设本身的传输代价太大了

你加到一起描述长度也不会太小

相反的我们可能会尽管刚才的错误是零

我们会希望假设本身比较短以及你有一点错错的不多

让这两项加到一起比较小这样的是比较好的

大家会发现这是一个很好的东西它解决了什么问题呢

它其实比较方便解决过拟合问题

过拟合就是说我其实不希望一个过于复杂的模型完美的拟合了

我当前的数据我可能假设简单一点

就像我们剪枝一样剪的简单一点我可能有一些错误

但是错误不多其实反而它的泛化能力是会更强

好我希望能够在这个课今天的这个内容里面虽然不那么复杂

但是帮大家串起来很多东西的概念比如说极大后验假设

比如说极大似然假设比如说朴素贝叶斯分类器

以及我们讨论了极大似然假设和最小均方误差之间的关系

它又在一定程度上是等价的

以及最小描述长度的假设和极大后验假设之间的关系

希望大家回去你其实回去就把这样的一个把这个公式吃透了

想清楚它是怎么回事就把我们以前看起来零散的知识

把它融合到一起其实我们今天这堂课讲了四个不同的算法

每一个都是相关的算法

机器学习概论课程列表：

第一章绪论

-1.1 课程介绍

-1.2 机器学习的背景

-1.3 什么是机器学习

-1.4 机器学习系统设计

-第一章作业

第二章决策树学习（I）

-2.1 决策树的基本概念

-2.2 决策树的实例和发展历史

-2.3 经典决策树算法ID3

-2.4 过拟合和前剪枝

-第二章作业

第三章决策树学习（II）和贝叶斯学习

-3.1 下午茶时间：勒索软件

-3.2 后剪枝

-3.3 决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间：微博的垃圾检测

-4.2 马尔可夫模型

-4.3 隐马尔可夫模型

-4.4 评估问题

-4.5 解码问题

-4.6 隐马尔可夫模型的应用

-第四章作业

第五章假设检验

-5.1 下午茶时间：图灵奖

-5.2 假设评估

-5.3 置信度和置信区间

-5.4 有限数据下的比较

-第五章作业

第六章基于实例的学习

-6.1 下午茶时间：黑洞照片

-6.2 基于实例的学习的基本概念

-6.3 最近邻算法

-6.4 K邻近算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章支持向量机（I）

-7.1 支持向量机的背景

-7.2 线性支持向量机

-第七章作业

第八章支持向量机（II）和无监督学习

-8.1 核函数支持向量机

-8.4 支持向量机总结

-8.5 无监督学习简介

-8.6 层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

极大似然假设、朴素贝叶斯和最小描述长度在线视频

极大似然假设、朴素贝叶斯和最小描述长度课程教案、知识点、字幕

机器学习概论课程列表：

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习

极大似然假设、朴素贝叶斯和最小描述长度笔记与讨论

也许你还感兴趣的课程:

极大似然假设、朴素贝叶斯和最小描述长度在线视频

极大似然假设、朴素贝叶斯和最小描述长度课程教案、知识点、字幕

机器学习概论课程列表：

第一章 绪论

第二章 决策树学习（I）

第三章 决策树学习（II）和贝叶斯学习

第四章 马尔可夫模型和隐马尔可夫模型

第五章 假设检验

第六章 基于实例的学习

第七章 支持向量机（I）

第八章 支持向量机（II）和无监督学习

极大似然假设、朴素贝叶斯和最小描述长度笔记与讨论

也许你还感兴趣的课程:

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习