贝叶斯学习的背景慕课视频播放-机器学习概论-MOOC慕课视频教程-柠檬大学

其实这个问题医生其实不好回答

也从来不会有医生跟病人回答这样的问题

但医生怎么考虑这个问题其实他事实上心里如果要做这个判断

通常是基于他过去的经历什么样的经历

这个医生他过去看过的所有的肺癌患者里面有多少人

曾经得过肺炎这个是他能够得到的数据

以及他能够积累的经验所以其实我们有的时候

所谓贝叶斯学习经常就是这种反过来思考问题的思路

有的时候我们当然不说它是一个因果关系

有的时候我们会说从A是否能够推出B 这个不好解决

我们反过来想想由B到A是什么样的关系

所以这个其实是我们贝叶斯学习的一个非常常用的一个思路

我们中文有一句话叫做执果溯因你已经看到了结果

那我们去看看在这之前发生了什么或者有过什么数据

能够支持现在的这种现象这个就是贝叶斯学习的最基本的东西

事实上我们今天接下来这堂课的所有的内容

都是围绕着这一个公式来的所以大家把这一个公式

大家已经学过了在大家数学课上

甚至有的同学可能在你们的高中阶段就已经学过

贝叶斯的这个理论就是这样一个简单的公式

它一共就四个元素这四个元素分别是什么

一个是给出的数据观察D 我这个假设成立的概率有多大

就是P(h|D) 就好像说一个人看到的

得到的数据观察是这个人已经得了肺炎

然后它的假设是说他现在应该是得了肺癌

得肺癌的这个假设成立的概率有多大这是我们想知道

我们会把它叫做后验假设后验假设就我们看到的这个数据

给定了这个观察到的数据我们想知道这个假设成立的概率有多大

第二个需要给大家说是先验关于这个假设先验的概率

刚才是关于假设后验概率就你已经看到了这数据如果你不知道

没看到这个数据那么我们先验这个假设成立的概率有多大

在刚才的这个例子里面甭管一个人有没有得肺炎

那么一个人得肺癌的概率有多大就这个假设本身和这个数据无关

这个假设本身成立的概率有多大就是叫假设的先验概率

那么P(D)是什么是关于这个数据的它的先验概率

就是它和这个假设没关它就是这个数据然后给出假设之后

我们这个数据的概率其实就是我们给定数据之后

这个假设的成立的概率我们在这个问题上面

比如说如果有一个实验里面比如说一个化验的结果

一个病人他的化验结果为正那么他想知道他是不是得了某种癌症

假设这是我们想的问题得了癌症这个是假设

化验结果是我们看到的数据那么这个就是

如果我们已知化验数据为正那么这个人有癌症他的概率是多大

这是我们的后验我们想知道的是这件事但是它没办法直接知道

那怎么办我们先看一看如果一个人已经得了癌症了

他的化验结果是正的可能性有多少这个概率有多少

以及随便的一个人甭管是不是病人甭管检测结果是什么

任何一个人他有癌症的概率有多大

以及任何一个人甭管他有没有得病正常的还是健康的

男还是女没关系任何一个他的测试做同样化验结果为正的概率有多少

所以基本上你只要把这四个概率的问题搞清楚

就是两个条件概率两个独立的概率就和他们自己有关的概率

那么贝叶斯理论其实我们事实上都知道

这个贝叶斯在数学上面更常用的贝叶斯的公式

其实是这样写的就是X和Y的联合概率其实它是等于其中

X和Y的联合概率

它其实可以你把Y当成条件然后得到的条件概率

乘以它的条件概率也可以是把其中的X拿出来单独拎出来

观察到的X 独立的X 再看以X为条件它的概率

这是我们数学上更常用的表达我们刚才看到这种方式

无非是说因为它们都是等于X、Y的联合概率所以这两个相等

它俩相等你把任何一项挪到了另外一个底下

就是我们现在看到的这种形式这是我们这堂课主要要围绕的东西

接下来我们就看一看贝叶斯理论上面我们想知道的是

需要满足什么样的条件首先你的这个假设

这个假设本身它们应该是互斥的而且假设空间要是完备的

因为我们用的是概率相关的所以概率你需要有些条件

假设本身互斥比如说我们刚才如果说得癌症和不得癌症

那他只有这两种可能要么得了要么没得

而且这两个假设之间不能有交叉

还有这两个假设加在一起它的概率之和应该为一

你这个应该已经覆盖所有的情况这是我们

你可以用贝叶斯学习的其中的基础条件之一

假设本身要符合这样的要求数据本身其实很重要一个要求

就是数据它必须和你的假设你取的时候只单看这个P(D)的时候

数据本身必须和你的假设无关也就是如果你要去做这个研究

你要看一个人的化验结果是正还是负

你不能够去肿瘤医院去看化验结果

因为这样的数据它是有偏置的

因为肿瘤医院里面天然得癌症的人会更多一点

比一般的情况更多所以你的数据不能单看那一个结果

你可能也不能够在比如说在一个刚出生的小朋友的新生儿机构里面

去看这个化验结果因为他可能天然的新生儿得癌症的可能性比较小

所以数据本身得到的结果数据本身应该是和假设独立的

这点很重要然后还有我们把这个给定了已知这个假设成立

你这个数据观察到这个数据的概率我们把它叫做似然度叫做likelihood

然后我们经常会在似然度用的非常多

我们经常会有一种操作做log(likelihood)

这个我们未来会逐渐的接触到就是利用到对数一些性质

我们一会儿会分析逐渐会分析到

那么还要回到我们刚才的例子里面假设这个问题是这样的

我们说到一个人的实验结果是正的然后他到底有没有得癌症

我们想要理解就是用数学化的方式描述这个问题就是这样的

给出的条件是正就是数据为正

得癌症的概率是多少假设我们已经采集了这样的数据

就是Correct Positive比例是98%

也就是表示如果一个人有了癌症那么他的化验结果为正

这个的概率是98% 那另外Correct Negative概率是说

如果一个人没有癌症那他的这个化验结果为负的概率是97%

这个都是可以在采样出来的还有在所有的人群中

在所有的人群里面

只有千分之八的人得了癌症假设我们这里说的是某一种癌症

具体的好那么这个是我们已知的数据

如果我们已经有了这些数据你可以看到它是可以采样得到的

假设这个医生已经有了这个经验他就可以对这个病人

现在他有化验结果为正到底是不是有癌症做出一个计算

这个计算就会发现P(cancer) H1就是0.008

那么对应的 H2就是0.992 这个就是我们要利用到

你的假设空间得是完备的而且互斥

所以你才可以根据一个计算出用1减出这个概率

计算出另外一个值第二就是你的已知得癌症它的正的概率

是0.98 然后同样的类似的由于它的概率性质

所以就可以知道如果它是癌症

那么化验结果负的概率就是0.02

同样我们每一个值就都补充出来了补充完了之后你再去计算

他得了癌症的概率就等于0.98乘以P(cancer) 0.008

再除以P(+) P(+)这里没有写怎么算

这就是全概率的公式有点麻烦所以我这没写

等于P(有癌症,+)*P(有癌症)+P(没癌症,+)*P(没癌症)

所有可能情况加到一起的全概率公式

这么除出来会发现它的概率是0.21

但是这么做其实大家一般不这么做因为你想想看

如果有一个医生有一个病人去说我这个化验结果为正

我这个会不会得癌症那个医生想半天说你这个概率是0.21

就21%的可能性有癌症但其实这个对病人来说完全没有意义

假设这个为什么我们人工智能做的诊疗不是特别简单的事情

这个对病人没有什么意义而且你计算还挺麻烦

你要把这个全概率公式要展开其实病人想知道的就是有癌症

还是没癌症更有可能是哪一个你告诉我具体的数值

其实没有那么大的意义否则你说10%的概率我也会觉得会很担心

所以人们在很多情况下我们不想知道

不需要知道你假设后验值是多少

我们其实想知道的就是做一个对比

就是我们最有可能的假设是哪一个

就是我们已经观察到这个数据的话最有可能的假设是哪一个

这个就叫最大后验假设使得我的这个后验概率最大的那个假设

我们把它叫做最大后验假设也因此就是MAP

就是Maximum A Posteriori 就是最大后验假设

其实就是让我们后验概率最大的假设也就是让我们展开一下

贝叶斯展开一下它等于前面的这三项的和

好事实上你会看到因为我们是想要找那个假设对吧

其实分母上的P(D)对假设的比较没用因为它跟假设无关

所以我们其实你不需要去计算那个全概率的公式

使得这个式子最大的那个假设就是使得分子最大的假设

因为分母和假设无关这也是为什么我们刚才强调

你这个数据的观察你一定要和假设无关

所以我们把后面这一项在对比在选择的时候我们没有用

把它去掉忽略的话那么事实上这个贝叶斯公式

就展开了我们今天学到的第一个算法就是最大后验假设方法

还是刚才的这个例子更多的不说了这时我们计算就方便多了

那你就对比一下看一看H乘以

假设P(有癌症)*P(+|有癌症)和P(没癌症)*P(+|没癌症)

哪一个值最大最后你一计算

原来它还是没癌症这个计算出来的这个值更大一些

所以最有可能的假设还是没有得癌症这个就很简单

你就不用计算那么复杂的P(D)的那一项了

这是极大后验假设的这个方法

好这是我们第一个利用的贝叶斯公式

我们其实想要找的是让这个假设后验概率最大的那一个假设

最有可能假设是什么极大后验假设那么再接下来还有一些办法

还有进一步可以讨论的地方

我们人们经常说聪明的人都是会从过去中学习到经验

如果我们已经知道它的前面的H的话

就我们刚才已经把极大后验假设简化成了两项的成绩

去看哪个最大其中一个是假设本身的概率

还有一个是给定了这个假设出现的时候就数据出现的概率

在很多情况下假设本身的概率你是不知道的或者说在很多情况下

你可以认为这些假设和数据无关的时候

这个假设本身就是随机出现的它可能是均匀分布

因此这个时候我们P(h)这一项如果符合这样条件的话

那么P(h)这一项也可以忽略要么你是完全不知道假设怎么样

要么就是说你所有的假设它其实是等概率的就是它是随机出现

等概率的那么这个时候我们极大后验假设

就退化成了一个只和这一项有关只和这个似然度有关

已知这个假设我的数据出现的似然度所以我们把这个值

通常一般把它叫做似然度

所以这个时候我们极大后验假设就又退了一步

又退回到了极大似然假设

机器学习概论课程列表：

第一章绪论

-1.1 课程介绍

-1.2 机器学习的背景

-1.3 什么是机器学习

-1.4 机器学习系统设计

-第一章作业

第二章决策树学习（I）

-2.1 决策树的基本概念

-2.2 决策树的实例和发展历史

-2.3 经典决策树算法ID3

-2.4 过拟合和前剪枝

-第二章作业

第三章决策树学习（II）和贝叶斯学习

-3.1 下午茶时间：勒索软件

-3.2 后剪枝

-3.3 决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间：微博的垃圾检测

-4.2 马尔可夫模型

-4.3 隐马尔可夫模型

-4.4 评估问题

-4.5 解码问题

-4.6 隐马尔可夫模型的应用

-第四章作业

第五章假设检验

-5.1 下午茶时间：图灵奖

-5.2 假设评估

-5.3 置信度和置信区间

-5.4 有限数据下的比较

-第五章作业

第六章基于实例的学习

-6.1 下午茶时间：黑洞照片

-6.2 基于实例的学习的基本概念

-6.3 最近邻算法

-6.4 K邻近算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章支持向量机（I）

-7.1 支持向量机的背景

-7.2 线性支持向量机

-第七章作业

第八章支持向量机（II）和无监督学习

-8.1 核函数支持向量机

-8.4 支持向量机总结

-8.5 无监督学习简介

-8.6 层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

贝叶斯学习的背景在线视频

贝叶斯学习的背景课程教案、知识点、字幕

机器学习概论课程列表：

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习

贝叶斯学习的背景笔记与讨论

也许你还感兴趣的课程:

贝叶斯学习的背景在线视频

贝叶斯学习的背景课程教案、知识点、字幕

机器学习概论课程列表：

第一章 绪论

第二章 决策树学习（I）

第三章 决策树学习（II）和贝叶斯学习

第四章 马尔可夫模型和隐马尔可夫模型

第五章 假设检验

第六章 基于实例的学习

第七章 支持向量机（I）

第八章 支持向量机（II）和无监督学习

贝叶斯学习的背景笔记与讨论

也许你还感兴趣的课程:

第一章绪论

第二章决策树学习（I）

第三章决策树学习（II）和贝叶斯学习

第四章马尔可夫模型和隐马尔可夫模型

第五章假设检验

第六章基于实例的学习

第七章支持向量机（I）

第八章支持向量机（II）和无监督学习