当前课程知识点:机器学习概论 > 第三章 决策树学习(II)和贝叶斯学习 > 3.4 贝叶斯学习的背景 > 贝叶斯学习的背景
其实这个问题医生其实不好回答
也从来不会有医生跟病人回答这样的问题
但医生怎么考虑这个问题 其实他事实上心里如果要做这个判断
通常是基于他过去的经历 什么样的经历
这个医生他过去看过的所有的肺癌患者里面有多少人
曾经得过肺炎 这个是他能够得到的数据
以及他能够积累的经验 所以其实我们有的时候
所谓贝叶斯学习 经常就是这种反过来思考问题的思路
有的时候我们当然不说它是一个因果关系
有的时候我们会说从A是否能够推出B 这个不好解决
我们反过来想想由B到A是什么样的关系
所以这个其实是我们贝叶斯学习的一个非常常用的一个思路
我们中文有一句话叫做执果溯因 你已经看到了结果
那我们去看看在这之前发生了什么或者有过什么数据
能够支持现在的这种现象 这个就是贝叶斯学习的最基本的东西
事实上我们今天接下来这堂课的所有的内容
都是围绕着这一个公式来的 所以大家把这一个公式
大家已经学过了 在大家数学课上
甚至有的同学可能在你们的高中阶段就已经学过
贝叶斯的这个理论 就是这样一个简单的公式
它一共就四个元素 这四个元素分别是什么
一个是给出的数据观察D 我这个假设成立的概率有多大
就是P(h|D) 就好像说一个人看到的
得到的数据观察是这个人已经得了肺炎
然后它的假设是说他现在应该是得了肺癌
得肺癌的这个假设成立的概率有多大 这是我们想知道
我们会把它叫做后验假设 后验假设就我们看到的这个数据
给定了这个观察到的数据 我们想知道这个假设成立的概率有多大
第二个需要给大家说是先验 关于这个假设先验的概率
刚才是关于假设后验概率 就你已经看到了这数据 如果你不知道
没看到这个数据 那么我们先验这个假设成立的概率有多大
在刚才的这个例子里面 甭管一个人有没有得肺炎
那么一个人得肺癌的概率有多大 就这个假设本身和这个数据无关
这个假设本身成立的概率有多大 就是叫假设的先验概率
那么P(D)是什么 是关于这个数据的它的先验概率
就是它和这个假设没关 它就是这个数据 然后给出假设之后
我们这个数据的概率 其实就是我们给定数据之后
这个假设的成立的概率 我们在这个问题上面
比如说如果有一个实验里面 比如说一个化验的结果
一个病人他的化验结果为正 那么他想知道他是不是得了某种癌症
假设这是我们想的问题 得了癌症这个是假设
化验结果是我们看到的数据 那么这个就是
如果我们已知化验数据为正 那么这个人有癌症 他的概率是多大
这是我们的后验 我们想知道的是这件事 但是它没办法直接知道
那怎么办 我们先看一看 如果一个人已经得了癌症了
他的化验结果是正的可能性有多少 这个概率有多少
以及随便的一个人 甭管是不是病人 甭管检测结果是什么
任何一个人他有癌症的概率有多大
以及任何一个人甭管他有没有得病 正常的还是健康的
男还是女没关系 任何一个他的测试做同样化验结果为正的概率有多少
所以基本上你只要把这四个概率的问题搞清楚
就是两个条件概率 两个独立的概率就和他们自己有关的概率
那么贝叶斯理论 其实我们事实上都知道
这个贝叶斯在数学上面更常用的贝叶斯的公式
其实是这样写的 就是X和Y的联合概率 其实它是等于其中
X和Y的联合概率
它其实可以你把Y当成条件 然后得到的条件概率
乘以它的条件概率 也可以是把其中的X拿出来 单独拎出来
观察到的X 独立的X 再看以X为条件它的概率
这是我们数学上更常用的表达 我们刚才看到这种方式
无非是说因为它们都是等于X、Y的联合概率 所以这两个相等
它俩相等 你把任何一项挪到了另外一个底下
就是我们现在看到的这种形式 这是我们这堂课主要要围绕的东西
接下来我们就看一看贝叶斯理论上面我们想知道的是
需要满足什么样的条件 首先你的这个假设
这个假设本身它们应该是互斥的 而且假设空间要是完备的
因为我们用的是概率相关的 所以概率你需要有些条件
假设本身互斥 比如说我们刚才如果说得癌症和不得癌症
那他只有这两种可能 要么得了 要么没得
而且这两个假设之间不能有交叉
还有这两个假设 加在一起它的概率之和应该为一
你这个应该已经覆盖所有的情况 这是我们
你可以用贝叶斯学习的其中的基础条件之一
假设本身要符合这样的要求 数据本身其实很重要一个要求
就是数据它必须和你的假设你取的时候 只单看这个P(D)的时候
数据本身必须和你的假设无关 也就是如果你要去做这个研究
你要看一个人的化验结果是正 还是负
你不能够去肿瘤医院去看化验结果
因为这样的数据它是有偏置的
因为肿瘤医院里面天然得癌症的人会更多一点
比一般的情况更多 所以你的数据不能单看那一个结果
你可能也不能够在 比如说在一个刚出生的小朋友的新生儿机构里面
去看这个化验结果 因为他可能天然的新生儿得癌症的可能性比较小
所以数据本身得到的结果 数据本身应该是和假设独立的
这点很重要 然后还有我们把这个 给定了已知这个假设成立
你这个数据观察到这个数据的概率 我们把它叫做似然度 叫做likelihood
然后我们经常会在似然度用的非常多
我们经常会有一种操作做log(likelihood)
这个我们未来会逐渐的接触到 就是利用到对数一些性质
我们一会儿会分析 逐渐会分析到
那么还要回到我们刚才的例子里面 假设这个问题是这样的
我们说到一个人的实验结果是正的 然后他到底有没有得癌症
我们想要理解 就是用数学化的方式描述 这个问题就是这样的
给出的条件是正 就是数据为正
得癌症的概率是多少 假设我们已经采集了这样的数据
就是Correct Positive比例是98%
也就是表示如果一个人有了癌症 那么他的化验结果为正
这个的概率是98% 那另外Correct Negative概率是说
如果一个人没有癌症 那他的这个化验结果为负的概率是97%
这个都是可以在采样出来的 还有在所有的人群中
在所有的人群里面
只有千分之八的人得了癌症 假设我们这里说的是某一种癌症
具体的 好 那么这个是我们已知的数据
如果我们已经有了这些数据 你可以看到它是可以采样得到的
假设这个医生已经有了这个经验 他就可以对这个病人
现在他有化验结果为正 到底是不是有癌症做出一个计算
这个计算就会发现P(cancer) H1就是0.008
那么对应的 H2就是0.992 这个就是我们要利用到
你的假设空间得是完备的 而且互斥
所以你才可以根据一个计算出用1减出这个概率
计算出另外一个值 第二就是你的已知得癌症它的正的概率
是0.98 然后同样的类似的由于它的概率性质
所以就可以知道如果它是癌症
那么化验结果负的概率就是0.02
同样我们每一个值就都补充出来了 补充完了之后你再去计算
他得了癌症的概率 就等于0.98乘以P(cancer) 0.008
再除以P(+) P(+)这里没有写怎么算
这就是全概率的公式 有点麻烦 所以我这没写
等于P(有癌症,+)*P(有癌症)+P(没癌症,+)*P(没癌症)
所有可能情况加到一起的全概率公式
这么除出来会发现它的概率是0.21
但是这么做其实大家一般不这么做 因为你想想看
如果有一个医生 有一个病人去说 我这个化验结果为正
我这个会不会得癌症 那个医生想半天说你这个概率是0.21
就21%的可能性有癌症 但其实这个对病人来说完全没有意义
假设这个为什么我们人工智能做的诊疗 不是特别简单的事情
这个对病人没有什么意义 而且你计算还挺麻烦
你要把这个全概率公式要展开 其实病人想知道的就是有癌症
还是没癌症 更有可能是哪一个 你告诉我具体的数值
其实没有那么大的意义 否则你说10%的概率 我也会觉得会很担心
所以人们在很多情况下 我们不想知道
不需要知道你假设后验值是多少
我们其实想知道的就是做一个对比
就是我们最有可能的假设是哪一个
就是我们已经观察到这个数据的话 最有可能的假设是哪一个
这个就叫最大后验假设 使得我的这个后验概率最大的那个假设
我们把它叫做最大后验假设 也因此就是MAP
就是Maximum A Posteriori 就是最大后验假设
其实就是让我们后验概率最大的假设 也就是让我们展开一下
贝叶斯展开一下它等于前面的这三项的和
好 事实上你会看到 因为我们是想要找那个假设 对吧
其实分母上的P(D)对假设的比较没用 因为它跟假设无关
所以我们其实你不需要去计算那个全概率的公式
使得这个式子最大的那个假设 就是使得分子最大的假设
因为分母和假设无关 这也是为什么我们刚才强调
你这个数据的观察 你一定要和假设无关
所以我们把后面这一项在对比 在选择的时候 我们没有用
把它去掉 忽略的话 那么事实上这个贝叶斯公式
就展开了我们今天学到的第一个算法 就是最大后验假设方法
还是刚才的这个例子 更多的不说了 这时我们计算就方便多了
那你就对比一下 看一看H乘以
假设P(有癌症)*P(+|有癌症)和P(没癌症)*P(+|没癌症)
哪一个值最大 最后你一计算
原来它还是没癌症这个计算出来的这个值更大一些
所以最有可能的假设还是没有得癌症 这个就很简单
你就不用计算那么复杂的P(D)的那一项了
这是极大后验假设的这个方法
好 这是我们第一个利用的贝叶斯公式
我们其实想要找的是让这个假设后验概率最大的那一个假设
最有可能假设是什么 极大后验假设 那么再接下来还有一些办法
还有进一步可以讨论的地方
我们人们经常说聪明的人都是会从过去中学习到经验
如果我们已经知道它的前面的H的话
就我们刚才已经把极大后验假设简化成了两项的成绩
去看哪个最大 其中一个是假设本身的概率
还有一个是给定了这个假设出现的时候 就数据出现的概率
在很多情况下 假设本身的概率你是不知道的 或者说在很多情况下
你可以认为这些假设和数据无关的时候
这个假设本身就是随机出现的 它可能是均匀分布
因此这个时候我们P(h)这一项 如果符合这样条件的话
那么P(h)这一项也可以忽略 要么你是完全不知道假设怎么样
要么就是说你所有的假设 它其实是等概率的就是它是随机出现
等概率的 那么这个时候我们极大后验假设
就退化成了一个只和这一项有关 只和这个似然度有关
已知这个假设我的数据出现的似然度 所以我们把这个值
通常一般把它叫做似然度
所以这个时候我们极大后验假设就又退了一步
又退回到了极大似然假设
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业