当前课程知识点:机器学习概论 > 第五章 假设检验 > 5.3 置信度和置信区间 > 置信度和置信区间(3)
服从正态分布可以用来干什么呢 可以用来做错误率估计呀
就是正好是我们现在要做的事情 我们要做的错误率估计
就是我们要做的错误率估计
我特别喜欢讲今天这堂 就是特别喜欢讲今天这堂课是因为
它虽然是理论课 大家听起来稍微比 比算法费劲一点
但是我们这堂课上能够把之前讲过的好多问题联系起来
以及大家很多你的实验上的感受你会联系起来
其中我们还能联系起来的一个东西叫做decision Tree的 over fitting
decision Tree的剪枝 我们在当时决策树的剪枝的时候跟大家说
你看我们的剪枝里面第二种方法 就是后剪枝里面我们有几种办法
其中一种办法是 是用那个错误率降低剪枝
或者是用规则后剪枝等等
其中有一个我们跳过去了 我们说有一种剪枝的办法是什么呢
我们是可以用 用它的那个错误率的
就是你的置信度的估计 用你的confidence level来去估计
怎么减呢 我们现在来看一看
当你知道什么是置信区间和置信度之后我们来估计一下
我们其实目的就是想看一看
还是对错误率做估计 然后只是在这种情况我们回顾一下
刚才给的回顾是说真实的错误率
它是落在了样本错误率加减z_N这个系数
乘以你的这个样本错误率代表的这个标准差的范围内的根号
它是近似等于这个
我们在做减枝的时候 我们其实就是想看一看
如果减了这个枝之后 你的错误率的上限是多少
就是想看剪了之后你的错误率的 它的置信区间是什么样的
然后我们对比一下剪和不剪的两棵树 看一看哪个错误率会更好
错误率的界限会更好一点 举个例子 举实际的例子
比如说这可能是我们目前为止生成的一棵决策树
好 大家简单的看一下 我有三个feature 然后其中有一个是health plan
我们看一看这个怎么剪啊 现在要判断要不要剪这个节点
怎么判断 首先关于这个node的来说
我们现在假设我们只需要75%的置信组
这个置信度是你事先约定的 你如果想要90%置信度也行
你查表这个系数不一样 75%置信度的时候 对应的那个系数是0.69
好 那么在这个置信度下面 你会看到当取了none这个分枝的时候
错误率是2/6 就是你这个少数派的这个错误率是2/6 你一共有6个样本
好 那么这个时候你就可以计算出来它的 就是你把那个等于
就是这个公式 我应该不需要把这个公式写在 再写一遍
大家再看一眼 再给大家看一下
error_s加减z_N乘以error_s 乘以1减errer_s的开根号的这个
它是这个范围 然后你看到我们刚才 以及看到在左分枝上是2/6
你就把2/6带进来 带到每一个errorS下
z_N呢是这个N是等于6 然后z_N呢是等于0.69
就是你的那个置信度是只要75%的时候 你这个ZN就是0.69
根据这个情况你就可以计算出 这个等于等于none的时候
你的错误率的上界是0.46
在这个第二个分枝的时候错误率的上界是0.74 然后第三个的时候呢
你的错误率的上界是0.46 我们一般说把它剪掉之后的错误率怎么样呢
我们是用weighted average 就是把它们的
根据它们的样本数 做一个加权 把这三个错误率加权相加一下
那我们会看到它的这个错误率的是0.5 错误率的上界是0.5
好 然后如果这个节点被剪掉了 剪掉的时候你就会发现
我现在一共是就剩下了这个是有9个正的5个负列被march
到了一个节点上 这个时候你的错误率就是5/14
然后你现在样本的个数是14 你估计出来的错误率的上限是0.44
你发现剪掉了之后错误率的上界减小了
所以呢 我们就可以把它剪掉
这个是一种pruning的方法 我们用的是这种估计
这个时候 因为大家注意到 这个样本数可不是说
不是你training的时候它走到这一步的样本数
是你的那个 当时的validation set 就是你的那个没用来构建数的
你用来做pruning 做验证的validation set的时候
你的data走到了这个分枝上的多少
然后根据这个结果你去决定我要不要去减这个枝
这种减枝的办法实际上被用在了C4.5里面
所以你看我们其实错误率的这种估 错误率的估计它很有用
它不只用来可以让你看那个算法怎么样
还可以用来帮助我们来提升之前算法的效果 如果更感兴趣的同学
我们这里给一个paper
就是2012年在ICDM这个是一个很重要的一个会议上的一篇paper
一篇论文 大家还可以再进行更深度的阅读
好 我们讨论完第一个问题了 接下来讨论第二个问题
就是如果有两个怎么办 那这个问题呢 就比较简单了
想想看 如果是你你会怎么做 借鉴一下我们之前的思路
两个假设的比较啊 我们是这样做的
我们就是想看这个假设之间的差异 什么是差异
我们看它们的差值 错误率的差 就是你有两个假设
一个是H1 看H2 你想知道在训练样例集上H1比H2好
在测试集上是不是H1还比H2好 A比B好
就是A的错误率减去B的错误率小于0
如果A比B差 就是它的错误率大于0
所以事实上你要估计的是真实的这两个
这两个假设它们的真实错误率的差别
那你能用什么估计呢 我们刚才说的更general的方法
我能用它们的样本的错误率的差值来估计
那这个时候 而且一定要注意你要是unbiased的差别
然后呢 我们接下来就要估计几个估计量
好 我们再次用到正态分布的好的性质
所以希望大家上完这堂课你也会觉得正态分布真是太好了
因为它给我们带来很多方便 这个性质是什么呢
如果这两个量本身是服从正态分布的
那么这两个量的线性叠加也服从正态分布
你的这个减法就是一个线性减法 它也服从正态分布
而且呢 它的这个均值就是D
然后它的方差是两个正态分布的方差之和 具体的证明
我在这里呢 给大家列了一个Wikipedia的一个网页
感兴趣的同学你可以去查一查 那事实上理论上讲大家在学
当时在学概率论的时候 学正态分布的时候应该证明过这件事情
所以这个是可证明的 两个正态分布的叠加仍然是正态分布
而且它们的均值和方差是确定的 那么也就意味着这个
我现在正态分布的叠加之后 它的方差是两个方差之和
那么标准差就是两个方差之和再开根号 标准差就是方差开根号嘛
好 所以你看 我的这个标准差也知道了 它还是正态分布
那我置信度和置信区间就可以出来了呀
因为它的均值我们刚才说到也是正态分布叠加的性质
它的均值就是它原来的这个 就是我们的均值就是这里的d
d head 所以两个假设之间比较谁 谁更好 这个问题也就迎刃而解了
因为用同样的一套方法和理论来做 我们利用到了正态分布的性质
举个例子 比如说我们 我们现在我们有100个
在100个测试样例上去测试的 然后呢 分别是100个测试样例
这两个集合的大小都刚好是100 然后呢 其中呢一个正式错误率0.3
另外一个正式错误率0.2 我们就想知道 有多大的可能性
不是 它们样本错误率分别0.3 0.2
我们想知道有多大的可能性真实错误率还是H1比H2的错误率大
那么这个时候怎么办 我们先 因为我想知道真实错误率A比B大
那我就看一下减 我们其实就是想让这个减是 是让它
让它减的是大于0 那这个时候我们已知的是它的样本错误率
就是我们拿来估计的量 样本错误率是0.1这个差值
A-B的差值是0.1 我们想知道A比B的真实错误率大呢
我们其实就想知道
相当于我知道我的真实的错误率就是这个D的差值大于0
那么就是A比B好 就是A-B>0 就是A比B的错误率大
所以就是A-B>0就行了
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业




