当前课程知识点:机器学习概论 > 第五章 假设检验 > 5.4 有限数据下的比较 > 有限数据下的比较
就这个东西 Given D加上0.1 我们接下来怎么做呢
我们把这个等式两边都加上一个0.1
那么这个就左边就是D加上0.1>behind
就是大于我们的样本错误率的差值0.1
这一步是一个很简单的一个变换
好 那么这个东西呢 你看这个东西看起来跟我们看到的μ加减z_N×σ
大家不知道有没有在这堂课上 你能把它联系上来了 它是一个上界
好 我们来看一下 所以其实我们事实上我们知道这个d head
它的上界是小于μ+0.1的 因为我们这个
这个正态分布的这个D就等于 等于μ 它的期望值是μ
好 那现在μ+0.1 这个就有意思了 你看啊 我们从这个μ
d<μ+0.1能让我们联想起来 d其实是<μ加减Z_N×σ
所以现在σ标准差我能算呀
σ的标准差 比如说我们刚才的这个数值出来 这个标准差呢
它是等于两个方差之和再开根号
你把这两个的错误率和n代进来就会发现标准差是0.061
你看我们既然d小于μ μ也是知道的对吗
μ+0.1 那我们d就<μ加上你的标准差是0.061
标准差乘以Z_N等于 等于这个 就是等于0.1
所以你的Z_N就是1.64喽 1.64是什么呀 我们提了好几遍
1.64可能大家逐渐熟悉 它是90%的双边的置信度
90%的双边置信度相当于95%的单边置信度
所以现在我们这个问题可以回答了 就在真实的情况下
你呢 事实上在这样的设置下 样本错误率分别是0.3和0.2
而且各在100个上面去测试的 那么真实情况下
你的A的错误率还比B大的概率是 置信度是95%
这个的计算我们利用到了两个正态分布的叠加还是正态分布
所以我们看的是它的错误率的差值 然后把它就是把它
我们做的所有的事情都是把这个形式 把它描述成d<μ加上
就是加减 我们只看上限加上Z_N×σ这个形式 然后σ是计算出来的
已经知道了的 然后μ呢 我们也是知道的 就是μ其实没那么大关系
σ知道的 然后我的Z_N×σ是你的差值也知道
你只要求出来Z_N就可以了 然后查表就可以知道了
就是你知道了那个置信区间的系数 你就可以知道它的置信度
刚才我们说N=100 如果你的测试样例集是30的话
那么这个时候你的标准差会更大 标准差变成了0.111
这个标准差乘以一个系数等于我们这个差值0.1
那么这个系数就会更小 只有0.9 系数0.9 就是区间更窄
区间更窄呢 0.9相当于双边的68%的置信度
也就等于单边的84%的置信度 当你的训练
当你的测试样例集太小的时候 你这个估计的置信度就也会小
如果从100减成了30 你现在两个测试
然后那你的置信度在同样的错误率条件下
就置信度从95%变成了84% 所以 我们要有足够多的训练样例
最后我们来回答一下第三个问题 第三个问题是说
如果数据很有限怎么办 这个问题我们不用花很多时间
因为其实我们在做实验时候已经交给你们了
很有限怎么办呢 我们有一种做法就是把它分出来
就是我们把这个数据集呀 我们本来想做的是在两个不同的集合
A和B上测试 但是现在呢 我们其实能够做的就是用一个holdout
就是我们 我们在同样的一个 抽出来同样的一个数据集
就是测试集来去 而不是在random的随便的那个数据集上去做
我们在同样的sample的集合里面去分出来一个test set
然后这个 而且这个test set一定是(再次重复)不能是训练过的集合
好 那么其中还有一个做法 特别重要的是如果你比较两个方法的时候
是用的完全一样的数据集 完全一样的测试集
那么这个时候你算法得到的那个置信的区间就会更窄
置信区间窄就是你估计的更准一点 就是你的置信区 我们举一个例子
这是一个特别常用的做法 叫做K—fold cross validation
这个大家其实在实验里面已经用了对吗
因为我们上节课已经在教给大家这个理论之前 先让大家用一用
什么是K—fold cross validation呢 就是我把样例
我把这个集合平均的分成了K份 每次拿一份去测试
拿剩下的其他份来训练 每次拿一份去训练 然后这个时候呢
你会发现这个时候你的N次实验 每次的测试不独立了 不独立了
因为你在每次测试的时候 你的那个model啊
它是相关的 那个model相关 是因为你会有K减2份的训练集是重叠的
虽然测试集独立 但是你的训练集重叠
训练集重叠就意味着你的那个模型H本身是重叠的
然后呢 这个时候呢我们每次 好 用一份来去测试
然后用其他份来去训练 重复多次就得到了一个平均的测试的那个精度
这是平均值
好 这个时候呢 我们会发现它 你的这个不能再用正态分布的Z_N
因为不符合独立同分布了 那么这种情况下呢
我们会告诉大家有一个问题是 有一个分布是T分布
它呢有类似的性质 T分布呢
可以写成你的这个均值加减T系数和S这个标准差 标准差呢
你会看到跟刚才的那个标准差很像
但是前面乘以了一个K乘以K减1分之一的系数
这个我们把它叫做自由度 就是我们把这个K
就是我们的K份把它叫做自由度
所以呢你还是能够计算出它的标准差来 然后呢会有T分布的一个系数
然后 所以这个时候呢 我们就可以 它就有了一个更紧的置信度
什么是更紧的置信度 就是你原来估计那个 那个小女孩年龄
年龄是3岁到60岁 你现在呢 可以把她估计成16到18岁
这个就是置信区间就更紧了 一个更紧的置信区间表示你的
你的估计更准确 为什么在这种T分布下估计更准确呢
因为这个时候你是用同样的一份数据来去对比两个结果
两个实验结果 同样的一个数据 就是我们的pair t—test
pair T—test的意思就是如果你一个实验是 是这样做的
Kfold 如果我现在让你比较两棵决策树 或者两个模型的好坏
你每次是有同样的测试集去比较得到一个结果
再用同样的测试集去比较 又得到第二个结果
这个时候你做的就是pair 的t—test 而不是对第二个方法重新采样
重新分了K份的话 你如果是用完全一样的数据去测试的时候
这个时候两个算法之间的差异完全取决于这两个算法本身的差异
而不是数据带来的差异 这个是pair的t—test
如果两个算法它在同一个 那个集合上 测试集上去比较的时候
那么这个时候你是一个pair t—test 然后可以用这个T分布来去估计
好 那么这个就是我们今天讲过的所有的内容
这个呢 事实上我们简单回顾一下
我们首先估计了假设的精度 这个假设精度我们利用了
我们发现精度估计 假设的精度估计是一个伯努利实验
可以用二项分布来刻画 当你的N足够大的时候
它可以近似成一个正态分布
然后我们就用正态分布的置信度和置信区间去估计
这是最最重要的 第二个是 对比两个方法 对比两个实验的时候
如果你都random去取 你就可以用 用那个
利用正态分布的叠加还是正态分布
以及中心极限定理的平均的效果我们还可以进行两个实验
两个方法的模型的对比 如果你数据很有限 你就这么多数据
没办法random的分成两份 然后给两个实验 分别去做
我们可以做K—fold cross validation 然后这个时候呢
我们如果做pair t—test的时候 我们它得到了一个更紧的这个置信区间
而且用K—fold cross validation的时候 它是服从一个T分布的
这是我们今天的所有的信息 感兴趣的同学可以再看这些reference
以及如果对正态分布感兴趣的同学
我推荐这两个科普类的文章非常很有趣 说的挺清楚的
叫正态分布的前世今生 那个链接在这里
今天会留一个Homework 第一个Homework是 这个题是说
你希望它的区间是这么多 那么有多少样例才足够
提示大家你还是用这个公式 万变不离其宗 还是用那个
还是用这个错误率估计的公式去做就行了 第二个是
你要分析一下你自己的实验结果 因为我们的实验结果让你
让大家做过5%的训练集 和50%的训练集你分别有一个精度
请你对比在这两个训练集合下 你的方法的错误率的估计
用我们今天介绍的方法 因为你的测试集
我不确定每个同学的测试集是否一样的 然后去看一看
你到底A和B相比哪一个更好 而且有多大的置信度
这个大家学以致用一下
就能够用我们今天的东西把以前讲的东西都连接到一起了
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业


