当前课程知识点:数据挖掘 > 第7章 分类 > 7.6 分类模型的评估 > 7.6 分类模型的评估(下)
交叉验证
是用来验证分类器性能的
一种统计分析方法
基本思想是
在某种意义下将原始数据进行分组
一部分做为训练集
另一部分做为验证集
首先用训练集对分类器进行训练
再利用验证集来测试训练得到的模型
以此来做为评价分类器的性能指标
交叉验证用于评估模型的预测性能
尤其是训练好的模型在新数据上的表现
可以在一定程度上减小过拟合
交叉验证还可以从
有限的数据中获取尽可能多的有效信息
常见交叉验证的方法有以下几种
① 留出法
将原始数据随机分为两组独立的数据集
一组做为训练集
一组做为验证集
通常2/3的数据分配到训练集
1/3的数据分配到验证集
利用训练集训练分类器
利用验证集验证模型
分类模型的准确率使用验证集估计
留出法处理简单
只需随机把原始数据分为两组即可
严格意义上讲
此方法不是交叉验证方法
因为这种方法没有达到交叉的思想
由于是随机的将原始数据分组
所以最后验证集分类准确率的高低
与原始数据的分组有很大的关系
② k折交叉验证
初始数据随机地划分成
k个互不相交的子集
或“折”Dˇ1,Dˇ2,...Dˇk
每个折的大小大致相等
训练和验证进行k次
在第i次迭代
分组D_1用做验证集
其余的分组一起用作训练模型
即
在第一次迭代
子集Dˇ2,...Dˇk
一起作为训练集
得到第一个模型
并在Dˇ1上验证
第二次迭代在子集
Dˇ1,Dˇ3,...Dˇk上训练
并在D_2上验证
如此下去迭代k次
得到k个模型
此方法中每个样本用于训练的次数相同
并且用于验证一次
对于分类
准确率估计是
k次迭代正确分类的元组总数
除以初始数据中的元组总数
即
k个分类模型验证集分类准确率的平均值
k一般大于等于2
实际操作时一般从3开始取
10折交叉验证最常用
当数据量小的时候
k可以设大一些
这样训练集占整体比例就比较大
同时训练的模型个数也增多
数据量大的时候
k可以设小一些
③ 留一法
留一法是k等于N
(N为样本总数)时的k折交叉验证
即每个样本单独作为验证集
其余的N-1个样本作为训练集
留一法得到N个模型
用这N个模型最终的验证集的
分类准确率的平均数
作为分类器的性能指标
此方法每次训练迭代时
几乎所有的样本都用于训练模型
因此最接近原始样本的分布
这样评估所得的结果比较可靠
但计算成本高
需要建立的模型数量
与原始数据样本数量相同
当原始数据样本数量相当多时
计算比较困难
3 自助法
在统计学中
自助法(或自助抽样法)
是一种从给定训练集中有放回的均匀抽样
也就是说
每当选中一个样本
它等可能地被再次选中
并被再次添加到训练集中
有多种自助方法
最常用的是632自助法
假设给定的数据集包含d个样本
该数据集有放回地抽样d次
产生d个样本的训练集
这样原数据样本中的某些样本
很可能在该样本集中出现多次
没有进入该训练集的样本最终形成验证集
显然每个样本被选中的概率是1/d
因此未被选中的概率就是(1-1/d)
这样一个样本在训练集中
没出现的概率就是d次都未被选中的概率
即 (1-1/d)^d
当d趋于无穷大时
这一概率趋近于
e^(-1)-1=0.368
所以留在训练集中的样本
大概就占原来数据集的63.2%
可以重复抽样过程k次
其中在每次迭代中
使用当前的验证集
得到从当前自助样本
得到的模型的准确率估计
模型的总体准确率估计如公式所示
是自助样本i得到的模型
用于验证集i的准确率
是自助样本i得到的模型用于原数据元组集的准确率
对于小数据集
自助法效果很好
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2