当前课程知识点：数据挖掘 > 第7章分类 > 7.6 分类模型的评估 > 7.6 分类模型的评估（下）

返回《数据挖掘》慕课在线视频课程列表

7.6 分类模型的评估（下）在线视频

下一节:分类模型的评估

返回《数据挖掘》慕课在线视频列表

7.6 分类模型的评估（下）课程教案、知识点、字幕

交叉验证

是用来验证分类器性能的

一种统计分析方法

基本思想是

在某种意义下将原始数据进行分组

一部分做为训练集

另一部分做为验证集

首先用训练集对分类器进行训练

再利用验证集来测试训练得到的模型

以此来做为评价分类器的性能指标

交叉验证用于评估模型的预测性能

尤其是训练好的模型在新数据上的表现

可以在一定程度上减小过拟合

交叉验证还可以从

有限的数据中获取尽可能多的有效信息

常见交叉验证的方法有以下几种

① 留出法

将原始数据随机分为两组独立的数据集

一组做为训练集

一组做为验证集

通常2/3的数据分配到训练集

1/3的数据分配到验证集

利用训练集训练分类器

利用验证集验证模型

分类模型的准确率使用验证集估计

留出法处理简单

只需随机把原始数据分为两组即可

严格意义上讲

此方法不是交叉验证方法

因为这种方法没有达到交叉的思想

由于是随机的将原始数据分组

所以最后验证集分类准确率的高低

与原始数据的分组有很大的关系

② k折交叉验证

初始数据随机地划分成

k个互不相交的子集

或“折”Dˇ1，Dˇ2，...Dˇk

每个折的大小大致相等

训练和验证进行k次

在第i次迭代

分组D_1用做验证集

其余的分组一起用作训练模型

即

在第一次迭代

子集Dˇ2，...Dˇk

一起作为训练集

得到第一个模型

并在Dˇ1上验证

第二次迭代在子集

Dˇ1，Dˇ3，...Dˇk上训练

并在D_2上验证

如此下去迭代k次

得到k个模型

此方法中每个样本用于训练的次数相同

并且用于验证一次

对于分类

准确率估计是

k次迭代正确分类的元组总数

除以初始数据中的元组总数

即

k个分类模型验证集分类准确率的平均值

k一般大于等于2

实际操作时一般从3开始取

10折交叉验证最常用

当数据量小的时候

k可以设大一些

这样训练集占整体比例就比较大

同时训练的模型个数也增多

数据量大的时候

k可以设小一些

③ 留一法

留一法是k等于N

（N为样本总数）时的k折交叉验证

即每个样本单独作为验证集

其余的N-1个样本作为训练集

留一法得到N个模型

用这N个模型最终的验证集的

分类准确率的平均数

作为分类器的性能指标

此方法每次训练迭代时

几乎所有的样本都用于训练模型

因此最接近原始样本的分布

这样评估所得的结果比较可靠

但计算成本高

需要建立的模型数量

与原始数据样本数量相同

当原始数据样本数量相当多时

计算比较困难

3 自助法

在统计学中

自助法（或自助抽样法）

是一种从给定训练集中有放回的均匀抽样

也就是说

每当选中一个样本

它等可能地被再次选中

并被再次添加到训练集中

有多种自助方法

最常用的是632自助法

假设给定的数据集包含d个样本

该数据集有放回地抽样d次

产生d个样本的训练集

这样原数据样本中的某些样本

很可能在该样本集中出现多次

没有进入该训练集的样本最终形成验证集

显然每个样本被选中的概率是1/d

因此未被选中的概率就是(1-1/d)

这样一个样本在训练集中

没出现的概率就是d次都未被选中的概率

即 (1-1/d)^d

当d趋于无穷大时

这一概率趋近于

e^(-1)-1=0.368

所以留在训练集中的样本

大概就占原来数据集的63.2%

可以重复抽样过程k次

其中在每次迭代中

使用当前的验证集

得到从当前自助样本

得到的模型的准确率估计

模型的总体准确率估计如公式所示

是自助样本i得到的模型

用于验证集i的准确率

是自助样本i得到的模型用于原数据元组集的准确率

对于小数据集

自助法效果很好

数据挖掘课程列表：

第1章概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章作业1

-第1章作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论（研究生班级）

第2章数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章作业1

-第2章作业2

-关于属性类型的讨论

-关于数据属性的讨论（研究生班级）

第3章数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

-3.3 数据集成

--3.3 数据集成

-3.4 数据归约

--3.4 数据规约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章作业1

-第3章作业2

-关于建立数据集的讨论（研究生班级）

-关于数据预处理的讨论（研究生班级）

-关于建立数据集的讨论（本科生班级）

-关于数据预处理的讨论（本科生班级）

第4章数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章作业1

-第4章作业2

-关于数据仓库和数据预处理的讨论（本科生班级）

-关于数据仓库价值的讨论（本科生班级）

-关于数据库与数据仓库的讨论（研究生班级）

第5章回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章作业1

-第5章作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论（研究生班级）

-回归分析的优缺点（研究生班级）

第6章频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章作业1

-第6章作业2

-关于Apriori算法的讨论（本科生班级）

-关于Apriori算法的讨论（研究生班级）

第7章分类

-7.1 分类概述

--7.1 分类概述

-7.2 决策树

--7.2 决策树（上）

--7.2 决策树（中）

--7.2 决策树（下）

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络（上）

--7.5 神经网络（下）

-7.6 分类模型的评估

--7.6 分类模型的评估（上）

--7.6 分类模型的评估（下）

--分类模型的评估

-第7章第一部分作业2（研究生班级）

-第7章第二部分作业2

-第7章第二部分作业1

-关于分类算法的讨论（本科生班级）

-关于分类算法的讨论（研究生班级）

-关于神经网络的讨论（研究生班级）

第8章聚类

-8.1 聚类概述

--8.1 聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类（一）

--8.2 基于划分的聚类（二）

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章作业1

-第8章作业2

-关于基于划分和基于层次的聚类的讨论（本科生班级）

-关于聚类的讨论（本科生班级）

-关于聚类算法的讨论（研究生班级）

-关于聚类与数据挖掘的讨论（研究生班级）

第9章离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测（一）

--9.2 离群点检测（二）

--离群点检测

-第9章作业1

-第9章作业2

-关于离群点检测的讨论（研究生班级）

7.6 分类模型的评估（下）笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。