当前课程知识点:数据挖掘 >  第7章 分类 >  7.6 分类模型的评估 >  7.6 分类模型的评估(下)

返回《数据挖掘》慕课在线视频课程列表

7.6 分类模型的评估(下)在线视频

下一节:分类模型的评估

返回《数据挖掘》慕课在线视频列表

7.6 分类模型的评估(下)课程教案、知识点、字幕

交叉验证

是用来验证分类器性能的

一种统计分析方法

基本思想是

在某种意义下将原始数据进行分组

一部分做为训练集

另一部分做为验证集

首先用训练集对分类器进行训练

再利用验证集来测试训练得到的模型

以此来做为评价分类器的性能指标

交叉验证用于评估模型的预测性能

尤其是训练好的模型在新数据上的表现

可以在一定程度上减小过拟合

交叉验证还可以从

有限的数据中获取尽可能多的有效信息

常见交叉验证的方法有以下几种

① 留出法

将原始数据随机分为两组独立的数据集

一组做为训练集

一组做为验证集

通常2/3的数据分配到训练集

1/3的数据分配到验证集

利用训练集训练分类器

利用验证集验证模型

分类模型的准确率使用验证集估计

留出法处理简单

只需随机把原始数据分为两组即可

严格意义上讲

此方法不是交叉验证方法

因为这种方法没有达到交叉的思想

由于是随机的将原始数据分组

所以最后验证集分类准确率的高低

与原始数据的分组有很大的关系

② k折交叉验证

初始数据随机地划分成

k个互不相交的子集

或“折”Dˇ1,Dˇ2,...Dˇk

每个折的大小大致相等

训练和验证进行k次

在第i次迭代

分组D_1用做验证集

其余的分组一起用作训练模型

在第一次迭代

子集Dˇ2,...Dˇk

一起作为训练集

得到第一个模型

并在Dˇ1上验证

第二次迭代在子集

Dˇ1,Dˇ3,...Dˇk上训练

并在D_2上验证

如此下去迭代k次

得到k个模型

此方法中每个样本用于训练的次数相同

并且用于验证一次

对于分类

准确率估计是

k次迭代正确分类的元组总数

除以初始数据中的元组总数

k个分类模型验证集分类准确率的平均值

k一般大于等于2

实际操作时一般从3开始取

10折交叉验证最常用

当数据量小的时候

k可以设大一些

这样训练集占整体比例就比较大

同时训练的模型个数也增多

数据量大的时候

k可以设小一些

③ 留一法

留一法是k等于N

(N为样本总数)时的k折交叉验证

即每个样本单独作为验证集

其余的N-1个样本作为训练集

留一法得到N个模型

用这N个模型最终的验证集的

分类准确率的平均数

作为分类器的性能指标

此方法每次训练迭代时

几乎所有的样本都用于训练模型

因此最接近原始样本的分布

这样评估所得的结果比较可靠

但计算成本高

需要建立的模型数量

与原始数据样本数量相同

当原始数据样本数量相当多时

计算比较困难

3 自助法

在统计学中

自助法(或自助抽样法)

是一种从给定训练集中有放回的均匀抽样

也就是说

每当选中一个样本

它等可能地被再次选中

并被再次添加到训练集中

有多种自助方法

最常用的是632自助法

假设给定的数据集包含d个样本

该数据集有放回地抽样d次

产生d个样本的训练集

这样原数据样本中的某些样本

很可能在该样本集中出现多次

没有进入该训练集的样本最终形成验证集

显然每个样本被选中的概率是1/d

因此未被选中的概率就是(1-1/d)

这样一个样本在训练集中

没出现的概率就是d次都未被选中的概率

即 (1-1/d)^d

当d趋于无穷大时

这一概率趋近于

e^(-1)-1=0.368

所以留在训练集中的样本

大概就占原来数据集的63.2%

可以重复抽样过程k次

其中在每次迭代中

使用当前的验证集

得到从当前自助样本

得到的模型的准确率估计

模型的总体准确率估计如公式所示

是自助样本i得到的模型

用于验证集i的准确率

是自助样本i得到的模型用于原数据元组集的准确率

对于小数据集

自助法效果很好

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

7.6 分类模型的评估(下)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。