当前课程知识点：大数据管理与挖掘 > 第8章分类方法 > 8.9 分类的评判 > 8.9 分类的评判

返回《大数据管理与挖掘》慕课在线视频课程列表

8.9 分类的评判在线视频

下一节:8.10 小结

返回《大数据管理与挖掘》慕课在线视频列表

8.9 分类的评判课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们讲第九节的内容

分类的判别

我首先呢

给出一项4个定义

第一个就是我们的TP

它表示模型预测为（1）的情况

并且实际上呢

这也一种正确情况

也就意味着呢

分类分组正确情况下的一些数值

第二个就是TN

指模型预测为负的情况

实际上呢

这也是预测错误情况

或者负的情况

实际上的一些结果

TN表示

分类模型预测结果为负的情况

或者说

分类的结果为错的情况下形成的数据

第三个就是FP

指模型预测为正的情况下

实际上呢

在这个过程当中观察结果呢

是我们错误情况下

得到的正确结果的结果

还有我们的FN

在这里面模型分类出错误的情况下

分类出错误数据的结果

这是四个基本的定义

我介绍到这里

然后呢

在这个基础上呢

我们通过这个分类规则

我们建立二类问题的混淆矩阵

这个矩阵呢

我们从右图可以看到

我们进行定义一项的评价指标

第一个就是我们的正确率

它是模型正确情况下

指模型能够正确预测

识别0和1对象数据

与我们的预测对象数据的比值

第二个就是我们的错误率

模型总体的错误率

它是指模型错误的预测

判别出0和1观察对象的数量

与数值之间的这种比值

第三个就是灵敏性

又称为击中率或真正率

模型正确识别为（1）的对象

占全部观察对象中

实际为正（1）的对象的数据的比值

第四个就是特效性

又称为真负率

模型正确识别为负的对象

占全部观察对象中

实际为负的对象数量的比值

第五个就是精度

模型的精度主要指

模型正确识别为正的对象

占模型识别为正对象中

所有数据的比值

第六个就是

错正率

又称为假正率

模型错误识别为正的

对数量占整个实际为负的对象中

所占的比值

第七个就是负元正确率

模型正确识别为负的对象数量

占模型识别为负的观察对象数据的比值

第八个正元错误率

模型错误识别为正的对象数量

占模型识别为正的观察对象

总数的比值

由此呢

我们通过以上的定义和我们的一些描述

来具体描述我们的一些相关的一些公式

在这里面

比方说我们的正确率

可以从如下的过程中可以看到

通过各个指标

我们来进行我们这个模型的选择和判断

接着我为大家介绍我们的ROC曲线

ROC曲线表示的什么呢

接收者操作特征曲线

在这个曲线上

每个点反映着对同一信号刺激的感受性

在我们的ROC曲线里面

横轴表示负正类率特异度

划分实例中所有负例所占有的负例的比例

而纵轴表示真正类率灵敏度

假设所有逻辑回归分类中

给出针对每个实例为正类的概率

那么通过假设一个阈值

比方说我们如下图所示的

给出一个阈值0.6

概率大于等于0.6的为正值

小于0.6的为负类

对应的就可以算出一组

我们在平面得到的对应坐标点

具体的整个ROC曲线的绘制

我们可以从右图可以看到

在这里面

假设已经得出一组

样本被划分为正类的概率

然后按照大小排序

比方说我们可以在这个图上面得到一个

在这里面

图中共有20个测试样本

Class这个类里面表示

每个测试样本真正的标签

比方说用p表示正样本

n表示负样本

Score表示每个测试样本

属于正样本的概率

接下来

我们从高到低

依次将Score这个值作为阈值的

当我们的测试样本属于

正样本的概率大于或等于这个阈值的时候

我们可以认为

它为正样本

否则我们认为它是一种负样本

我们在举个例子来说

对于我们上图中的第4个样本来讲

其我们的分数这个值为0.6

那么样本1 2 3 4都被认为是正样本

因为它们的Score值大于等于0.6

而其他样本值

我们则把它认为是负样本值

在这里面

每次选取一个不同的阈值

我们就可以得到一组

我们的FPR和TPR

即我们ROC曲线上的一个点

这样的话

我们一共可以得到20组

我们的FPR和TPR的这样的一种值

整个过程

我们可以从这个图上面可以看到

我们再举一个例子

分类在整个量化投资中

它是一种非常有用的一种信息

我们现在

以股票为例来进行验证和进行说明

在这里面

根据股票的涨跌状态

可以将整个股票分成三大类

涨

持平和跌

那么在选股的时候

目标是选择有涨潜力的股

而避免选择有跌风险的这种股

所以说

应更加关注涨和跌这两个类别的股票

假设如果能够选择股票

将他们分为涨和跌两个股票类

那么我们选择买入涨的股票

而卖出跌的这种股票

这将对股票投资都非常有利的

具体的整个过程

我们可以从上面这个分类样本

可以看得到

接着我给大家介绍

我们整个以决策树为股票分类的

整个实现过程

首先呢

我们进行数据的读入

在这个基础上呢

我们进行设置我们的交叉验证的方式

具体过程我们可以从右图可以看到

通过右图呢

我们进行采用决策树训练

对整个模式进行评估

整个的分类结果

我们可以从下表中可以看得到

这是我们

第九节的内容

分类的评判标准

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

8.9 分类的评判笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。