当前课程知识点:大数据管理与挖掘 > 第8章 分类方法 > 8.9 分类的评判 > 8.9 分类的评判
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
我们讲第九节的内容
分类的判别
我首先呢
给出一项4个定义
第一个就是我们的TP
它表示模型预测为(1)的情况
并且实际上呢
这也一种正确情况
也就意味着呢
分类 分组正确情况下的一些数值
第二个就是TN
指模型预测为负的情况
实际上呢
这也是预测错误情况
或者负的情况
实际上的一些结果
TN表示
分类模型预测结果为负的情况
或者说
分类的结果为错的情况下形成的数据
第三个就是FP
指模型预测为正的情况下
实际上呢
在这个过程当中观察结果呢
是我们错误情况下
得到的正确结果的结果
还有我们的FN
在这里面模型分类出错误的情况下
分类出错误数据的结果
这是四个基本的定义
我介绍到这里
然后呢
在这个基础上呢
我们通过这个分类规则
我们建立二类问题的混淆矩阵
这个矩阵呢
我们从右图可以看到
我们进行定义一项的评价指标
第一个就是我们的正确率
它是模型正确情况下
指模型能够正确预测
识别0和1对象数据
与我们的预测对象数据的比值
第二个就是我们的错误率
模型总体的错误率
它是指模型错误的预测
判别出0和1观察对象的数量
与数值之间的这种比值
第三个就是灵敏性
又称为击中率或真正率
模型正确识别为(1)的对象
占全部观察对象中
实际为正(1)的对象的数据的比值
第四个就是特效性
又称为真负率
模型正确识别为负的对象
占全部观察对象中
实际为负的对象数量的比值
第五个就是精度
模型的精度主要指
模型正确识别为正的对象
占模型识别为正对象中
所有数据的比值
第六个就是
错正率
又称为假正率
模型错误识别为正的
对数量占整个实际为负的对象中
所占的比值
第七个就是负元正确率
模型正确识别为负的对象数量
占模型识别为负的观察对象数据的比值
第八个正元错误率
模型错误识别为正的对象数量
占模型识别为正的观察对象
总数的比值
由此呢
我们通过以上的定义和我们的一些描述
来具体描述我们的一些相关的一些公式
在这里面
比方说我们的正确率
可以从如下的过程中可以看到
通过各个指标
我们来进行我们这个模型的选择和判断
接着我为大家介绍我们的ROC曲线
ROC曲线表示的什么呢
接收者操作特征曲线
在这个曲线上
每个点反映着对同一信号刺激的感受性
在我们的ROC曲线里面
横轴表示负正类率特异度
划分实例中所有负例所占有的负例的比例
而纵轴表示真正类率灵敏度
假设所有逻辑回归分类中
给出针对每个实例为正类的概率
那么通过假设一个阈值
比方说我们如下图所示的
给出一个阈值0.6
概率大于等于0.6的为正值
小于0.6的为负类
对应的就可以算出一组
我们在平面得到的对应坐标点
具体的整个ROC曲线的绘制
我们可以从右图可以看到
在这里面
假设已经得出一组
样本被划分为正类的概率
然后按照大小排序
比方说我们可以在这个图上面得到一个
在这里面
图中共有20个测试样本
Class这个类里面表示
每个测试样本真正的标签
比方说用p表示正样本
n表示负样本
Score表示每个测试样本
属于正样本的概率
接下来
我们从高到低
依次将Score这个值作为阈值的
当我们的测试样本属于
正样本的概率大于或等于这个阈值的时候
我们可以认为
它为正样本
否则我们认为它是一种负样本
我们在举个例子来说
对于我们上图中的第4个样本来讲
其我们的分数这个值为0.6
那么样本1 2 3 4都被认为是正样本
因为它们的Score值大于等于0.6
而其他样本值
我们则把它认为是负样本值
在这里面
每次选取一个不同的阈值
我们就可以得到一组
我们的FPR和TPR
即我们ROC曲线上的一个点
这样的话
我们一共可以得到20组
我们的FPR和TPR的这样的一种值
整个过程
我们可以从这个图上面可以看到
我们再举一个例子
分类在整个量化投资中
它是一种非常有用的一种信息
我们现在
以股票为例来进行验证和进行说明
在这里面
根据股票的涨跌状态
可以将整个股票分成三大类
涨
持平和跌
那么在选股的时候
目标是选择有涨潜力的股
而避免选择有跌风险的这种股
所以说
应更加关注涨和跌这两个类别的股票
假设如果能够选择股票
将他们分为涨和跌两个股票类
那么我们选择买入涨的股票
而卖出跌的这种股票
这将对股票投资都非常有利的
具体的整个过程
我们可以从上面这个分类样本
可以看得到
接着我给大家介绍
我们整个以决策树为股票分类的
整个实现过程
首先呢
我们进行数据的读入
在这个基础上呢
我们进行设置我们的交叉验证的方式
具体过程我们可以从右图可以看到
通过右图呢
我们进行采用决策树训练
对整个模式进行评估
整个的分类结果
我们可以从下表中可以看得到
这是我们
第九节的内容
分类的评判标准
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论