7.1 分类概述慕课视频播放-数据挖掘-MOOC慕课视频教程-柠檬大学

在进行数据分析和数据挖掘的过程中

有时候需要对数据的类别进行预测

预测类别的方法有很多

本章重点介绍

基于监督学习模型的分类预测方法

简称分类模型

使用分类模型可以实现

很多数据预测的功能

其在现实生活中有广泛的应用

例如可以进行银行信用卡诈骗的预测

天气预报的预测医疗诊断预测等

本章从分类的基本概念开始

介绍基本的分类算法和模型

探讨算法的过程和流程

通过对决策树朴素贝叶斯

神经网络等基础算法的介绍

描述各类分类算法的基本原理

分类分析主要有学习和分类两个阶段

利用数据进行模型参数的

调节过程称为训练

也称为学习

训练的结果是产生一个分类器

或者分类模型

学习阶段即建立一个分类模型

描述预定数据类或概念集

假定每个元组属于一个预定义的类

由一个类标号属性确定

训练数据集是由为建立模型

而被分析的数据元组组成

学习模型可以由分类规则

判定树或数学公式的形式提供

分类阶段即使用分类模型

对将来的或未知的对象进行分类

首先评估模型的预测准确率

对每个测试样本

将已知的类标号

和该样本的学习模型类预测比较

模型在给定测试集上的准确率

是正确被模型分类的测试样本的百分比

测试集要独立于训练样本集

避免“过分拟合”情况

如果准确率可以接受

那么使用该模型来分类标签为未知的样本

分类中涉及的数据集有训练数据集

测试数据集及需要预测的数据集

分类学习之前

将一个已知类别标签的数据样本集

随机地划分为训练集（通常占2/3）

和测试集两部分

训练集是用于模型构建的元组集

测试集是用来评估模型准确率的元组集

两个集合的样本都是有类标号的

预测数据集是没有类别标签的

待预测的元组集

分类是预测类对象的

分类标号（或离散值）

根据训练数据集和类标号属性

构建模型来分类现有数据

并用来分类新数据

预测是建立连续函数值模型评估

无标号样本类

或评估给定样本可能具有的

属性值或值区间

即用来估计连续值或量化属性值

比如预测空缺值

例如

银行业务中

根据贷款申请者信息判断

贷款者是“安全”类还是“风险”类的

这是分类任务

而分析给贷款申请者贷款量的多少

对于银行是“安全”的

就是预测任务

分类和预测的共同点

是两者都需要构建模型

都用模型来估计未知值

预测中主要的估计方法是回归分析

分类算法大多是基于统计学

概率论以及信息论的

下面首先介绍分类算法中

涉及到的相关知识

1. 信息熵

信息是很抽象的概念

信息可以用“很多”、或者“较少”来表达

但却很难说清楚信息到底有多少

直到1948年

香农提出了“信息熵”的概念

才解决了对信息的量化度量问题

信息熵用来衡量事件的不确定性的大小

其定义如公式所示

其中 x表示事件

p(x)是事件发生的概率

信息熵的计算公式表明

随机量的不确定性越大

熵也就越大

信息熵是随机变量不确定性的度量

常用信息熵的单位是比特

信息熵具有可加性

即多个期望信息

如公式所示

公式中 X代表多个事件

xˇi表示第i个事件

m是事件数

2. 信息增益

信息增益表示某一特征的信息

对类标签的不确定性减少的程度

集合D表示全体数据

信息增益定义为数据集合D的信息熵

与在特征A给定条件下

数据集合D的信息熵之差

如公式所示

其中Infor(D|A)是在

特征A给定条件下

对数据集合D进行划分所需要的期望信息

它的值越小表示分区的纯度越高

计算公式如式所示

其中n是数据分区数

|Dˇj|表示第j个数据分区的长度

(|Dˇj|)/(|D|)

表示第j个数据分区的权重

信息增益的计算

表中是带有标记类的训练集D

训练集的列是一些特征

表中最后一列的类标号为是否提供贷款

有两个不同的取值

计算按照每个特征进行划分的信息增益

① 从表中可知

数据按类标号分为两类

有9人获得贷款

另外6人没有获得贷款

获得贷款的概率为9/15

没有获得贷款的概率为6/15

根据信息熵计算公式计算信息熵

② 计算按照每个特征

进行划分的期望信息

A代表特征“学历”

B代表特征“婚否”

C代表特征“是否有车”

E代表特征“收入水平”

对于特征“学历”

其取值有三种

“专科”5人 “本科“5人 “研究生”5人

即将数据集分为三个分区

在“专科”的数据分区中有2人获得贷款

3人未获贷款

在“本科”的数据分区中有3人获得贷款

2人未获贷款

在“研究生”的数据分区中

有4人获得贷款

1人未获贷款

根据公式计算特征

“学历”划分数据区后的信息熵

相同方法计算特征“婚否”

“是否有车”

“收入水平”划分数据区后

得到的信息熵为

③ 计算信息增益

根据公式计算的四个特征

划分数据区后的信息增益分别为

g(D│A)=Infor(D)-Infor(D|A)=0.083

g(D│B)=Infor(D)-Infor(D|B)=0.304

g(D│C)=Infor(D)-Infor(D|C)=0.019

g(D│E)=Infor(D)-Infor(D|E)=0.363

通过计算可以得到不同特征的信息增益

其中“B” “E”的信息增益较大

“A” “C”的信息增益较小

信息增益越大

表明该特征越重要

在一些分类算法中

可以根据信息增益的大小

选择最合适的特征

3. 信息增益率

按特征选择的过程中

会涉及到特征的划分

以信息增益作为指标会有一定的不足

最大信息增益会偏向于特征值较多的特征

如果某一个特征的值和记录数量一样多

例如十个记录

身高特征的值都不相同

进行特征选择的时候这个特征就会被选到

这时可以使用信息增益率

进行特征的划分或纠正

信息增益率是指按照某一特征A

进行划分的信息增益与数据集合D

关于这个特征的信息熵的比值

如下所示

用来衡量属性分裂数据的广度和均匀

例信息增益率的计算

基于前例的数据

计算按照每个特征

进行划分的信息增益率

解

① 根据上例计算出的

按照每个特征划分的信息增益

A代表特征“学历”

B代表特征“婚否”

C代表特征“是否有车”

E代表特征“收入水平”

② 按照前述公式计算信息增益率

基尼指数

基尼指数是用来度量

数据分区或者训练数据不纯度的

数据分区是指为了将整体数据

按照一定准则分开把数据分成不同的区间

如果对于所有分区

在同一分区的所有元组都属于相同的类

则这个划分是纯的

基尼指数定义为

其中pˇi是数据集合D中

任何一个记录属于Cˇi类的概率

可通过|Cˇ iD)|)/(|D|) 进行计算

|CˇiD)|是D中

属于Cˇi类的集合的记录个数

|D|是所有记录的个数

如果所有的记录都属于同一个类

则pˇi=1

m是分区数量

基尼指数考虑的是二元化

即将某一特征中的数值分为两个子集

然后进行划分

如果按照特征A作为数据的二元划分准则

将D分成Dˇ1和Dˇ2

则D的基尼指数为

对于属性A的二元划分导致的不纯度降低为

∆Gini(A)=Gini(D)-GiniˇA (D)

基尼指数偏向于产生具有较多值的属性

而且当类的数量很大的时候会有困难

且偏向于导致相等大小的分区和纯度

例计算属性的不纯度降低值

根据前表中的数据

计算“学历”属性的基尼指数

解 ①使用基尼指数计算公式

计算D的不纯度

Gini(D)=1-(9/15)^2-(6/15)^2=0.48

②计算属性“学历”的基尼指数

此特征有三个取值

“专科” “本科” “硕士”

所以划分值有三个

即三种划分集合

分别为

以“专科”划分

{专科} {本科研究生}

两个集合

以“本科”划分

{本科} {专科研究生}

以“研究生”划分

{研究生} {专科本科}

考虑集合{研究生} {本科专科}

D被划分成两个部分

{本科专科}分区有10个申请人

其中5人获批贷款

5人未获批

{研究生}分区有5人

其中4人获批贷款

1人未获批

基于这样的划分计算基尼指数为

类似地可以求出属性“学历”

其余子集的基尼指数

以“专科”划分的基尼指数为

以“本科”划分的基尼指数为

选择基尼指数最小值0.44

作为属性“学历”的基尼指数

因此属性“学历”的不纯度降低值为

∆Gini(A)=Gini(D)-GiniˇA (D)=0.48-0.44=0.04

同样可以求出每个属性的

基尼指数及不纯度降低值

通常

模型为了较好拟合

训练数据会变得比较复杂

模型复杂的表现就是参数过多

虽然模型在训练数据上有较好的效果

但是对未知的测试数据可能结果会不好

这种现象叫做过拟合

出现这种现象的主要原因

是训练数据中存在噪音或者训练数据太少

通过加入正则化项来控制模型的复杂度

或者是进行交叉验证

可以有效地避免过拟合

7.1 分类概述在线视频

7.1 分类概述课程教案、知识点、字幕

数据挖掘课程列表：

第1章概述

第2章数据

第3章数据预处理

第4章数据仓库和OLAP

第5章回归分析

第6章频繁模式

第7章分类

第8章聚类

第9章离群点检测

7.1 分类概述笔记与讨论

也许你还感兴趣的课程:

7.1 分类概述在线视频

7.1 分类概述课程教案、知识点、字幕

数据挖掘课程列表：

第1章 概述

第2章 数据

第3章 数据预处理

第4章 数据仓库和OLAP

第5章 回归分析

第6章 频繁模式

第7章 分类

第8章 聚类

第9章 离群点检测