当前课程知识点：大数据管理与挖掘 > 第8章分类方法 > 8.8 决策树 > 8.8 决策树

返回《大数据管理与挖掘》慕课在线视频课程列表

8.8 决策树在线视频

下一节:8.9 分类的评判

返回《大数据管理与挖掘》慕课在线视频列表

8.8 决策树课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

欢迎回来

我们继续讲我们第八节的内容

决策树

决策树的基本概念呢

我们可以从以下几个方面可以展示

决策树是我们最广泛应用的一种

归纳推理算法之一

处理类别类型

它基本上来讲

是一种连续型变量的分类预测问题

可以用图形和if-then的规则

来进行表示

可连读性比较高

而决策树的模型

通过不断的进行

划分我们的数据

使我们的依赖变量的差别性最大化

这样做的目的是

将数据分类到不同的组织或不同的分枝

在依赖变量的值上面建立最强的归类

由此呢

我们这个决策树是一种监督式的学习过程

它产生一种类似流程式的树结构

而决策树对数据进行处理

它主要是利用归纳算法产生分类规则

和我们的决策树

再对数据进行预测和分析

我们由此呢

我们可以看出树的终端节点

也就是说叶子节点

它表示分类结果的类别

而每个内部节点则表示一个变量的测试

而分枝为测试的输出

它代表变量的一个可能数值

为达到我们分类的目的

在变量值上面

尤其是在我们的数据上面进行的测试

这样的话

每一条路径代表一个分类的规则

决策树的模型

我们在这里面可以看出

有如下的特点和优点

它可以利用图形或规则进行表示

而且这些规则容易被解释和理解

容易使用

而且非常有效

在这基础上还有第二个特点

可以处理我们连续型或类别型的变量

以最大信息增益选择分割

然后模型显示出变量相对性

相对重要

同时呢

第三个就是说

面对大数据集的时候

也可以处理得非常好

此外因为树的大小和数据库大小

相互无关

由此计算量相对比较小

当有很多变量被引入模型时候

决策树仍然有很好的适应性

那么具体来讲

我们决策树构建过程

可以包括如下几个步骤

第一个就是

将训练样本的原始数据

放入到决策树的树根

第二个

将原始数据分成两组

一部分为训练组数据

另一部分为测试组数据

在此基础上呢

使用训练样本来建立决策树

在每一个内部节点依靠我们信息论来评估

选择哪个属性会最好

或者说在这里面

评估选择哪一个属性值继续做分割的依据

又称为节点分割

那我们第四个步骤就是

使用测试数据来进行决策树的修剪

修剪到决策树的每个分类都只有一个节点

以提升预测能力与我们的速度

也就是通过节点分割后

判定这些内部节点是否为树叶节点

如果不是

则以新内部节点为分枝的树根

来建立新的次分枝

第五个

将第①到第④个步不断进行递归

或者说重复

一直到所有内部节点都是树叶节点为止

当决策过程完成分类后

可将每个分枝的树叶节点

萃取出我们的知识规则

如果有如下情况

决策树将停止分割

第一个

该群数据的每一笔数据

都己经归类到同一类别

第二个

这群数据已经没有办法再找到新的属性

来进行节点的分割

第三个

该群数据已经没有任何尚未处理的数据

由此呢

在这个过程当中

决策树采取如下的样本划分

首先呢

决策树学习过程

主要利用信息论中的信息增益

来寻找数据集中最大信息量的这种变量

建立数据的一个节点

再根据变量的不同值建立树的分枝

而每个分枝中

集中重复建树的下层结果和分校的过程

一直到完成建立整个决策树为止

在这个过程当中

决策树的每一条路径

可以代表一个分类规则

而且若某一事件发生的概率是p

则令事件发生后所得的信息量为I（p）

若p= l

则I（p）=O

因为某一事件一定会发生

因此该事件发生不能提供任何信息

如果某一事件发生的概率很小

不确定性很大

那么该事件发生所带来的信息就很多

因此I（p）为递减函数

这里面我们可以表示为

同时呢

在给定数据集S时候

假设类别变量A有m个不同的类别

我们可以从如下的过程中显示出来

在这里面呢

利用变量A将数据集分为m个子集

其中Si 表示S中包含数值Ci中的样本

这样在分类的过程当中

对于每个样本

对应的m种可能发生的概率

我们可以表示为

即i种结果中的信息量为

而这个

称为分类信息的熵

熵是测量一个随机变量不确定性的

测量标准

也可以用来

测量训练数据集内部的纯度一个标准

由此呢

熵的函数可以表示成

如下所示的过程

在这里面

pi是任意样本属于Ci的概率

对数函数以2为底

因为信息用二进制编码

而变量训练分类的数据集它的能力

也可以用信息增益来进行测试

因为整个算法计算

每个变量的信息增益时候

具有最高信息增益的变量

将它作为给定集合S的分割变量

由此产生一个节点

同时以该变量为标记

对每个变量所产生结果

进行产生分枝

以此划分整个样本

这就是我们整个的划分过程

接着下来我跟大家解释

我们决策树的剪枝

当我们的决策树产生的时候

因为

我们数据集的噪声或离群值

这些对我们整个数据

或者决策过程有影响

因此

许多分枝反映的是训练资料当中的

各种异常情形

树的剪枝就是要处理这些过度匹配的

一些问题

由此呢

树剪枝通常使用统计测量值

剪去最不可靠的一些分枝

可用的统计测量有卡方

或这说我们的信息增益

由此可以加速我们的分类结果的产生

同时呢

也提高测试数据能够正确分类的这种能力

具体的树剪枝过程目前有两种

第一个就是我们的先剪枝

第二个就是后剪枝

而先剪枝主要是

提前停止树的构造来对树进行剪枝

一旦停止分类

节点就变成了树叶

该树叶可能持有子集样本中

次数据最高的类别

而后剪枝呢

是由已经完全生长的树剪去分枝

通过删减节点的分枝来剪掉树的节点

最底下没有剪掉的节点

就成为树的叶子节点

并使用先前划分次数最多的分类作为一种标记

由此产生一组逐渐剪枝后的树

使用一个独立的测试集来评判

每棵树的准确率

这就能得到

具有最小期望错误率的决策树

而后剪枝所使用的计算

比先剪它多的多

由此呢

我们可以形成如下的决策树的一些算法

在这里面

在决策树的整个算法过程当中

按第三算法呢

是我们经常用的一些算法

它的基本的步骤

可以包括以下几个

第一个就是

模型由代表训练集样本开始

样本就属于同一个类别

则节点就成为树叶

并使用该类别的来作为标签

如果样本不属于同一个类别

算法就使用信息增益选择

将样本量使用分类的这种变量

来作为变量

而该变量就成为该节点的分割变量

对分割变量的每个己知值

产生一个分枝

并以此分割变量

而整个算法使用的过程当中

逐次形成每个分割的样本决策树

如果一个变量出现一个节点上面

就必须在后续分割时候

考虑这种函数

当给定节点的所有样本

属于同一个类别的时候

或者呢

没有剩余变量

可以用来进一步分割样本的时候

这时候呢

分割的动作就可以停止

由此呢完成整个决策的建构过程

由此呢

我们就形成如下所示的

决策树的一些特点

首先呢

非常容易的来解释一个训练模型

而且算法

将最为重要的判断因素

都很好地安排在了最靠近树根的部分

第二个就是说

决策树不仅对分类器有很好的价值

而且对整个决策过程的解释

也有很好的帮助

第三个呢

决策树能够同时处理分类数据和数值数据

另一个方面呢

决策树并不擅长对数值结果进行预测

如果数据非常复杂

则树就会变得非常庞大

以至于

分析人员无法借此作出正确的决策

这是我们第八节决策树的内容

我讲到这里

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

8.8 决策树笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。