当前课程知识点:大数据管理与挖掘 > 第8章 分类方法 > 8.8 决策树 > 8.8 决策树
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
我们继续讲我们第八节的内容
决策树
决策树的基本概念呢
我们可以从以下几个方面可以展示
决策树是我们最广泛应用的一种
归纳推理算法之一
处理类别 类型
它基本上来讲
是一种连续型变量的分类预测问题
可以用图形和if-then的规则
来进行表示
可连读性比较高
而决策树的模型
通过不断的进行
划分我们的数据
使我们的依赖变量的差别性最大化
这样做的目的是
将数据分类到不同的组织或不同的分枝
在依赖变量的值上面建立最强的归类
由此呢
我们这个决策树是一种监督式的学习过程
它产生一种类似流程式的树结构
而决策树对数据进行处理
它主要是利用归纳算法产生分类规则
和我们的决策树
再对数据进行预测和分析
我们由此呢
我们可以看出树的终端节点
也就是说叶子节点
它表示分类结果的类别
而每个内部节点则表示一个变量的测试
而分枝为测试的输出
它代表变量的一个可能数值
为达到我们分类的目的
在变量值上面
尤其是在我们的数据上面进行的测试
这样的话
每一条路径代表一个分类的规则
决策树的模型
我们在这里面可以看出
有如下的特点和优点
它可以利用图形或规则进行表示
而且这些规则容易被解释和理解
容易使用
而且非常有效
在这基础上还有第二个特点
可以处理我们连续型或类别型的变量
以最大信息增益选择分割
然后模型显示出变量相对性
相对重要
同时呢
第三个就是说
面对大数据集的时候
也可以处理得非常好
此外因为树的大小和数据库大小
相互无关
由此计算量相对比较小
当有很多变量被引入模型时候
决策树仍然有很好的适应性
那么具体来讲
我们决策树构建过程
可以包括如下几个步骤
第一个就是
将训练样本的原始数据
放入到决策树的树根
第二个
将原始数据分成两组
一部分为训练组数据
另一部分为测试组数据
在此基础上呢
使用训练样本来建立决策树
在每一个内部节点依靠我们信息论来评估
选择哪个属性会最好
或者说在这里面
评估选择哪一个属性值继续做分割的依据
又称为节点分割
那我们第四个步骤就是
使用测试数据来进行决策树的修剪
修剪到决策树的每个分类都只有一个节点
以提升预测能力与我们的速度
也就是通过节点分割后
判定这些内部节点是否为树叶节点
如果不是
则以新内部节点为分枝的树根
来建立新的次分枝
第五个
将第①到第④个步不断进行递归
或者说重复
一直到所有内部节点都是树叶节点为止
当决策过程完成分类后
可将每个分枝的树叶节点
萃取出我们的知识规则
如果有如下情况
决策树将停止分割
第一个
该群数据的每一笔数据
都己经归类到同一类别
第二个
这群数据已经没有办法再找到新的属性
来进行节点的分割
第三个
该群数据已经没有任何尚未处理的数据
由此呢
在这个过程当中
决策树采取如下的样本划分
首先呢
决策树学习过程
主要利用信息论中的信息增益
来寻找数据集中最大信息量的这种变量
建立数据的一个节点
再根据变量的不同值建立树的分枝
而每个分枝中
集中重复建树的下层结果和分校的过程
一直到完成建立整个决策树为止
在这个过程当中
决策树的每一条路径
可以代表一个分类规则
而且若某一事件发生的概率是p
则令事件发生后所得的信息量为I(p)
若p= l
则I(p)=O
因为某一事件一定会发生
因此该事件发生不能提供任何信息
如果某一事件发生的概率很小
不确定性很大
那么该事件发生所带来的信息就很多
因此I(p)为递减函数
这里面我们可以表示为
同时呢
在给定数据集S时候
假设类别变量A有m个不同的类别
我们可以从如下的过程中显示出来
在这里面呢
利用变量A将数据集分为m个子集
其中Si 表示S中包含数值Ci中的样本
这样在分类的过程当中
对于每个样本
对应的m种可能发生的概率
我们可以表示为
即i种结果中的信息量为
而这个
称为分类信息的熵
熵是测量一个随机变量不确定性的
测量标准
也可以用来
测量训练数据集内部的纯度一个标准
由此呢
熵的函数可以表示成
如下所示的过程
在这里面
pi是任意样本属于Ci的概率
对数函数以2为底
因为信息用二进制编码
而变量训练分类的数据集它的能力
也可以用信息增益来进行测试
因为整个算法计算
每个变量的信息增益时候
具有最高信息增益的变量
将它作为给定集合S的分割变量
由此产生一个节点
同时以该变量为标记
对每个变量所产生结果
进行产生分枝
以此划分整个样本
这就是我们整个的划分过程
接着下来我跟大家解释
我们决策树的剪枝
当我们的决策树产生的时候
因为
我们数据集的噪声或离群值
这些对我们整个数据
或者决策过程有影响
因此
许多分枝反映的是训练资料当中的
各种异常情形
树的剪枝就是要处理这些过度匹配的
一些问题
由此呢
树剪枝通常使用统计测量值
剪去最不可靠的一些分枝
可用的统计测量有卡方
或这说我们的信息增益
由此可以加速我们的分类结果的产生
同时呢
也提高测试数据能够正确分类的这种能力
具体的树剪枝过程目前有两种
第一个就是我们的先剪枝
第二个就是后剪枝
而先剪枝主要是
提前停止树的构造来对树进行剪枝
一旦停止分类
节点就变成了树叶
该树叶可能持有子集样本中
次数据最高的类别
而后剪枝呢
是由已经完全生长的树剪去分枝
通过删减节点的分枝来剪掉树的节点
最底下没有剪掉的节点
就成为树的叶子节点
并使用先前划分次数最多的分类作为一种标记
由此产生一组逐渐剪枝后的树
使用一个独立的测试集来评判
每棵树的准确率
这就能得到
具有最小期望错误率的决策树
而后剪枝所使用的计算
比先剪它多的多
由此呢
我们可以形成如下的决策树的一些算法
在这里面
在决策树的整个算法过程当中
按第三算法呢
是我们经常用的一些算法
它的基本的步骤
可以包括以下几个
第一个就是
模型由代表训练集样本开始
样本就属于同一个类别
则节点就成为树叶
并使用该类别的来作为标签
如果样本不属于同一个类别
算法就使用信息增益选择
将样本量使用分类的这种变量
来作为变量
而该变量就成为该节点的分割变量
对分割变量的每个己知值
产生一个分枝
并以此分割变量
而整个算法使用的过程当中
逐次形成每个分割的样本决策树
如果一个变量出现一个节点上面
就必须在后续分割时候
考虑这种函数
当给定节点的所有样本
属于同一个类别的时候
或者呢
没有剩余变量
可以用来进一步分割样本的时候
这时候呢
分割的动作就可以停止
由此呢完成整个决策的建构过程
由此呢
我们就形成如下所示的
决策树的一些特点
首先呢
非常容易的来解释一个训练模型
而且算法
将最为重要的判断因素
都很好地安排在了最靠近树根的部分
第二个就是说
决策树不仅对分类器有很好的价值
而且对整个决策过程的解释
也有很好的帮助
第三个呢
决策树能够同时处理分类数据和数值数据
另一个方面呢
决策树并不擅长对数值结果进行预测
如果数据非常复杂
则树就会变得非常庞大
以至于
分析人员无法借此作出正确的决策
这是我们第八节决策树的内容
我讲到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论