当前课程知识点:机器学习概论 >  第二章 决策树学习(I) >  2.1 决策树的基本概念 >  决策树的基本概念

返回《机器学习概论》慕课在线视频课程列表

决策树的基本概念在线视频

下一节:决策树的实例和发展历史

返回《机器学习概论》慕课在线视频列表

决策树的基本概念课程教案、知识点、字幕

今天我们给大家介绍的是决策树的学习

我知道有一部分同学可能在你们之前的前期学习中

学过决策树学习的内容

我们今天如果学习过的同学我们一起来回顾一下

并且可以跟着我的思路来看一看

有哪些挑战性的高级的问题还没有解决

在此之前呢 我先给大家提到一些

机器学习背景下的一些基本概念

第一个基本概念是什么叫做实例空间 Instance Space

就所谓实例空间

比如说假设我有一个问题 它一定是和一个任务相关的

比如有一个问题是说我们来看一看你的朋友约你说

我今天要不要去从事某项体育活动

比如说咱们今天要不要去室外打一个羽毛球

那这个时候你就说我得看一看

今天外面有没有刮风 有没有下雨 有没有刮大风

然后今天的天气 就刚才说的是天气怎么样

还有我有没有课 然后我有没有时间

我现在身体状况好不好 有没有生病

好 这些情况考虑完了之后说 好 可以 我们去打球吧

所有可能的这样的日子就把它叫做实例空间

每一个就叫做一个实例 那么假设

第二个概念是假设Hypothesis Class

然后我们一般这个H的描述

比如说你如果说 今天如果湿度比较高 那我就不去打球了

我就不去打网球了 或者不去打羽毛球了都可以

这样的一个过程 这个是你的其中的一个假设

你事实上可以有一批假设可以生成出来

我们经常已经说了很多次 已经默认的提到很多次的训练样例

训练样例的空间 训练样例我们把它叫做D 用D来描述

它事实上是我们的一些样本

说我们关于你要找的这个目标函数

在这个里面目标函数就是去打球 或者不去打球 yes或者no

就是这个C(Xi)

就我们刚才看到实例空间的某一个实例

对于那些你已经知道结果 知道label 就知道标签

知道你的答案的这一些 由这些实例

以及实例的标签和结果 构成了这样的一组信息

我们把它叫做一个训练样例

我们事实上呢 机器学习的系统事实上本质上我们想做的事情

我们希望能够找到这样的假设

这样的假设是说对于所有可能的实例

就是所有可能的具体的情况来说

我们假设的输出都和它真实的目标函数的输出是一样的

那么你如果找到这样的假设 那你这个问题就解决了

因为你要处理的所有的问题是来了一个x

你就可以有一个h(x)的输出给出来

然后它和真实的是一样的

这是我们你从一个通用的情况下去理解什么是机器学习

但是呢 其实在很多情况下我们这个实例空间的大小

它是无限大的 就是这个空间是无穷的无限大的

或者它至少是指数级别的大小的 如果问题稍微简单一点

很有可能是这样 所以其实很难找到对于所有样例X来说

h(x)都等于我们的目标概念 那么相反的

我们其中这个近似是说并不是实例空间上的所有的样例这样

我们往往先找到的是 对于我所有的训练样本来说

我的所有的 我假设的所有输出

都和这些训练样本的实际的它们的目标输出

真实的输出是一致的 所以这个是一个近似

你如果取的不够好的话 那你就算在训练样例上做得很好

你在真实情况下也不一定能够做得很好

这个问题我们后面会陆续讨论到

我们刚才说这个空间是非常大的 举一个例子

比如说我们一个最简单的情况我有n个属性

或者说有n个特征 这每个特征它只是二值的

要么是0要么是1 比如说天气情况我假设今天比如说下不下雨

就是是或者否 或者今天刮风的情况怎么样

我们不是说分一级二级三级风

你可以把这个属性说今天有没有四级以上的风

你可以说yes或者no 总之我们一共有n个这样的属性特征

每一个特征只是取二值的取的话

那其实我们这个实例空间的大小有多少呢

是2的n次方这么多个元素

事实上因为每一个 一共有n个属性

每个属性要么是1要么是0 两种情况

所以就是2×2×2 一直乘n个2

所以是二的n次方这么多个元素 这是我们的实例空间

那这样的话 我们所有可能的假设多少个呢

我们的所有可能的假设 有2的2的n次方次方这么多

给大家几秒钟的时间去想一想为什么

其实如果你把它看作是一个集合的话

就是所有可能的实例是一个集合的话

这个集合的大小是2的n次方 一共有这么多种可能的天气

那么我们事实上知道 一个有n个元素的集合

它的全部子集的个数 就是有m吧 我用不同的东西

如果是有m个元素的集合的话

这个集合的大小如果是m的话

那么事实上它所有可能子集的个数是2的m次方个

就是其中的任何的组合

那现在呢 我们集合 所有可能的集合是有2的n次方这么多个

就是我们说有N个特征 每个特征是二值的

所以我们所有可能的实例 我们现在是实例空间

它的大小呢 这么多2的n次方

所以我们所有可能的假设的大小 是2的2的n次方次方这么多

所以它是一个特别非常庞大的数字

因此呢 我们往往在这种情况下 你很难找到

我们说很难找到对于所有实例

你的假设输出是一致的完美假设

所以我们往往只在训练样例上面去找

好 这个是我们的一些基础的概念 这个基础概念之后呢

我们在后面的课程里面会反复地用到这些东西

后面我们如果说实例空间 样本空间或者是训练样本空间

还有假设等等这个大家就知道它是什么意思了

机器学习概论课程列表:

第一章 绪论

-1.1 课程介绍

--课程介绍(1)

--课程介绍(2)

-1.2 机器学习的背景

--机器学习的背景

-1.3 什么是机器学习

--什么是机器学习

-1.4 机器学习系统设计

--机器学习系统设计(1)

--机器学习系统设计(2)

-第一章作业

-第一章课件

第二章 决策树学习(I)

-2.1 决策树的基本概念

--决策树的基本概念

-2.2 决策树的实例和发展历史

--决策树的实例和发展历史

-2.3 经典决策树算法ID3

--经典决策树算法ID3(1)

--经典决策树算法ID3(2)

--经典决策树算法ID3(3)

-2.4 过拟合和前剪枝

--过拟合和前剪枝

-第二章作业

-第二章课件

第三章 决策树学习(II)和贝叶斯学习

-3.1 下午茶时间:勒索软件

--下午茶时间:勒索软件

-3.2 后剪枝

--后剪枝

-3.3 决策树的改进和归纳学习假设

--决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

--贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章 马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间:微博的垃圾检测

--下午茶时间:微博的垃圾检测

-4.2 马尔可夫模型

--马尔可夫模型

-4.3 隐马尔可夫模型

--隐马尔可夫模型

-4.4 评估问题

--评估问题(1)

--评估问题(2)

-4.5 解码问题

--解码问题

-4.6 隐马尔可夫模型的应用

--隐马尔可夫模型的应用

-第四章课件

-第四章作业

第五章 假设检验

-5.1 下午茶时间:图灵奖

--下午茶时间:图灵奖(1)

--下午茶时间:图灵奖(2)

-5.2 假设评估

--假设评估(1)

--假设评估(2)

--假设评估(3)

-5.3 置信度和置信区间

--置信度和置信区间(1)

--置信度和置信区间(2)

--置信度和置信区间(3)

-5.4 有限数据下的比较

--有限数据下的比较

-第五章课件

-第五章作业

第六章 基于实例的学习

-6.1 下午茶时间:黑洞照片

--下午茶时间:黑洞照片

-6.2 基于实例的学习的基本概念

--基于实例的学习的基本概念

-6.3 最近邻算法

--最近邻算法

-6.4 K邻近算法

--K近邻算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章 支持向量机(I)

-7.1 支持向量机的背景

--支持向量机的背景

-7.2 线性支持向量机

--线性支持向量机(1)

--线性支持向量机(2)

--线性支持向量机(3)

--线性支持向量机(4)

--线性支持向量机(5)

-第七章课件

-第七章作业

第八章 支持向量机(II)和无监督学习

-8.1 核函数支持向量机

--核函数支持向量机:向量空间

--核函数支持向量机:核函数(1)

--核函数支持向量机:核函数(2)

-8.4 支持向量机总结

--支持向量机总结

-8.5 无监督学习简介

--无监督学习简介(1)

--无监督学习简介(2)

-8.6 层次聚类

--层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

决策树的基本概念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。