当前课程知识点：互联网大规模数据分析技术 > 第三章分类算法 > 第5讲分类的基本概念 > 第5讲分类的基本概念

返回《互联网大规模数据分析技术》慕课在线视频课程列表

第5讲分类的基本概念在线视频

下一节:第6讲决策树

返回《互联网大规模数据分析技术》慕课在线视频列表

第5讲分类的基本概念课程教案、知识点、字幕

同学们好

欢迎来到

互联网大规模数据分析技术课堂

我是这节课的主讲教师张蕊

来自武汉理工大学

这节课我们一起来了解一下

分类的基本概念

可能很多人都玩过

那个how-old的在线小游戏

通过图片猜年龄的

那这里借用一下

face++人脸识别服务

来给大家直观地理解一下

分类和回归的概念

大家看这个图片

左边的小女孩

她被识别出年龄是6岁

中间的女士被识别出性别

左边的男士被识别出了身份

实际上

中间这位女士的性别识别

就是一个典型的分类问题

给你一些人的照片

请确定照片中的人

是男性还是女性

计算机识别的时候

首先要经过训练

建立一个通过照片来判断

性别是男是女的一个模型

然后输入一张照片

计算机根据模型

推断是男还是女并输出结果

要预测性别是男还是女

这是一个二元分类问题

因为性别是一个离散

或者说分类属性

并且只有两个可能的取值

至少是在社会身份的意义上是这样

类似地

最右边的身边识别

也是一个分类问题

计算机构造一个模型

或者说分类器来预测人的身份

人的身份是是分类属性

在这里可以看成一个类标签

而最左边的小女孩的年龄预测

就是一个典型的回归问题

而年龄从本质上来说

是一个连续值，是一个数值属性

也就是说

这里计算机预测的是

一个连续值或者说有序值

当我们谈到分类时

常常会提到

有监督学习和无监督学习

有监督学习是对一些

具有类标签的训练数据集

进行学习来建立模型

然后通过该模型

对训练数据以外的新数据

进行类标签预测

而非监督学习的训练数据集

是不带类标签的

计算机试图发现

训练数据集中的结构性特征

来进行不同类的区分

典型的有监督学习是分类

典型的非监督学习是聚类

那分类是什么呢

分类的根本任务是预测类标签

而类标签是离散属性或者标称属性

分类通过具有类标签的训练数据集

来建立模型并对新数据进行分类

刚才face++的性别预测就是分类

还有判断一封邮件

是垃圾邮件还是正常邮件也是分类

数值预测则是

建立一个连续值函数

来预测未知的或者是缺失的值

刚才face++的年龄预测就是数值预测

或者你建一个模型

预测一只股票

第二天的价格是多少

这也是数值预测

分类和数值预测应用非常广泛

比如银行判断

是否给这个客户发放信用卡

政府判断当前的交通情况下

发生事故的风险是多少等等

我们这里主要关注分类

分类是一个两阶段过程

包括模型构建和模型使用两步

模型构建主要是建立用以描述

预先定义好的类的分类器

在这里

每个样本都具有预先定义好的类标签

这些样本构成了

模型训练的训练数据集

分类模型可以用分类规则

决策树或者是数学公式来表示

模型使用主要是对未知数据

或者是未来的数据进行分类

在模型使用前

要评估模型的准确率

这要用到测试数据集

测试数据的类标签也是已知的

但测试数据集的类标签

应该独立于训练数据集

如果评估后认为准确率是可以接受的

那就可以用来对新数据进行分类了

我们来看一个小例子

现在我有这样的6条训练数据集

分别包括姓名、职称、工作年限

和tenured终身教职

在模型构建阶段

通过分类算法对这些数据集进行学习

可能得到这样的一个分类器

如果职称是教授

或者工作年限大于6年

那么就会获得终身教职

这个分类器是基于分类规则的

我们可以看到这条分类规则

是符合训练数据集的

比如，Mike是助理教授

工作年限只有3年

那这个规则的条件为假

所以他的tenured就是no

没有终身教职

而Mary也是助理教授

但她的工作年限是7年

满足了工作年限大于六

那分类规则的条件就是真

所以她的tenured是yes

有终身教职

类似的

下面的样本的都符合这一条规律

构建好这个分类模型以后

就可以使用这个模型进行预测了

在预测前

先用测试数据集

对模型的准确率进行评估

这里有四条测试数据集

我们刚才的分类规则是

如果职称是教授

或者工作年限大于6年

那么就会获得终身教职

现在看第一条数据

助理教授，工作两年

不是终身教职

那这是符合模型的

而第二条数据

副教授，工作7年

不是终身教授

这里他的工作年限已经超过了6年

但却不是终身教授

这不符合我们的分类规则

类似的，我们可以判断

下面的两条数据

都是符合我们的分类规则的

四条数据中有三条符合我们的规则

准确率就是75%

如果我们觉得

这一个准确率是可以接受的

就可以用这个分类器

对未知数据进行预测了

例如现在有一条未知数据

Jeff是教授，工作了4年

那他是否tenured

答案是yes

通过这个小例子

我们了解了分类的基本过程

包括使用训练数据集来建立模型

使用测试数据集进行模型评估

最后通过模型来进行分类预测等等

本节课的内容到此结束

谢谢大家的观看

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

-第1讲大数据与数据挖掘概述

--第1讲大数据与数据挖掘概述

第二章关联规则

-第2讲频繁项集和关联规则的基本概念

--第2讲频繁项集和关联规则的基本概念

-第3讲 Apriori算法

--第3讲 Apriori算法

-第4讲 Apriori算法的改进与兴趣度度量

--第4讲 Apriori算法的改进与兴趣度度量

第三章分类算法

-第5讲分类的基本概念

--第5讲分类的基本概念

-第6讲决策树

--第6讲决策树

-第7讲简单贝叶斯分类

--第7讲简单贝叶斯分类

第四章聚类算法

-第8讲聚类的基本概念

--第8讲聚类的基本概念

-第9讲 K-Means & K-Medoids Clustering

--第9讲 K-Means & K-Medoids Clustering

-第四章聚类算法--习题

第五章大数据平台与技术

-第10讲大数据处理平台Hadoop

--第10讲大数据处理平台Hadoop

-第11讲 MapReduce编程

--第11讲 MapReduce编程

-第12讲大数据处理平台Spark

--第12讲大数据处理平台Spark

-第13讲 NoSQL数据库

--第13讲 NoSQL数据库

第六章信息检索

-第14讲 Web信息检索简介

--第14讲 Web信息检索简介

-第15讲信息检索之倒排索引

--第15讲信息检索之倒排索引

-第16讲信息检索之TFIDF

-第17讲信息检索之相似度排序

--第16讲信息检索之TFIDF

第七章 Web链接分析

-第18讲 Web搜索之链接分析

--第18讲 Web搜索之链接分析

-第19讲 Web搜索之PageRank

--第19讲 Web搜索之PageRank

-第20讲 Lucene信息检索平台

--第20讲 Lucene信息检索平台

-第七章 Web链接分析--习题

第八章推荐系统

-第21讲推荐系统简介

--第21讲推荐系统简介

-第22讲推荐系统之协同过滤

--第22讲推荐系统之协同过滤

-第23讲 Mahout数据挖掘平台

--第23讲 Mahout数据挖掘平台

-第24讲信息过滤评价体系

--第24讲信息过滤评价体系

-第八章推荐系统--习题一

-第八章推荐系统--习题二

自我提升练习

-综合编程题

第5讲分类的基本概念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。