当前课程知识点:R语言数据分析 >  上部:问道 >  第2章 所谓学习、归类而已 >  2.1 所谓学习、归类而已(I)

返回《R语言数据分析》慕课在线视频课程列表

2.1 所谓学习、归类而已(I)在线视频

下一节:2.2 所谓学习、归类而已(II)

返回《R语言数据分析》慕课在线视频列表

2.1 所谓学习、归类而已(I)课程教案、知识点、字幕

大家好

欢迎来到《R语言数据分析》课程

今天要与大家交流我们这门课的

第二个核心理念

所谓学习 归类而已

咱们这门课程叫做《R语言数据分析》

毫无疑问数据分析是我们的主体

R语言是工具

数据分析是一个相对比较宽泛的概念

当然有很多文献会说

机器学习和数据挖掘的边界是什么

重叠部分是什么

我们当然可以找一些相应的文献资料

来研究它们的异同

我做了另外一件事情

我是把两本教材

一个是《数据挖掘导论(完整版)》

另外一个是周志华老师这本《机器学习》

也就我们通常说的西瓜书

把这两本书里面所涉及的算法模型

我都做成一个什么呢

做成一个文氏图

大家看一下

通过这个文氏图可以看得出来

其实机器学习和数据挖掘

就算法模型而言

它几乎就完全重叠在一起

比如说 决策树 贝叶斯分类

人工神经网络 支持向量机 组合学习

这些有监督的学习方法

在两本书里面都出现了

再比如一些无监督的

比如说关联规则 层次聚类

密度聚类

(特征)降维 等等

这两本书也是重叠的

甚至说这两本书后面的附录

附录部分

也就是相应的数学基础

涉及到什么呢

线性代数 概率 优化

也是完全一样的

所以无论从算法模型本身

还是说它所涉及到的数学基础

我们可以看得出来

数据挖掘和机器学习

几乎是重叠在一起的

即便这两本书里面

有一部分内容有一些什么差别

比如说近邻法呀

包括这里面所涉及到的半监督学习

其实在其他一些机器学习

或者数据挖掘的书里面

也是相互之间有交叉

所以我们基本上可以得到一个结论

就算法模型而言

机器学习和数据挖掘是不需要做区分的

具体怎么说呢

数据挖掘 其实它涉及两部分的知识

一个是数据分析的技术

一个是数据管理技术

所谓数据管理技术

比如说数据库或者数据仓库

涉及到数据的上卷 下钻 等等

这些都是什么啊

都是所谓的数据管理这一方面的技术

然后数据分析的话基本就是什么

其实就是什么

其实就是机器学习

但是由于咱们这门课呢

在数据管理这一块

涉及的内容相对比较少

所以 咱们这门课

(对于)数据挖掘 机器学习

基本就不做区分了

在我们后续的课程里面

这三个概念

数据分析 机器学习 还有数据挖掘

这三个概念基本上是会交替使用

那咱们来看一看机器学习和数据挖掘

我们来看一看它具体脉络是什么

这是机器学习的一个小抄 (速查表cheatsheet)

它梳理这个脉络的时候

基本上把机器学习划分成四个领域

就像一个蝴蝶一样

蝴蝶的左边的部分

比如说有分类 有聚类

右边部分有回归 有降维

[上面]两个翅膀基本上就是什么

基本上就是有监督学习了

下面这两个翅膀呢

基本上就是无监督学习

应该讲

左侧这个部分 分类和聚类

就是我们机器学习里面两大代表性的技术

就是有监督学习 和无监督学习的代表

这是我们机器学习的一个小抄

所看到的一个脉络图

我们再看看数据挖掘的一个思维导图

毫无疑问

这里面很多内容都是重叠的

比如说分类啊

刚才看到的降维

再比如说聚类等等

都是重叠的

当然这边还有另外一些内容

比如说我们这个关联规则

序列模式 它们的挖掘

也就是说不同的

我们从不同的文献也好

不同的专著也好

它其实对我们机器学习 数据挖掘

有不同的脉络的梳理

但是总体上的典型内容

都是比较相似的

我们再来看一个

这应该说是数据挖掘里程碑式的著作

就是韩家炜老师这本书

《数据挖掘: 概念与技术》

它怎么梳理的呢

它将整个知识体系

分成这么几部分

首先是认识数据 进行数据的预处理

这是一部分

在这个基础之上

挖掘频繁模式

关联规则的挖掘

然后是什么

有监督学习里面的分类

再之后是无监督学习里面的什么 聚类

后面还有一个离群点检测

或者说异常检测

当然异常检测这一块

其实也会用到很多分类和聚类的

一些具体的算法模型

那咱们这门课呢

基本上也是沿袭这么一个知识体系

具体来讲就是我们将数据分析

分成这么四部分内容

认识数据 在这个基础之上呢

我们做关联 做分类 做聚类

这四部分内容也是我们本门课第三部分

就是《博术》这一块 四大方面的内容

那咱们就把这页PPT里面

前两个公式跟大家做了一个交流

首先是数据分析

我们这门课里面基本上等同于

机器学习或者数据挖掘 具体内容呢

这么四部分

我们再看第三个公式

第三个公式我想先从什么

先从后面这个括符里面讲起

机器学习核心是什么呢 归归类

它的核心就是归归类

为什么这么说呢

我们先给大家一个直观的概念

我们说机器学习基本上两大主体

一个是有监督学习

一个是什么 无监督学习

通过(前边的)蝴蝶图我们也看得出来

分类就是有监督学习代表

聚类其实就是无监督学习代表

那好

既然机器学习是由有监督和无监督学习构成的

当然也有其它的一些

在咱们这门课里面可能涉及相对比较少一点

那好 然后分类和聚类又是

相应的有监督无监督学习的代表

那我们可不可以说

机器学习核心不过是归归类而已

你分类也是归下类 聚类也是归下类

那毫无疑问

机器学习其实就归归类嘛

从逻辑上讲 这好像没有太大的问题

但是 我们再稍微往下一琢磨的时候

就觉得好像跟我们

平时所接触到的差别就比较大了

这个反差是比较大的

为什么这么说呢

比如说我们在KDnuggets

这个网站上 它做了一个问卷调查

就是机器学习究竟有哪些应用

列出来了

相应的应用 所占的比例也做了一个统计

当然这个字比较小

我把其中一部分内容挑出来 [略有调整]

比如说计算机视觉 语音识别 自然语言处理

当然这三块基本上也是目前

深度学习最火的三个领域

除了这个之外呢

还有我们平常有接触到的

比如垃圾邮件的过滤啊

个性化推荐啊

欺诈交易的侦测呀 等等

那好 这么多的高大上的领域

它其实都表现出来什么

让人惊讶的人工的智能行为

但我们刚才讲了

机器学习不过是归归类而已

那我们这么多应用领域都是归归类嘛

这跟我们的反差太大了

这个时候我们需要重新思考

归类究竟是什么含义

归类是什么意思呢

一般来讲

我们通常意义上理解的归类

基本上跟这个图画的差不多

分一层

一层往下分

每一层里面包含哪几个类别

比如说我们有本书叫

《本草纲目》

所谓的 纲 目 属 种 都是什么

都是生物的分类

还有一个说法叫什么

经 史 子 集(四库全书)

经 史 子 集是什么呢

经 史 子 集是对我们图书进行分类

再比如说我们学科有分类

01表示哲学

02这个代码是经济学

08这个代码是工学

还有其他的一些分类

这是我们通常意义的

或者说日常所理解的分类

但是 实际上

归类 (或者说)分类它有更深的内涵

比如说我们看这个

某大学生心理健康知识竞赛的

一个题库里面的一道题

它这个题目是什么样的呢

看这个题目

人类认识世界的基本方法

所有科学的核心问题

它给了什么

给了这么四个答案

当然相信大家考试都比较有经验

很容易通过排除法把后面三个都排除掉

像诊断啊 评估啊 心理测验啊 一看就不是

一看就不是正确答案

我们能选的可能只有A 对不对

只有A

但即便这个题目我们能选对

我们还是有迟疑的

还是不甘心的

人类认识世界基本方法

所有科学核心问题 就是归类吗

就是分类吗

现代认知心理学家认为

分类的方法是人们认识世界的基本方法

这是某一个文献里面说到的

当然我们现在不能通过刚才一道题

通过现在看到一个文献

我们就说啊这个归类有多么高大上

我们再来看一下

这位老先生

一个百岁老人

杰洛姆·布鲁纳 (Jerome Bruner)

他专门有一个叫什么

《分类理论》或者说《归类理论》

他怎么说的呢

感知是归类 概念化是归类

学习是归类 决策还是归类

是这样吗

我们来看一些具体的例子

比如说看云识天气

根据云的不一样

来判断下午究竟是什么

是晴天 是雨天 是阴天

晴天 阴天 雨天

大家想想这是不是三个类别

其实你是根据特征来做归类吧

是不是

再比如说我们中医的望闻问切

通过号脉

通过观测他的气色

这个时候你来判断

这个人是健康的还是不健康的

或者是假如他不健康的话

有哪种疾病

那这里面健康和不健康

毫无疑问就是分类

或者说具体 要判断它

究竟是属于哪种疾病的话

其实还是分类

是不是

所以中医的望闻问切

也是根据特征做分类

现在还有一个比较流行的说法

也比较俏皮

叫"确认过眼神 遇上对的人"

那这个时候大家想想这个过程是分类吗

这过程也是分类

你根据眼神

当然这个时候特征就很微妙了

这个特征很微妙啊

你是凭你的感觉

凭你的直觉

但是最后还是一个分类动作

就是对的人和不是对的人

这个是我想要的人

是我终于遇上了人

还另外就是其他人

把他归成两类

所以不管是我们的看云识天气也好

望闻问切也好

还是所谓的确认过眼神也好

都是在做什么

绝大部分时候都是在做分类而已

我们说机器学习

它其实不是模拟人学习的过程

它做的是什么

它表现的是一个人的认知的行为

像所有这些认知行为的话

其实大部分时候都是在做归类

我们来看一下

那我们来看一下机器学习

我们看一下具体的例子

它是不是真的在做分类

比如前面这个通过上传一张照片

通过照片里面啊

这个像素也好

包括再进一步的特征提取也好

特征抽象也好

它进行什么

年龄的识别

这是做归类吗

大家考虑一下 是不是在做归类呢

它其实在做归类

类别是什么呢

这个类别就是人类可能的年龄

你属于哪个年龄的话

就把你分到那个类别里面去

就可以了

当你能做好这个归类的时候

其实你就识别了什么

识别这个照片里面相应的人的年龄

我们再举个例子

比如说我们现在比较火的

无人驾驶

可以把什么呢

可以通过语义分割将这边照片里面

不同的部分

识别出来

有些是街道有些是天空有些是什么

有些是马路牙子

大家考虑一下

这个时候是不是也是在做归类呢

其实也在做归类

什么意思呢

当我能把这个图像里面不同的区域(的像素点)

分成不同的类别的时候

毫无疑问 这个车

就不会开到马路牙子上去

车也不会撞到行人

假如做得更加精确一点

更加细(致)一点的话

比如说无人驾驶

你还得识别 警察的手势

这个手势 不同的手势 其实也在做分类

所以假如有了这个分类的话

其实你发现认知的过程

其实就体现出来了

我们再看一个就是非常火的什么

AlphaGo 下棋 (Go=围棋)

大家看这个下棋是不是也在做分类呢

这个下棋毫无疑问

我们直觉上讲

这不就是一个棋盘 然后是落子

对不对

根据目前的局势来落子

那这怎么是一个归类的过程呢

其实我们可以把它当成

一个归类的过程是什么呢

这个类别是什么

这个类别就是落子的位置

大家考虑一下

是不是这样

当这个落子的位置不一样的时候

究竟要判断 应该下面落子

落到哪个位置

其实就是什么

把它归到相应的类别里面去了

当然像AlphaGo这些

除了归类之外

还有一些增强(强化)学习啊 等等

还有其他一些内容

当然我们目前只是想给大家

传达一个概念什么呢

很大一部分的智能行为

模式识别也好

我们的认知活动也好

其实都在做什么

都在做分类

当然感兴趣同学

可以再进一步看相应的一些文献

思考一下究竟分类有什么含义

为什么说

所谓学习 所谓的机器学习

无非是 归类而已

当我们对归类的含义

有更深刻的理解的时候

其实我们对机器学习也有更本质的认识

本次课到此结束

谢谢大家

R语言数据分析课程列表:

上部:问道

-第1章 气象万千、数以等观

--第1章 气象万千、数以等观

--第1章 作业

-第2章 所谓学习、归类而已

--2.1 所谓学习、归类而已(I)

--2.2 所谓学习、归类而已(II)

--2.3 所谓学习、归类而已(III)

--2.4 所谓学习、归类而已(IV)

--第2章 作业

-第3章 格言联璧话学习

--第3章 格言联璧话学习

--第3章 作业

-第4章 源于数学、归于工程

--第4章 源于数学、归于工程

--第4章 作业

-讨论题

--如何发挥人工智能的头雁效应

中部:执具

-第5章 工欲善其事、必先利其器

--第5章 工欲善其事、必先利其器

--第5章 作业

-第6章 基础编程——用别人的包和函数讲述自己的故事

--6.1 编程环境

--6.2Mini案例

--6.3 站在巨人的肩膀上

--6.4 控制流

--6.5 函数(I)

--6.6 函数(II)

--第6章 作业

-第7章 数据对象——面向数据对象学习R语言

--7.1 向量与因子(I)

--7.2 向量与因子(II)

--7.3 矩阵与数组(I)

--7.4 矩阵与数组(II)

--7.5 列表与数据框(I)

--7.6 列表与数据框(II)

--第7章 作业

-第8章 人人都爱tidyverse

--第8章 人人都爱tidyverse

--第8章 作业

-第9章 最美不过数据框

--第9章 最美不过数据框

--第9章 作业

下部:博术

-第10章 观数以形

--10.1 一维数据空间(I)

--10.2 一维数据空间(II)

--10.3 二维数据空间

--10.4 高维数据空间

--第10章 作业

-第11章 相随相伴、谓之关联

--11.1 导引

--11.2 关联规则(I)

--11.3 关联规则(II)

--11.4 关联规则(III)

--第11章 作业

-第12章 既是世间法、自当有分别

--12.1 导引

--12.2 近邻法(I)

--12.3 近邻法(II)

--12.4 决策树(I)

--12.5 决策树(II)

--12.6 随机森林

--12.7 朴素贝叶斯

--12.8 逻辑斯蒂回归

--12.9 人工神经网络(I)

--12.10 人工神经网络(II)

--12.11 支持向量机

--第12章 作业

-第13章 方以类聚、物以群分

--13.1 导引

--13.2 划分方法

--13.3 层次方法

--第13章 作业

-第14章 庐山烟雨浙江潮

--第14章 庐山烟雨浙江潮

--第14章 作业

2.1 所谓学习、归类而已(I)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。