当前课程知识点:R语言数据分析 > 上部:问道 > 第2章 所谓学习、归类而已 > 2.2 所谓学习、归类而已(II)
大家好
欢迎来到《R语言据分析》课程
今天继续与大家交流
《所谓学习 归类而已》的第二部分内容
在我们前面的课程里面
已经将本页PPT的第一个公式
第二个公式以及第三个公式的后半部分
都做了简单的讲解
也就说三个公式已经讲了两个半
剩下了最后这个半个公式
在前面课程里面我们讲到
机器学习的核心应该就是归归类
当然我们不能说机器学习就是归归类
那就以偏概全了 对吧
这个时候我们要引入什么
引入一个新的概念
叫关系结构
我们前面讲的所有的人工设备
人工系统
它之所以具有人工的智能
其实都是什么
都是源于发现了数据背后的规律 对吧
对这个规律有所认知
好 那我们得考虑一下
规律是什么
虽然说规律这个概念非常普通
非常常见 对不对
那规律的内涵和外延它究竟是什么
我们说 发现数据的背后的规律
也可以说是识别模式 对吧
或者是我们建立模型
这其实都是差不多的概念
比较相近的概念
那我们可不可以讲规律
就是所谓的数学公式
那规律究竟有哪些形式
它的内涵和外延何在
好 下面我们从系统理论
这个角度来看这个问题
系统理论认为
我们这个世界都是由(系统构成)
一切客观存在
都是系统 对吧
所谓系统是什么
两个或两个以上(元素组成的)
具有特定功能的整体
我们就认为它是系统 对吧
在系统理论看来
世界是由系统组成的
一切客观存在均可视为系统 对吧
那系统又由什么组成
元素及其关系结构
毫无疑问
我们所谓的规律
肯定不能归到什么
不能归到元素这个范畴里面去
它应该是属于某种关系结构 对吧
这是我们从系统理论角度讲
规律应该是属于某种关系结构
其实关系结构
在数学里面也是一个非常重要的概念
我们经常讲
序关系
运算关系
映射关系是最基本的关系
然后不同的关系又形成不同的结构
具有某种关系结构的数学对象集合
就是什么
特定的抽象数学空间
这是我们现代数学研究的
最基本的对象
也就是说关系结构
其实也是我们什么
现代数学一个核心概念
就我们所谓的机器学习而言
我们能学到的规律 模型
或者说数据所能挖出的 规律
从数据里面发现的知识
其实本质上都是某种关系结构
当然这是我们从系统理论角度来讲
它应该是属于这么一个范畴
那好
我们接下来
结合具体的
我们数据分析里面一些知识点
我们来看看是不是确实是这么回事
好 我们前面讲了我们的数据分析
机器学习 数据挖掘
其实可以分成这么几块
比如说有
认识数据
有监督学习 分类
有无监督学习 聚类
有关联
对吧 等等这些内容
我们来看看 所有这些算法模型
最后所得到的结果
它是不是就是某种关系
某种关系结构
比如我们在做描述性分析的时候
在认识数据的时候
可以做相关性分析
无论你是Pearson相关系数
还是计算它的Kendall相关系数
最终它其实都是什么
得到一个相关关系
变量之间的相关关系
再比如说我们那个机器学习一个
主体内容——分类
无论你是决策树也好
逻辑斯蒂回归也好
朴素贝叶斯
支持向量机
还是人工神经网络等等
它其实最后
最终所能发现的
或者说它的模型体现什么
体现因变量与自变量之间的映射关系
也就找到y=f(X)
所以 分类回归无非是什么
无非就是一个映射关系而已
我们再来看另外一个
无监督学习
无论你采用的是k-Means
层次聚类
包括这个基于密度的
比如说DBSCAN等等
它其实最后都是什么
都是发现了什么
数据空间中点与点的
类与类之间的什么
点与点 类与类之间的距离关系
再比如说关联规则
你通过Apriori
还有其他有什么算法
你可以什么发现一些关联规则
比如说买这个尿不湿的同时
也顺手买瓶啤酒
然后进一步我可以做什么
个性化推荐等等
那这个时候其实会发现
最终能得到的这种关联规则
是什么
其实就是项集之间的伴随关系
也就是说啤酒伴随什么
尿不湿出现 对不对
所以我们刚才讲到的这些
数据分析里面一些具体内容
其实最终都是什么
都可以归结为某种关系结构的发现
都是要学习某些关系结构
当然我们还可以进一步扩展
比如说做复杂网络分析
这里面可能是什么
一些邻接关系
或者是形成网络之后的拓扑关系等等
好 我们看一下这个两个主体 (内容)
一个是有监督(学习) 一个无监督(学习)
有监督(学习)
无论你的形式怎么样
最终都是什么
都是要挖这个y=f(X) 对吧
在我们后续课程里面可能会讲
比如说支持向量机
决策树 神经网络等等
讲一些具体算法
再比如我们后面的这个无监督学习
它其实就是什么
(属性)特征张成了数据空间
然后不同的数据点
在空间里面有一个不同的分布
根据这个距离的远近
自然形成一个结构 对吧
一个距离关系
相对比较近一点的
这是一类 这是一类 这是一类
不同的点群形成了相应的簇
对不对
这其实反映了什么
就是空间的一个距离关系
也就是我们所谓的无监督学习的代表
聚类分析
好 无论是这个有监督学习
还是无监督学习
或者其他一些相关的内容
我们可以总结一下
机器所能学到的其实是某种关系结构
尤其是变量之间的关系
和数据空间的结构
甚至我们可以讲
在某种意义上
机器学习它存在的全部意义
就是为了寻找或表达某种关系结构
当然我们这边需要补充说明的是什么
关系结构
我之所以用关系结构
来表达这个机器学习的内涵
或者说机器学习所能学到的规律
是因为我自己对 关系结构 本身有些体会
它已经不需要再进一步解释了
我也希望同学们自己
结合你自己以前已有的知识背景
将它融会贯通
就将机器学习里面相应的一些内容
和你以前知识给结合起来
当你不需要再解释的时候
应该也就学好了
本次课到此结束
谢谢大家
-第1章 气象万千、数以等观
--第1章 作业
-第2章 所谓学习、归类而已
--第2章 作业
-第3章 格言联璧话学习
--第3章 作业
-第4章 源于数学、归于工程
--第4章 作业
-讨论题
-第5章 工欲善其事、必先利其器
--第5章 作业
-第6章 基础编程——用别人的包和函数讲述自己的故事
--6.1 编程环境
--6.4 控制流
--第6章 作业
-第7章 数据对象——面向数据对象学习R语言
--第7章 作业
-第8章 人人都爱tidyverse
--第8章 作业
-第9章 最美不过数据框
--第9章 作业
-第10章 观数以形
--第10章 作业
-第11章 相随相伴、谓之关联
--11.1 导引
--第11章 作业
-第12章 既是世间法、自当有分别
--12.1 导引
--第12章 作业
-第13章 方以类聚、物以群分
--13.1 导引
--第13章 作业
-第14章 庐山烟雨浙江潮
--第14章 作业