当前课程知识点:R语言数据分析 > 上部:问道 > 第1章 气象万千、数以等观 > 第1章 气象万千、数以等观
大家好
欢迎来到《R语言数据分析》课程
咱们这门课分成三部分和大家来交流
第一部分讲解我们这个方法论
第二部分讲解R语言这个工具
第三部分讲解数据分析的具体算法模型
今天和大家交流
我们这门课的第一个理念
叫做 “气象万千 数以等观”
随着数据时代的来临
我们身边的设备和系统表现出
越来越多的令人惊叹的智能的行为
比如我们上传一张照片到某个网站
它会自动识别出来照片里面每个人的年龄
在某些诊疗系统里面
通过具体的一些医疗图像
它可以识别出来
我们身体的状况是否有疾病
它一些疾病(比如肺癌)的治疗水平
已经超过了一些医生
再比如 我们利用某个聊天软件的时候
朋友发过来一段语音
它可以什么
自动识别
就仿佛听得懂这个话似的
当我们用某个音乐播放器时间久了
它也会自动识别出来我们的喜好
推荐一些我们感兴趣的歌曲
毫无疑问
类似这些设备和系统所表现出来的行为
它都不是我们事先人为设定的一些规则
而是基于大量的数据
它已经从这个数据里面发现了一些规律
识别出一些模式
然后才表现出这些让我们比较惊叹的
一些人工智能的行为
也就是说 一句话
所有的智能行为它其实都是什么
源于发现了数据背后的规律
说到规律的话
我想从人类历史上
第一个被发现的定律说起
这边有两幅图
左侧的话 是一位绅士的照片
右侧的话呢
是四个密闭容器
当然左侧这个绅士 相信大部分人都不认识
我们先看右侧这幅图
右侧这幅图里面有四个密闭容器
随着砝码的重量增加
这个密闭的容器的体积越来越小了
这幅图所表现出来什么
就是我们人类历史上
第一个发现的定律
叫做什么呢
波义耳定律(Boyle's law)
毫无疑问
左侧这位绅士也就是什么
也是波义耳(Boyle)
好 我们看看
具体来如何表述这个波义耳定律
波义耳定律是1662年提出来的
在密闭容器中的定量气体
在恒温下
它的体积和压强是成反比的
假如我们通过数学的方式
来表达的话就是什么
就是p等于k除以v
或者说p就表现为什么
v的一个函数
说完了我们人类历史上第一个被发现的定律
我们再看看
我们学过的第一个数学模型
当然 我这边要跟大家交流的第一个数学模型
应该也是世界上最简单的一个数学模型
是什么呢
1+1=2
1+1=2
毫无疑问
我们在上学之前父母就教给我们
一个苹果加另外一个苹果等于两个苹果
虽然说这个表达式非常简单
但是1+1=2
这里面已经包含了一个
非常非常有意思的数学符号
甚至可以说
假如我们要
评选从小学到高中
再到初中到大学
最好的一个数学符号是什么的话
那这个等号(=)应该是可以作为候选之一的
为什么这么说呢
等号可以有非常简单的意思
比如桌子上已经有一个苹果了
我再放一个苹果的话
毫无疑问就是两个苹果
这里面等号的左边和等号的右边是同质的
它是相同的事物
等号其实也可以有非常深的内涵
咱们再回到前面这个波义耳定律
我们看一下
它的表达式是什么呢
p=f(v)
p是什么呢
我们刚才讲了
p是压强
v是体积
我们思考一下
压强和体积是属于什么
两个完全不同的物理量
比如说我们压强说气压低
这个时候我们胸闷气短
然后我们再说这个体积比较大的时候
比如这个空间比较大
非常空旷 (心旷神怡)
毫无疑问它是完全不同的两个物理量
那这个时候我们
居然给它划上了等号
这就比较有意思了
和我们前面讲的1+1=2
这就完全不一样
为了进一步说明这个等号的深刻的内涵
我们再举几个例子
比如说我们现在想对这个房间的
温度进行控制的话
可以送入新的风进来
具体来讲我们可以遵循某些控制规律
比如说PID
其实所有的控制规律基本上可以用
这么一个方式u=f(e)来表达
就是利用偏差来消除偏差
也是利用温度的偏差(e)来消除它
左侧的话是一个控制量
右侧的话是偏差
具体来讲是什么呢
左侧的话其实是什么啊
是送风量
右侧的话呢
是这个温度的偏差
所谓的控制规律
其实就是将这个控制量
和偏差划上等号
毫无疑问
这个时候送风量和温度
也是两个完全不同的物理量
我们再看另外一个例子
我们现在都非常关注环境的问题
有一个研究表明什么呢
PM2.5的浓度 它等于什么呢
等于0.29个T
加上0.53个U
再加上0.2个V
这什么意思呢
毫无疑问
PM2.5 我们都知道这是污染物
然后 我们通过这个PM2.5
这个符号来表达什么
污染物的浓度
0.29个T
这个T是什么啊 是温度
0.53个U
U是什么呢 湿度
然后0.2个V是什么呢
V是风速
我们看一下
这个时候我们将污染物的浓度
温度 湿度 风速划上等号
同样这个等号左边和右边
都是不同的物理量
毫无疑问
这个等号和我们前面讲的
1+1=2是不一样的
什么意思呢
在这个划等号的时候
其实表明我们对一些规律已经识别了
当然我们客观世界所存在的
规律是千差万别的
但是在数学上要表达规律的时候
很大一部分规律都是用等号来表达
这就是我们为什么说
假如评选这么多数学符号
哪个数学符号最美好的话
那等号应该入选 也是这么一个道理
具体来讲
这个等号可以有非常丰富的内涵
这边给大家简单列了一下
左侧是一些关于等号的一些表达式
比如1+1=2
比如说可以是定义
可以是赋值
也可以是一些函数关系
所以等号在数学里面
它可以表达
具体的含义的话可以是
决定 等于 相当于 定义为
一种映射 一种等价于 一种制约 一种作用
所以这个万事万物的联系
假如我们要表达出来
我们通过语文的方式
可以有各种各样的语言来表达它
但假如通过数学方式来表达的话
很大一部分规律要
通过等号来给它刻画
讲到这的话
我们前面举了一些例子
这么多例子都说明什么
等号可以用来表征万事万物之间的联系
但可能有些同学会说了
你讲这么多例子
简直是 下笔千言 离题万里
你说这么多例子跟我们数据分析
有什么关系呢
跟机器学习 数据挖掘有什么关系呢
其实我们在做数据分析的时候
很大一部分任务都是在划等号
我们举个例子
比如说我们前面讲到
将一张照片上传到某个网站
它会自动识别出什么
照片里面人的年龄
它怎么做到的呢
就是有大量的图片
尤其是有标记的图片
图片里面人的年龄已经知道了
然后经过一个学习算法
训练出一个什么
训练出一个网络出来
然后将这个照片的像素点映射成什么呢
映射成这个年龄
也就是说
这里有一个又一个的像素点
比如说从左上角到右下角
有这么多个像素点
然后它都有相应的取值
将这么多像素点
映射成了这个年龄之后
其实就实现了什么
实现这个照片里面人的年龄的识别
具体过程是什么呢
相当于这样的
第一个像素点为x1
第二个为x2
假如说这个相片是315万像素的话
那就是从x1一直到x3150000
将这些像素点和谁呢
和年龄划上等号
当然假如要划上等号的话
必须做一个什么
做一个转换
必须识别出来这个模型
一旦通过某个算法
实现这个模型的识别的话
自然就可以做什么呢
将这个像素点映射为这个年龄
一旦划上了等号之后
也就实现了这个照片里面人的年龄的识别
也就表现出了这个相应的智能行为了
这个时候我们就不禁要问了
为什么说 一段邮件文本
可以和是否是垃圾邮件划上等号
然后一幅道路图像里面的像素点
可以和道路 天空 行人
这些类别划上等号(图像语义分割)
这是非常有意思的地方
实际上这也是我们在做数据分析的时候
让人非常激动的
让人非常兴奋的
是什么呢
就是一旦进行量化之后
看似风马牛不相及的很多属性特征
和我们关注的类别变量
可以划上等号
并且进一步做什么
做这个模式的识别
做规律的挖掘
当我们一旦建立这个模型
找到这个规律之后
这个系统也就表现出
相应的人工智能行为
爱因斯坦曾经也说过
我没有什么特别的天才
我只是有强烈的好奇心而已
无论是从事哪一门科学研究
包括我们做数据分析在内
为什么(看似风马牛不相及的事物)能划上等号
这些让人非常新奇的地方
应该是我们开展这些
数据分析的原动力
在接下来课程里面
我们会和大家一块交流一些具体的算法模型
并且讲述如何通过R这个工具
通过数据分析的视角来认识这个
世界的神奇和美好
本次课到此结束
谢谢大家
-第1章 气象万千、数以等观
--第1章 作业
-第2章 所谓学习、归类而已
--第2章 作业
-第3章 格言联璧话学习
--第3章 作业
-第4章 源于数学、归于工程
--第4章 作业
-讨论题
-第5章 工欲善其事、必先利其器
--第5章 作业
-第6章 基础编程——用别人的包和函数讲述自己的故事
--6.1 编程环境
--6.4 控制流
--第6章 作业
-第7章 数据对象——面向数据对象学习R语言
--第7章 作业
-第8章 人人都爱tidyverse
--第8章 作业
-第9章 最美不过数据框
--第9章 作业
-第10章 观数以形
--第10章 作业
-第11章 相随相伴、谓之关联
--11.1 导引
--第11章 作业
-第12章 既是世间法、自当有分别
--12.1 导引
--第12章 作业
-第13章 方以类聚、物以群分
--13.1 导引
--第13章 作业
-第14章 庐山烟雨浙江潮
--第14章 作业