当前课程知识点:数学建模 > 第2章 数据处理方法 > 2.1 最小二乘方法 > 2.1.1 最小二乘方法原理
同学们 大家好
我们上节课已经讲过了第一章
主要介绍一下数学建模的一些过程跟一些方法
那我们今天开始说第二章
一种非常重要的一种建模的手法
我们把它称作为数据处理方法
那么在数据处理方法当中的话
我们一般来说分为两类
一类是最小二乘方法
一类呢是插值方法
好的 说到了数据处理的话
那么首先面对的一个概念
就是什么是数据
关于数据的话
实际上我们都非常清楚
我们同学们每次月考对吧
期中期末考试的分数 虽然就是一个数据
那么对这些数据
我们怎么来分析 怎么来处理
那我们大家都知道
我们的分数实际上就体现在我们同学之间的
一种前一段时间的努力跟刻苦跟用功的
所以我们说 数据能够反映一些信息 怎么能挖掘
或者说这些信息
这是我们所要面临的一个非常重要的问题
那么直到现在社会来说
数据量已经越来越大了
所以我们有海量的数据
有天文数据 大数据等等
这些挺时髦的一些话题
那么所谓数据挖掘的就是基于数据来做一些分析
那么数据怎么来做分析呢
实际上的话
我们接下来可以从一个非常简单的一个例子来说
我们可以考虑一些非常简单的一些数据
例如 我们就拿分数来说 对吧
我们把这些分数排在一块
我们可以考虑分数的一些所谓的平均值啊
那么对于平均值来说
那就用的非常多了
我们考试的分数
全班的分数有个平均值
我们去物理实验 测量个桌子的长度有个平均值
那么很简单
就要开问大家一句话
那平均值的根据在哪个地方
为什么用平均值就可以来反映
我们一些事物本身的一些信息呢
有了平均值以后够不够呢
所以很多统计学家就给出了
另外一种数据处理的方式就用我们的中位数
还有我们的众数
所谓中位数说的很简单一点
就是把一些数据呢
从大到小把它排列起来
从中找一个最中间的那个数
我们的中位数
当然如果总体来说是个奇数
那中间那个就好找了
如果是偶数呢
那就找他中间两个数
他跟他说过
对半分做个平均值就可以了
那要是为了众数
那当然就是指的是
这一组数据当中出现的次数频数
最高的那个数
我们就把它称之为众数
那有了这些数据以后的话
我们一个老师可以收集全班的人的分数
那对于将来要做些研究的话
那对于将来要做些研究的话
那这数据可以怎么来的呢
那我想这些数据呢
我们可以通过一些特别的办法
通过一些手段年鉴啊
报表啊
一些刊物啊
一些网络的资源呢
甚至我们可以自己去做些实验的观测
那么对于所有的数据来说一定准确吗
所以我们很自然要提出一个问题来啦
因此呢 关于数据的准确性
关于数据的误差的处理呢
这就意味着我们将来数据处理里面
一个很重要的一个分歧
对于那数据的误差怎么来处理
那么意味着我们将来
可能会得到什么样的一个数学模型
或者说一种什么样的数学建模的手法跟方法
那么在误差里面
一般来说
我们说有两种误差
一种呢系统的误差
那么对于系统的误差的话
我们认为还是可以调整的
还是可以避免的
但是呢
有一种误差是不好调整的
就是我们通常说的随机的误差
比如很简单
我们的考试分数可能是取决于你当时的状态
还是取决你前一段时间的用功
还是取决于各方面的一些因素
那这些因素可能综合起来
体现在你的分数上
这样所造成的误差可能就不好调整
也不可避免的事情
下面我们给个小例子
大家感觉一下 这是我们通常看电视
CCTV都会有一个全国的青年歌手大赛对吧
我们假设有12个评委
对歌手可以进行打分 对吧
那么一是我们得到了一些分数
例如8.7分 8.8分
一直到还有8.85分 等等来说
那么怎么来处理这个事情呢
那么 按照我们通常的一种惯例来说
我们就开始把这些分数呢
从小到大的给他做个排序对吧
可以考虑一下我们将这些评委的一个分数的平均值
就是我们的所有人
12人的分数加起来再除以12
得到一个分数
最后我们说认为这个歌手的得分就是这个平均值
我们还可以借助一些别的办法
例如我们通常在体育比赛里面就有一种办法
去掉一个最高分去掉一个最低分
这12个人 于是呢 最后才剩下十个人
我们把这十个评委的平均值加起来再除以十
这也是我们说可以作为这个歌手
或者作为体育比赛的运动员他的一种得分
甚至呢 我们可以对这样十二个评委
十二个专家 每个专家
我们认为他的水平不一样
可以给定他不同的权重
不同的权值 对这十二个评委
十二个专家进行一种加权平均
这是我们说的加权平均值的处理方式
还有呢
按照现在目前来说
进展下来就会有一种每一个评委的权重呢
它不是一个长权
它可能是跟大家相互之间的状态发生一种关系
所以我们把它称之为一种变权
那我们可以考虑
变权的平均值来进行处理
好的 这么一来的话
把每个歌手的得分就可以统计出来了
那么对这么一个事情
大家可以想象
为了体现我们对于比赛的一种公平
一种透明或者说我们为了提高他的相应的
收看率
那么这样在歌手大赛里面
我们还会说一些别的小动作
例如可以弄一些仲裁引用一些观众
观众的可以对评委的在打分呢
进行一种质疑等等来说
调动我们的观众的一种参与程度
比如我们说
假设我们某个评委的得分
给每个歌手打的分数
我们刚才列出来
这是我们来列出了十个分数
也就对应着十个歌手
那么很自然就开始考虑这个评委
他的专业怎么样
或者说他的专业水平怎么样
或者说他的分数打的准不准对吧
大家可以设想一下
如果这个评委每次都打得很高
最后呢
或者说离我们所有的选手的得分差距比较大
那大家可以想象出来
那么我们会认为这个人是不是有点什么想法
还是源于什么特别的意义还是怎么着的事情
所以我们的观众的就可以质疑了
质疑很自然的话
我们仲裁就可以对这些事情进行一个评判
既然是专家
我们肯定是希望什么
希望这个评委打的分数跟歌手最后的分数
应该这种差距应该是越来越小
甚至我们说为零这当然是最好的事情了
因此我们就利用这种数据
我们还可以对专家的水平啊
我们有个比较客观的一个评价
这是我们做一个简单小例子
一个数据处理的一种办法
那么接下来的话
我们又开始回到我们刚才的问题来了
我们为什么可以用平均值来表示歌手的得分
那么这种平均值表示
歌手的得分
他的数学根据是什么东西
所以我想今天借这个机会就想跟大家来聊聊这个话题
我们刚才提到了关于数据资料
要构建数学模型的话主要取决于什么呢
主要取决我们说它的数据的误差的一种处理
那我们刚才也提到了关于一些问题来说
尤其一些实际问题
如果他的因果关系
如果他的因素的机理
如果因素的作用能够说清楚的话
那大家可以想象出来
那就将来是因为这个东西
所以这个东西然后得到什么东西
那么我们说这个整个推理的条路
或者因果关系非常清楚
那么对于这一种实际问题的建模方法的话
我们下次课会来专门来讲解
机理模型的筹建或者组建的事情
那我们今天在数据处理里面
我们要讨论的是一些机理关系不是很清楚的
但是呢
我们就认为数据呢
又能够确实反映这个事物本身的一些信息
意思呢我们从数据的角度
来组建一些数学模型
以借助于它能够反映
或者说能够刻画事物之间的一种作用
事物之间的一种关系事物之间的作用与关系
那么在这个过程当中
我们这样所得到的一个模型
我们把它称作为拟合模型
那么拟合模型跟我们刚才说的
对于数据里面的一些误差的一种观点怎么能关联起来呢
我们就开始利用数据来组建我们的数学模型
那其中最关键的地方
就取决于我们对数据的一些误差的一些看法
或者说对数据的误差的一种处理态度
我们再利用数据来处理
或者说利用数据来建立我们的数学模型
主要是来刻画我们的事物之间的一些关系一些作用
那么这里就取决于
我们对于数据的一些误差的一种看法
那么在拟合模型当中
我们认为他是在数据的误差
换句话说是对数据的一种拟合的精度
跟我们的数学表达式之间
简化程度之间做一个折衷
我们大家可以设想一下
我对于N个点来说
N个点位可以得到N个方程
N个方程的话
我就可以确定N个未知数参数出来
所以大家可以设想一下
我们最起码可以得到一个N减一次的
一个多项式函数
N减一次的多项式函数
那么这么一个函数
XN次方我们最简单X的十次方
那么这个函数复杂吗
我们一般认为
这种函数就非常复杂
复杂到哪种程度呢
我们认为你稍微X让它等于1
X等于二
X等于二点三
那么导出来的一的十次方
二的十次方二点三的十次方
这是一个很恐怖的一个数据了
所以我们说
一般来说这种次数太高的多项式
我们就有点害怕
我们就有点恐怖
不敢用了
所以我们认为数学表达式呢
我们将来就开始要尽量简化他
简化到N点1啊
N点2啊
N点3啊
这种一次多项式 二次多项式
三次多项式我们心里可能就比较踏实了
关于数据拟合的精度就是我们说误差的问题
如果把全部拿过来的话
我们可以得到一个高处的多项式
那么误差精度就为零了
对吧那么很自然的话
如果我们在这里面可以松动的话
那么我们换句话说允许它有点误差
或者允许数学表达式可以进行一些简化
那么在这之间
我们就可以做折衷
那么这种折中的想法
那将会导致我们两种不同的处理数据的一种想法
我们主要介绍两种处理数据的方法
一种呢就是我们说的拟合模型
一种呢就是我们的差值模型
那么关于插值模型
我们下次我们再来讲
我们今天主要来跟大家介绍一下
什么叫拟合模型
拟合模型呢我们又把它称作为经验模型
主要是研究什么呢
研究我们变量之间的一种内在的规律
那么同时呢
我们在这里面
我们就允许模型呢 会出现一定的偏差
我们说数学表达式的简化程度跟我们的偏差
我们之间形成一个折衷
当然按照大家都可以理解
我们总是希望在我们所找的数学表达式当中
希望找那种偏差最小的
那么我们认为是比较可靠的
或者说比较信度比较高的
这是我们说的这么件事情
那么按照这种想法下去的话
我们说这种思路在统计学里面可以得到很多别的模型
例如通常说的判别模型
主成分分析啊 分类啊
因子啊
时间序列啊
等等来说
这些模型都是基于这么一个想法来考虑的事情
我们开始用一个非常实际的一份数据
我们来考虑这么一个例子
人口的问题
我们就考虑我们国家的人口从49年到94年
我们可以通过统计年鉴
我们可以每隔五年把他的数据可以找出来
那么很自然的话
我就想问一下那么99年或者以后
我们国家人口数量发生什么一种变化
那么大家都可以想象出来的
人口问题是个非常复杂的问题
有很多专家
很多大家都是从不同的侧度
不同的侧面都来讲解他
或者说对它进行研究
因为我们曾经非常著名的控制论专家
还有写出了人口控制论
也有我们著名的统计学家
写出了我们的人口的随机模型的一种演变
但对于我们来说
这个问题大家可以想跟政策有关系
跟经济有关系
跟卫生有关系
跟社会有关系
这个问题就非常复杂了
我们就不好从机理的角度来研究它了
那我们又认为数量 数据能够
反映我们一些本身的一些信息
所以接下来就从数据处理的这种角度来研究
国家的人口问题
你现在不知道了年份吗
知道了人口数吗
我现在就开始把年份跟人口数量构成了一个坐标
构成一个坐标
我们可以在一个平面直角坐标系之下呢
可以把它散点图可以给他描出来了
那么再见散点图里面我们来看看这个散点图
初看呢
大家可以看看近似在一条直线上
但是他又不是严格在一条直线上
大家会说了
如果是严格在一条直线上
我用两个点就可以把这条直线跟他刻画清楚
我们说现在才十个点
对吧
大家可以设想十个点要都在一条线上的话
这种可能性有多大呢
我们就这种可能性肯定非常小的事情了
那么怎么办呢
意思呢
我们就牵制到了我们来处理误差的观点
这一讲我们就告一段落
-1.1 案例分析
-1.2 数学建模绪论
-1.3 数学建模活动
-第1章 习题
--第1章 习题
-2.1 最小二乘方法
-2.2 拟合函数的扩展
-2.3 最小二乘方法应用
-2.4 线性插值
--2.4 线性插值
-2.5 样条插值
--2.5 样条插值
-第2章 习题
--第2章 习题
-3.1 Malthus模型
-3.2 Logistic模型
-3.3 捕食者模型
-3.4 差分方程模型
-3.5 随机动态模型
-第3章 习题
--第3章 习题
-4.1 成对比较矩阵
-4.2 一致性指标
-4.3 权重向量的计算
-4.4 量纲分析
--4.4 量纲分析
-4.5 轮廓模型
--4.5 轮廓模型
-第4章 习题
--第4章 习题
-5.1 名额分配
--5.1 名额分配
-5.2 Hamilton方法
-5.3 Q方法
--5.3 Q方法
-第5章 习题
--第5章 习题
-6.1 两变量的线性规划
-6.2 单纯形方法
-6.3 整数规划
--6.3 整数规划
-第6章 习题
--第6章 习题
-7.1 模糊集合
-7.2 模糊关系
--7.2 模糊关系
-7.3 模糊综合决策
-7.4 模糊聚类分析
-第7章 习题
--第7章 习题