当前课程知识点:数学建模 > 第2章 数据处理方法 > 2.1 最小二乘方法 > 2.1.2 最小二乘方法参数估计
同学们
我们接着刚才的人口的数据这个问题
我们继续来研究那么一样的
我们现在从49年到我们的2014年
因为我们现在已经20年了
我们可以查出1994年到我们国家2014年的人口数据
我们都可以查出来了
但是我们当然利用的数据还是利用49年到94年的数据
那么利用了这个数据以后的话
我们可以做这么件事情
我们可以建立一个时间跟人口数量的一个坐标轴
如果把这些散点呢
我们在坐标轴上给他描出来
描出来以后我们发现这些散点呢
近似在一条直线上
那么很自然的话
那我们接下来就看着它求这条直线的直线方程
也就通常说的
y 等于 a 加b x
那么a b呢
就是个参数
一个是截距
一个是斜率
那么利用这组数据 或者说这十个数据
我们怎么把它的斜率 把它的截距给它求出来呢
问题的想法
我们非常清楚
我们构建了一个数学模型
y 等于 a 加 b x
其中的x呢
跟y呢
就是我们的时间跟人口的数量
那么a b呢
就是我们两个变量 就是我们两个参数
那么紧接着下来我们就开始来考虑
是不是每一年的数据 都严格的会在这条直线上呢
那么我们刚才已经说过了
这种可能性非常小
也就换句话说
每一年的数据
我们跟它的理论值之间
它会有个差距
那么也就可以表示为yi 等于a 加b xi
那么有个差距
我们就证明他是个误差
我们用εi来表示
那么i从1 2一直到n 也就是n等于10
十个点里面我们都会有差距
那么很自然接下来就开始考虑
我们的误差应该怎么来处理它
每个点的误差
我们大家都可以想象出来
那就是我们的实际值 跟理论值之间的差距
也就我们通常说的yi减去 a减 b xi 之间的差距
每个点的差距用yi减a 减 b xi来表示
那么很自然的话
这么多个点
n个点
总的差距或者总的误差
我们应该怎么刻画呢
那大家会说了
总的误差好说啊
把每个误差都加在一块
那不就变成总的误差了吗
对 这确实是一种想法
那么这种想法将会导致什么样的结果呢
大家可以设想一下
两个数之间相差有正有负
我们可以设想一下
万一一种特殊的情况之下
正一百跟负一百
这不就互相抵消了嘛
正一万跟负一万这不是正负抵消了吗
最后总的误差不就是零了吗
最后总的误差不就是零了吗
那么跟我们原来老老实实在这些点上
那么跟我们原来老老实实在这些点上
本身每个误差都是零
那么总的误差也是零
这两种零
你怎么来区分呢
你不能说前面0为加
后面0为减
这就不好区分了
那么我们也可以想象出来
如果说的点都在那条线上
当然这是非常好的一些情况
如果出现正负抵消的话
这种情况就不是好办的事情了
那怎么办呢
所以接下来就开始想出另外一个办法了
我不让这些偏差或者误差去正负抵消掉
我把它变成一个同样一个号
是变成同样一个正号
还变成同样一个负号
按照我们常规来说
误差总是越来越小好
所以很自然的我们就可以设想都把它变成同样的一个正号
可能就比较好办了
针对我们刚刚说的那种如果是零的话
那就每个点都在那线上
当然这种是最好的一种情况
所以我们说的把它误差呢
都变成正号可能就比较好办的事情
那么大家说
如果你要一定要变成一个负号
那就变成0将是最大的误差了
那么跟我们常规的一些思维可能有点别扭
所以我们还是选择把这些防止它误差能够正负抵消
把它变成一个正号来处理
那么我怎么来变个正号呢
那我想我们接下来做的这件事情就是把误差变成了正号来处理
把每个误差呢
跟它平方 平方就变成了正号 然后把它相加起来
那么很自然就构成了我们的总的误差了
如果每个点都在那个线上
那么大家可以设想每个地方的误差都是零
那么总误差就是零了
如果你原来稍微有点偏差的话
那么这样构成的总的误差
它将会大于0的一个数据
所以这样一来就把我们的误差这种东西就体现出来了
好 构成了总的误差以后
那么得到这么一个函数表达式
Q等于yi减去a减去bxi 括号的平方
那么i呢
是从 1一直到n
把它求和相加起来
那么在这里面的话
XiYi就从已知知道的数据点呢
那么a b呢
就是我们要求的参数
那么希望能够求出使得偏差或者总的偏差最小的话
那么很自然
我们利用数学的一种办法就可以对Q呢
从关于a,关于b求偏导
并让它等于零
于是呢 就得到了我们的这么一两个表达式
Q呢关于A求偏导
让它等于零的话 我们整理过来
可以得到na加上b乘上一个∑xi 那么把它等于∑yi的求和
可以得到na加上b乘上一个∑xi 那么把它等于∑yi的求和
另外呢
关于B求偏导
我们也可以得到这么一个表达式
于是呢 得到一个二元一次方程组
那么从这里面我们可以把a 可以把b
可以给它求出来
a b求出来
于是我们就可以得到
这么一个表达式
a 等于负的 1.93 b 等于 0.146
于是呢 我们就说
我们的国家的人口数量 我们是基本上沿着这条直线来发生变化的
那么人口数量等于负的1.93
加上0.146乘上一个时间
那么把这个模型呢
我们带过来
我们可以来预测一下
我们或者说来验证一下我们之前的从49年一直到我们的94年
这块的数据
那么关于每一个点呢
我们刚才说过了都有个误差
那么总的误差呢
我们可以算出来
大概等于0.2915
这是我们说的这么一种方法
好的接下来我们开始把这种方法呢
我们再过来回忆一下
把它加上平方是做一件什么事情呢
是把防止它的误差正负抵消掉
把它变成同号
我们去加上一个平方
那么很自然就快说了
如果我想变成同号的变成正号的话
我都是除了平方以后 以外的话
我们还可以别的办法
例如可以加上绝对值
可以将同号变成正号
例如我们还可以加上四次方
还可以加上六次方
八次方等等
还有很多种办法
为什么仅仅是加平方呢
那么跟我们的想法
我们就开始简单分析一下
首先加上绝对值以后
那大家都知道 加了绝对值以后
绝对值 我们说y等于绝对值X
那么0这点的导数呢
一边是正1 一边是负1
那么它就出现了一种
非常不好的一个尖点的一种情况了
也就是我们的不光滑了
我们这么一来的话
我们意味着将来就不能求导来求出A跟B出来了
这就对我们的求解 AB的增加了困难
第二个
第二个
如果说四次方 如果是六次方甚至是八次方
我们说是可以求出a b出来
但是大家可以设想一下变成四次方 六次方 八次方
以至次数更高以后的话
求偏导关于a 求偏导关于b
那么这样的表达上不就复杂了吗
所以同样也是增加了我们将来求A跟B之间的一种困难
所以在这地方呢
我们选择一个既能满足我们的要求
又能够使得我们的求解比较方便
或者比较简单的一种办法就是加上平方
这就是我们通常说的最小二乘方法的一种由来
所以平方就是我们说二乘
所谓最小 这指得总的偏差达到最小
使得那个Q值达到最小
那我如果大家在我们平面直角坐标系再看一下的话
我们说每一个
散点呢
在那条直线上
那么实际上我们这个偏差是用什么来刻画的呢
实际上呢
是用这个散点的纵坐标之差来刻画的
例如一个yi 对吧
减掉一个a 加 b x这个点上
那么a 加 b x增长数那个线上那个点也就是我们说的
观测点给理想点之间的纵坐标之差的
作为它的误差或者说纵坐标之差的平方和作为它的误差平方和
来进行考虑的事情
这是我说的最小二乘方法的一种由来
好的 有了我们的线性的
或者说y的 a 加 b x
通过我们的最小二乘方法来确定我们的参数AB
得到了模型
我们也得到了我们的最好的一种拟合精度
那么众所周知
我们也知道
在人口问题里面还有一个非常非常有名的一个模型
叫Malthus模型
把人口的数量表出一个指数函数
因此就可以得到一个y等于a乘上e的bx次方
那么很显然
这个时候y跟x呢
就是个非线性的
不像我们刚才的线性函数
那么对于这么一个非线性函数怎么办呢
那我们有没有通过一种数学的办法
我们可以把它两边取上一个对数
虽然我们说y跟ax之间 它不是线性的
但是我们可以取完对数后发现
我们说x跟Iny之间它是个线性
于是呢 我们就会借助我们刚才这一套办法
把我们的lna 把我们的B点对点的给它求出来
于是呢
这样就得到了我们一个指数模型2.33乘上e的0.0177x证明函数
一样的我把这个函数带到我们刚才说
实际的数据观测数据里面的话
我们也可以得到一个所谓的拟合的精度
那么这个时候的拟合的精度呢
比我们刚才0.29呢
稍微要大一点点等于0.7437
我们把两个模型我们来带到我们的数据里面
我们可以看看我们预测出我们的2005年
2010年我们国家的情况是什么样的
用我们的线性模型来预测我们的05年大概是13.43亿
那么10年大概是14.16亿
那么实际上我们的人口的统计年鉴里面
发现了我们国家在05年大概是13.3亿
10年大概是14亿的数量
所以我们可以发现我们国家的人口数量可能是按线性变化规律
可能是比较好的
为什么因为对于我们的指数模型来说
05年得到了14.94
也就是快15个亿了
到了我们的10年呢 我们已经得到了16.33亿
那么这个时候偏差确实就比较大了
所以也就说明我们国家可能人口数量基本上的
线性模型证明的模式马上在增长的
这时我们得到了一个线性模型
一个指数模型对我们国家人口数量的一种分析
那么相应来说
我们也可以做一些讨论
把这49年到我们的94年
那么所有的观测数据是我的模型 I的数据
模型II的数据 还有模型 I的偏差
模型II的偏差
我们都可以把它拿过来一起来看一看
那么得到证明的表格
那么从这表格里面
我们可以看到它除了总的偏差
那么很简单
我们的线性模型里面总的偏差越小于
指数模型里面总的偏差
好的 今天我们这节课就说到这里了
下课 谢谢大家
-1.1 案例分析
-1.2 数学建模绪论
-1.3 数学建模活动
-第1章 习题
--第1章 习题
-2.1 最小二乘方法
-2.2 拟合函数的扩展
-2.3 最小二乘方法应用
-2.4 线性插值
--2.4 线性插值
-2.5 样条插值
--2.5 样条插值
-第2章 习题
--第2章 习题
-3.1 Malthus模型
-3.2 Logistic模型
-3.3 捕食者模型
-3.4 差分方程模型
-3.5 随机动态模型
-第3章 习题
--第3章 习题
-4.1 成对比较矩阵
-4.2 一致性指标
-4.3 权重向量的计算
-4.4 量纲分析
--4.4 量纲分析
-4.5 轮廓模型
--4.5 轮廓模型
-第4章 习题
--第4章 习题
-5.1 名额分配
--5.1 名额分配
-5.2 Hamilton方法
-5.3 Q方法
--5.3 Q方法
-第5章 习题
--第5章 习题
-6.1 两变量的线性规划
-6.2 单纯形方法
-6.3 整数规划
--6.3 整数规划
-第6章 习题
--第6章 习题
-7.1 模糊集合
-7.2 模糊关系
--7.2 模糊关系
-7.3 模糊综合决策
-7.4 模糊聚类分析
-第7章 习题
--第7章 习题