当前课程知识点:简明线性代数 > 第6章 内积空间 > 6-5 最小二乘问题 > 6-5 最小二乘问题
同学们 大家好
欢迎来到MOOC课程
线性代数先修课
第六章 内积空间
6.5节 最小二乘问题
在本讲中
我们将考虑线性方程组的
第六个基本问题
也即解的近似问题
首先 我们将提出
近似解的标准问题
从而得到了所谓的
最小二乘解问题
其次 我们将给出
求出近似最优解的方法
也即 求解最小二乘问题的方法
最后 我们将列举几个
最小二乘解在实际问题中的应用
首先 我们来看问题的提出
也即近似解的标准
我们回顾一下
线性方程组的第六个基本问题
也即解的近似问题
具体地来说
假设非齐次线性方程组
由这样的矩阵形式给出
则当该方程组无解时
我们把它称为矛盾方程组
在一些实际问题当中
由于各种因素的干扰
和测量的误差的影响
使得方程组不一定存在精确解
但往往又需要
求得它的一组近似解
以便对实际情况的一般规律
进行估计和预测
于是可以考虑求出某种近似解
那么 应该采用
什么样的近似标准呢
本节我们就来讨论这个问题
我们仍然利用代数与
几何相结合的方法来考虑
首先 从代数上看
矛盾方程组无解一定满足
系数矩阵的秩不等于
增广系数矩阵的秩
进一步 如果我们把
A表示为列分块的形式
也即设它的列分别为α1…αn
则线性方程组的左边
就有如下向量表示的形式
如果当x1 x2…xn跑遍
全体实数时
向量X就跑遍了
整个n维向量空间
则上式就生成了Rm中的
一个子空间
我们把它记为
α1…αn生成的子空间
也即当X跑遍
全体n维向量的时候
AX表示的全体向量
那么我们都知道
这个空间实际上就是
A的列空间
我们把它记为ColA的形式
因此 从几何上看
矛盾方程组无解的原因
就是向量b不属于
系数矩阵A的列空间
于是 求近似解的问题
就相当于在A的列空间当中
找出一个向量使之
与原向量b最为接近
那么 这个近似的向量
应该如何寻找呢
好 如果我们设
b不属于A的列空间
并且记W为A的列空间
则从直观上看
W中最接近b的那个向量
就是向量b在W上的
正交投影向量
我们把它记为β
又因为β属于W
所以我们可以设
β是等于A乘X0的形式
则这个X0就是我们
所要求的近似解
把它表示为数学公式
就是这样的一个形式
两边取平方就得到了
一个等价的数学算式
从这个意义上讲
X0就是矛盾方程组的
最优的近似解
我们把它称为最小二乘解
求最小二乘解的问题
就称为最小二乘问题
这里说明一下
所谓的最小二乘
实际上是源于向量模长平方
是等于其分量的平方和
上述讨论是在直观意义下进行的
下面我们将给出严格的证明
说明正交投影向量β
确实是W当中与b最接近的向量
定理1 也即最佳逼近定理
设W是欧氏空间Rn中的子空间
对Rn中任意向量b
我们设b括号W为
b在W上的正交投影向量
则我们有下面的不等式成立
也即正交投影向量
和b之间的距离小于
b与W当中其他向量的距离
因此就说明了正交投影向量
确实满足这种最佳的逼近性质
下面我们来证明定理1
若向量b属于W
则它在W里的正交投影向量
就是它自己
则又因为我们说w不能等于b
则b与w的距离一定要
严格大于0
从而这种情形下结论成立
下面我们考虑b不属于W的情况
具体图像如下
并且我们把bW表示为
这样一条粉色的向量
于是b减去bW就属于
W的正交补空间
进一步我们设w是W当中
任意一个与bW不相同的向量
特别我们就知道
b减去bW一定要正交于bW-w
因为bW-w也是
子空间W里的一个向量
于是我们考虑由向量bW
以及向量w三个向量的终点
构成的三角形
也就是这里橘色的三角形
这是一个直角三角形
那么由勾股定理
我们就有这样一个等式
由于w≠bW
因此我们有bW-w的模长
要严格地大于0
把它代入上面勾股定理的等式
我们就得到了定理1当中的
不等式成立
从而我们就证明了最佳逼近定理
二 近似最优解的求法
最小二乘法
下面我们来讨论如何求
这个最优近似解
我们令β等于向量b到
W上的正交投影向量
并且把A表示为如下
列分块的形式
考虑向量b减去向量β
它与W也即A的列空间是正交的
因此我们得到b-β应该和
A的每一个列均正交
用标准内积表示出来
就可以写为这样的形式等于0
将上述n个式子按行排列起来
就可以得到这样的一个等式
进一步 我们就可以把
最左边这个列向量
表述成为A的转置
它们乘完以后应该
等于零向量
由于β是属于列空间的
所以我们可以把β
表示为A乘X0的形式
并且代入上式展开以后
就可以得到
A转置乘以A再乘X0等于
A转置乘以b的形式
也就是近似解X0要满足
这样一个非齐次线性方程组
通常我们把这样一个
线性方程组称为
原来方程的法方程
把上面的结果写为结论
就得到了如下的定理
对于矛盾的非齐次
线性方程组Ax=b
我们有
第一点 可用法方程的解作为
原矛盾方程的最小二乘解
第二点 法方程必然有解
且当A为列满秩矩阵的时候
A转置乘以A为可逆阵
于是法方程有唯一解
具体形式如下
需要说明的是
定理2已经给出了
求最小二乘解的方法
也即求解对应的法方程
并且在理论上保证了
法方程必然有解
所以在实际计算中
我们只须按一般
非齐次线性方程组的
求解步骤去计算
法方程的通解即可
下面我们就来证明定理2
先证第一点
之前的推导已经说明
原方程的最优近似解
就是法方程的解
下面我们来说明
法方程的解必为
原方程的最优近似解
设n维向量y满足法方程
也即A转置乘A再乘y
等于A转置乘以b
从而我们把它移到
等式的同一边
把A转置提出来以后
就得到了这样的一个等式
这个式子说明了
b-Ay与A的列向量均正交
从而就说明b-Ay这个向量
与A的列空间是正交的
进而有这样一个分解式
我们可以把b分解为
Ay再加上b-Ay的形式
其中Ay是A的列空间里的向量
而b-Ay是属于A的
列空间的正交补空间
那么由正交分解的唯一性
我们就知道了
则Ay就必然等于
b在A的列空间上的
正交投影向量
因此y就是原方程的
最小二乘解
即最优近似解
下面我们来证
法方程必然有解
要证法方程必有解
则只需证其系数矩阵的秩
等于增广系数矩阵的秩
也即这两个矩阵的秩相等
一方面由秩的性质
我们有增广系数矩阵的秩
等于把A的转置都提出来以后
得到的这个矩阵的秩
那么又由矩阵乘积的秩
小于各自的秩
我们就知道了
它小于等于A转置的秩
而又等于A的秩
另外一方面
增广系数矩阵的秩
要大于等于系数矩阵的秩
而由5.1节中的例4的结论
我们可以知道
A转置乘A的秩要等于A的秩
这个结论我们是用
两个齐次线性方程组同解的
结论而得到的
那么综合上面的两个不等式
就得到了法方程的
系数矩阵的秩等于其
增广系数矩阵的秩
故法方程必然有解
进一步 又因为
A转置乘A为n阶方阵
当A列满秩的时候
我们就知道法方程的
系数矩阵为满秩矩阵
即为可逆矩阵
从而我们在法方程的两边
同时乘以其系数矩阵的逆
就可以得到其唯一解
是这样的形式
从而我们就证明了这个定理
下面我们来看一个简单的例子
例1 求出以下线性方程组的
最优近似解
首先这个方程组比较简单
两个方程的左边完全一样
但右边不相等
因此明显地是一个矛盾方程组
下面我们就来求这个
矛盾方程组的最优近似解
我们令系数矩阵A
和常数列向量b如下给定
从而我们可以去计算
A转置乘A等于
这样一个3阶矩阵
而A转置乘b就是
这样一个3维列向量
从而我们就知道了
法方程就是三个
这样的方程的重复
从而我们可以把它
简写为一个方程
即x+y+z=3/2
用高斯消元法
我们可以解得法方程的通解
也即原方程的最小二乘解
就是这样的形式
其中k1 k2为任意实数
下面我们从几何方面
来看例1的结果
在行图的观点下
最小二乘解的集合
是一个平面
与原来已知的两个平面平行
落在它们的中间且距离相等
这里红色箭头所指的
就是我们最小二乘解的解集合
在列图的观点下
最小二乘解左乘A以后
就应该等于常数向量的
正交投影向量
具体图像如下
其中黄色直线就是A的列空间
而红色的向量就是向量b
则我们很容易计算出
向量b在A的列空间的投影
就是这样的一个粉色的向量
它等于向量(3/2,3/2)
所以 也即这个向量就是
A的列空间当中
与b最接近的向量
需要注意的是
我们所求的最小二乘解
并不是列图当中的投影向量
而是左乘A以后等于
投影向量的全体向量
也即行图当中中间的那个平面
三 最小二乘解的应用
在一些实际问题里
人们想知道
某些变量之间的函数关系
可以通过实验获得数据
再从实验数据求出函数关系
这就是统计学中所谓的
曲线拟合或者是回归问题
我们从最简单的例子出发
来说明最小二乘的应用
例2 设有以下实验数据
第一行为自变量x的值
第二行为函数y的值
请大家求形如y=a+bx的函数
也就是一次函数
其中a b为待定参数
使它与实验数据的
误差平方和最小
下面我们就来求解这个问题
假设a b已经确定
则当自变量x=1 2 3 4 5时
则函数值y应该得到
如下的理论值
即将x=1 2 3 4 5分别代到
一次函数里所得到的值
我们把这些值记为
y1* y2*…y5*
进一步把这些方程组
表示为矩阵形式
就等于这样的形式
其中我们把这个矩阵记为A
而后面这个向量记为y*
从而可以把它简写为
A乘以向量a b等于向量y*
它们与实验数据的
误差的平方和是等于
这样的一个形式
即y*i减yi的平方再求和
把上式表示为向量内积的形式
且求最小值
就可以表示为这样的形式
而这个形式与我们之前
所给出的最小二乘解的形式
是一致的
从而求误差平方和最小值
就是求关于方程组
A乘a b等于y的最小二乘解
那么由于矩阵A是这样的形式
而向量y是由
实验数据的表格给出
且A明显为列满秩的矩阵
则由定理2的第二部分
我们分别去计算
A转置乘A等于这样的
一个二阶矩阵
A转置乘y等于这样的
一个二维向量
而求A转置乘A的逆是
这样的一个矩阵
最后 最小二乘解就应该
等于这样的一个向量
即a0=0.61 b0=0.51
代到一次函数里
就得到了y=0.61+0.51x
这个就是我们找到的
最优的拟合直线
求出以上最小二乘解后
我们来看拟合直线的图像
图像当中黑色的点
表示实验数据
而红色的直线表示
我们刚才得到的拟合直线
它与实验数据的
误差的平方和最小
例3 设有以下实验数据
求二次函数y=a+bx+cx^2
其中a b c为待定参数
使得它与实验数据的
误差平方和最小
与上例的分析相同
我们可以说明
使得误差平方和最小的
二次函数系数a0 b0 c0
构成的列向量
就是如下线性方程组的
最小二乘解
即这样的一个方程组
其中我们把
系数矩阵表示为A
它是一个5行3列的矩阵
而常数向量表示为向量y
它是一个5维的列向量
仔细观察一下系数矩阵A
我们会发现它的前三行
组成了一个范德蒙矩阵
根据我们第一章的结论
其行列式不等于0
所以A是一个列满秩的矩阵
由A是列满秩
因此我们可以利用
定理2的第二部分
分别去计算A转置乘A
A转置乘以向量b
以及A转置乘以A的逆矩阵
从而得到原方程组的
最小二乘解
就是这样的结果
所以误差平方和
最小的二次函数
就是y=3.64+1.35x+1.11x^2
具体拟合图像如下
其中黑色点表示实验数据
红色的曲线表示我们刚才
拟合出来的二次曲线
它与实验数据的
误差平方和最小
本讲小结
在本讲中
我们讨论了线性方程组的
最后一个基本问题
即对矛盾方程组的
解的近似问题
我们首先讨论了
近似最优解的标准
从几何方面
通过最佳逼近定理
我们说明
常数向量b在系数矩阵A的
列空间的正交投影
是那个最接近的向量
从而求解形如这样的最优解
称为最小二乘解问题
其次我们给出了
求最小二乘解的具体方法
它等价于求解对应的法方程
我们证明了法方程一定有解
从而可按一般
非齐次线性方程组的
求解步骤来计算
最后我们给出了
最小二乘解在实验数据
拟合的问题中的初步应用
实际上 最小二乘问题
在很多实际问题的模型中
有着广泛的应用
感兴趣的同学可以
参阅更多资料
本章小结
本章的核心目的
是在高维向量空间中
引入度量的概念
而最基本的两个度量概念
就是长度与夹角
然而 与2维3维空间
不一样的是
在高维空间中
我们恰恰是反过来
用内积去定义长度与夹角的
从而把定义了内积的
向量空间称为欧氏空间
接下来在欧氏空间中
我们重点讨论了
正交相关的一些问题
包括正交基
施密特正交化方法
正交矩阵 正交投影
正交分解等概念和结论
上述正交的概念和方法
在几何问题的处理中
为我们带来了很大的便利
由于高维空间中的几何对象
很难想象
故我们很多时候是用
代数的方式来推导和描述的
同学们切不可仅仅关注
代数方面的形式推导
而忽略了其中蕴含的几何背景
最后作为一个理论方面的应用
我们利用正交分解的
最佳逼近原理
解决了线性方程组的
最后一个基本问题
即解的近似问题
好 本章的内容就到这儿
我们下章再见
-宣传片
--宣传片
-序论
--序论
-1-1 二元、三元一次方程组
-第1章 线性方程组--1-2 一般线性方程组的解法:Gauss消元法
-1-2 一般线性方程组的解法:Gauss消元法
-第1章 线性方程组--1-3 线性方程组解的判定
-1-3 线性方程组解的判定
-第1章 线性方程组--1-4 齐次线性方程组
-1-4 齐次线性方程组
-第2章 行列式--2-1 二阶、三阶行列式的性质
-2-1 二阶、三阶行列式的性质
-第2章 行列式--2-2 n元排列
-2-2 n元排列
--2-2 n元排列
-第2章 行列式--2-3 n阶行列式的定义
-2-3 n阶行列式的定义
-第2章 行列式--2-4 行列式的性质
-2-4 行列式的性质
-第2章 行列式--2-5 行列式的计算1-利用性质
-2-5 行列式的计算1-利用性质
--Video
-第2章 行列式--2-6 行列式的展开公式
-2-6 行列式的展开公式
-第2章 行列式--2-7 行列式的计算2-综合
-2-7 行列式的计算2-综合
-第2章 行列式--2-8 Cramer法则
-2-8 Cramer法则
-第3章 矩阵--3-1 矩阵及其线性运算
-3-1 矩阵及其线性运算
-第3章 矩阵--3-2 矩阵的乘法
-3-2 矩阵的乘法
-第3章 矩阵--3-3 矩阵的其他运算
-3-3 矩阵的其他运算
-第3章 矩阵--3-4 分块矩阵
-3-4 分块矩阵
--3-4 分块矩阵
-第3章 矩阵--3-5 初等矩阵
-3-5 初等矩阵
--3-5 初等矩阵
-第3章 矩阵--3-6 逆矩阵及矩阵可逆条件
-3-6 逆矩阵及矩阵可逆条件
-第3章 矩阵--3-7 逆矩阵的求法
-3-7 逆矩阵的求法
-第4章 向量空间--4-1 n维向量空间
-4-1 n维向量空间
-第4章 向量空间--4-2 向量组的线性相关性
-4-2 向量组的线性相关性
-第4章 向量空间--4-3 线性相关性的更多理论
-4-3 线性相关性的更多理论
-第4章 向量空间--4-4 极大线性无关组
-4-4 极大线性无关组
-第4章 向量空间--4-5 向量组的秩
-4-5 向量组的秩
-第4章 向量空间--4-6 矩阵的秩
-4-6 矩阵的秩
--Video
-第4章 向量空间--4-7 矩阵秩的运算律与相关结论
-4-7 矩阵秩的运算律与相关结论
-第5章 线性方程组的解理论--5-1 齐次线性方程组的解理论
-5-1 齐次线性方程组的解理论
-第5章 线性方程组的解理论--5-2 非齐次线性方程组的解理论
-5-2 非齐次线性方程组的解理论
-第5章 线性方程组的解理论--5-3 线性方程组的几何意义
-5-3 线性方程组的几何意义
-第5章 线性方程组的解理论--5-4 矩阵方程
-5-4 矩阵方程
-第6章 内积空间--6-1 向量空间中的内积与度量
-6-1 向量空间中的内积与度量
-第6章 内积空间--6-2 标准正交基与正交矩阵
-6-2 标准正交基与正交矩阵
-第6章 内积空间--6-3 Schmidt正交化与QR分解
-6-3 Schmidt正交化与QR分解
-第6章 内积空间--6-4 正交投影与正交分解
-6-4 正交投影与正交分解
-第6章 内积空间--6-5 最小二乘问题
-6-5 最小二乘问题
-第7章 矩阵的特征值理论--7-1 矩阵的特征值与特征向量
-7-1 矩阵的特征值与特征向量
-第7章 矩阵的特征值理论--7-2 特征多项式与特征子空间
-7-2 特征多项式与特征子空间
-第7章 矩阵的特征值理论--7-3 相似矩阵
-7-3 相似矩阵
--7-3 相似矩阵
-第7章 矩阵的特征值理论--7-4 矩阵的对角化问题
-7-4 矩阵的对角化问题
-第7章 矩阵的特征值理论--7-5 实对称阵的对角化
-7-5 实对称阵的对角化
-第7章 矩阵的特征值理论--7-6 特征值理论的几个应用
-7-6 特征值理论的几个应用
-第8章 矩阵与变换--8-1 矩阵映射与矩阵变换
-8-1 矩阵映射与矩阵变换
-第8章 矩阵与变换--8-2 二维三维空间中几类特殊的矩阵变换
-8-2 二维三维空间中几类特殊的矩阵变换
-第8章 矩阵与变换--8-3 矩阵映射的复合与矩阵乘法
-8-3 矩阵映射的复合与矩阵乘法
-8-4 矩阵变换的不变量与特征值理论
-第8章 矩阵与变换--8-5 坐标系替换与矩阵相似
-8-5 坐标系替换与矩阵相似
-第8章 矩阵与变换--8-6 正交变换
-8-6 正交变换
--8-6 正交变换