当前课程知识点:简明线性代数 >  第6章 内积空间 >  6-5 最小二乘问题 >  6-5 最小二乘问题

返回《简明线性代数》慕课在线视频课程列表

6-5 最小二乘问题在线视频

6-5 最小二乘问题

下一节:7-1 特征值与特征向量

返回《简明线性代数》慕课在线视频列表

6-5 最小二乘问题课程教案、知识点、字幕

同学们 大家好

欢迎来到MOOC课程

线性代数先修课

第六章 内积空间

6.5节 最小二乘问题

在本讲中

我们将考虑线性方程组的

第六个基本问题

也即解的近似问题

首先 我们将提出

近似解的标准问题

从而得到了所谓的

最小二乘解问题

其次 我们将给出

求出近似最优解的方法

也即 求解最小二乘问题的方法

最后 我们将列举几个

最小二乘解在实际问题中的应用

首先 我们来看问题的提出

也即近似解的标准

我们回顾一下

线性方程组的第六个基本问题

也即解的近似问题

具体地来说

假设非齐次线性方程组

由这样的矩阵形式给出

则当该方程组无解时

我们把它称为矛盾方程组

在一些实际问题当中

由于各种因素的干扰

和测量的误差的影响

使得方程组不一定存在精确解

但往往又需要

求得它的一组近似解

以便对实际情况的一般规律

进行估计和预测

于是可以考虑求出某种近似解

那么 应该采用

什么样的近似标准呢

本节我们就来讨论这个问题

我们仍然利用代数与

几何相结合的方法来考虑

首先 从代数上看

矛盾方程组无解一定满足

系数矩阵的秩不等于

增广系数矩阵的秩

进一步 如果我们把

A表示为列分块的形式

也即设它的列分别为α1…αn

则线性方程组的左边

就有如下向量表示的形式

如果当x1 x2…xn跑遍

全体实数时

向量X就跑遍了

整个n维向量空间

则上式就生成了Rm中的

一个子空间

我们把它记为

α1…αn生成的子空间

也即当X跑遍

全体n维向量的时候

AX表示的全体向量

那么我们都知道

这个空间实际上就是

A的列空间

我们把它记为ColA的形式

因此 从几何上看

矛盾方程组无解的原因

就是向量b不属于

系数矩阵A的列空间

于是 求近似解的问题

就相当于在A的列空间当中

找出一个向量使之

与原向量b最为接近

那么 这个近似的向量

应该如何寻找呢

好 如果我们设

b不属于A的列空间

并且记W为A的列空间

则从直观上看

W中最接近b的那个向量

就是向量b在W上的

正交投影向量

我们把它记为β

又因为β属于W

所以我们可以设

β是等于A乘X0的形式

则这个X0就是我们

所要求的近似解

把它表示为数学公式

就是这样的一个形式

两边取平方就得到了

一个等价的数学算式

从这个意义上讲

X0就是矛盾方程组的

最优的近似解

我们把它称为最小二乘解

求最小二乘解的问题

就称为最小二乘问题

这里说明一下

所谓的最小二乘

实际上是源于向量模长平方

是等于其分量的平方和

上述讨论是在直观意义下进行的

下面我们将给出严格的证明

说明正交投影向量β

确实是W当中与b最接近的向量

定理1 也即最佳逼近定理

设W是欧氏空间Rn中的子空间

对Rn中任意向量b

我们设b括号W为

b在W上的正交投影向量

则我们有下面的不等式成立

也即正交投影向量

和b之间的距离小于

b与W当中其他向量的距离

因此就说明了正交投影向量

确实满足这种最佳的逼近性质

下面我们来证明定理1

若向量b属于W

则它在W里的正交投影向量

就是它自己

则又因为我们说w不能等于b

则b与w的距离一定要

严格大于0

从而这种情形下结论成立

下面我们考虑b不属于W的情况

具体图像如下

并且我们把bW表示为

这样一条粉色的向量

于是b减去bW就属于

W的正交补空间

进一步我们设w是W当中

任意一个与bW不相同的向量

特别我们就知道

b减去bW一定要正交于bW-w

因为bW-w也是

子空间W里的一个向量

于是我们考虑由向量bW

以及向量w三个向量的终点

构成的三角形

也就是这里橘色的三角形

这是一个直角三角形

那么由勾股定理

我们就有这样一个等式

由于w≠bW

因此我们有bW-w的模长

要严格地大于0

把它代入上面勾股定理的等式

我们就得到了定理1当中的

不等式成立

从而我们就证明了最佳逼近定理

二 近似最优解的求法

最小二乘法

下面我们来讨论如何求

这个最优近似解

我们令β等于向量b到

W上的正交投影向量

并且把A表示为如下

列分块的形式

考虑向量b减去向量β

它与W也即A的列空间是正交的

因此我们得到b-β应该和

A的每一个列均正交

用标准内积表示出来

就可以写为这样的形式等于0

将上述n个式子按行排列起来

就可以得到这样的一个等式

进一步 我们就可以把

最左边这个列向量

表述成为A的转置

它们乘完以后应该

等于零向量

由于β是属于列空间的

所以我们可以把β

表示为A乘X0的形式

并且代入上式展开以后

就可以得到

A转置乘以A再乘X0等于

A转置乘以b的形式

也就是近似解X0要满足

这样一个非齐次线性方程组

通常我们把这样一个

线性方程组称为

原来方程的法方程

把上面的结果写为结论

就得到了如下的定理

对于矛盾的非齐次

线性方程组Ax=b

我们有

第一点 可用法方程的解作为

原矛盾方程的最小二乘解

第二点 法方程必然有解

且当A为列满秩矩阵的时候

A转置乘以A为可逆阵

于是法方程有唯一解

具体形式如下

需要说明的是

定理2已经给出了

求最小二乘解的方法

也即求解对应的法方程

并且在理论上保证了

法方程必然有解

所以在实际计算中

我们只须按一般

非齐次线性方程组的

求解步骤去计算

法方程的通解即可

下面我们就来证明定理2

先证第一点

之前的推导已经说明

原方程的最优近似解

就是法方程的解

下面我们来说明

法方程的解必为

原方程的最优近似解

设n维向量y满足法方程

也即A转置乘A再乘y

等于A转置乘以b

从而我们把它移到

等式的同一边

把A转置提出来以后

就得到了这样的一个等式

这个式子说明了

b-Ay与A的列向量均正交

从而就说明b-Ay这个向量

与A的列空间是正交的

进而有这样一个分解式

我们可以把b分解为

Ay再加上b-Ay的形式

其中Ay是A的列空间里的向量

而b-Ay是属于A的

列空间的正交补空间

那么由正交分解的唯一性

我们就知道了

则Ay就必然等于

b在A的列空间上的

正交投影向量

因此y就是原方程的

最小二乘解

即最优近似解

下面我们来证

法方程必然有解

要证法方程必有解

则只需证其系数矩阵的秩

等于增广系数矩阵的秩

也即这两个矩阵的秩相等

一方面由秩的性质

我们有增广系数矩阵的秩

等于把A的转置都提出来以后

得到的这个矩阵的秩

那么又由矩阵乘积的秩

小于各自的秩

我们就知道了

它小于等于A转置的秩

而又等于A的秩

另外一方面

增广系数矩阵的秩

要大于等于系数矩阵的秩

而由5.1节中的例4的结论

我们可以知道

A转置乘A的秩要等于A的秩

这个结论我们是用

两个齐次线性方程组同解的

结论而得到的

那么综合上面的两个不等式

就得到了法方程的

系数矩阵的秩等于其

增广系数矩阵的秩

故法方程必然有解

进一步 又因为

A转置乘A为n阶方阵

当A列满秩的时候

我们就知道法方程的

系数矩阵为满秩矩阵

即为可逆矩阵

从而我们在法方程的两边

同时乘以其系数矩阵的逆

就可以得到其唯一解

是这样的形式

从而我们就证明了这个定理

下面我们来看一个简单的例子

例1 求出以下线性方程组的

最优近似解

首先这个方程组比较简单

两个方程的左边完全一样

但右边不相等

因此明显地是一个矛盾方程组

下面我们就来求这个

矛盾方程组的最优近似解

我们令系数矩阵A

和常数列向量b如下给定

从而我们可以去计算

A转置乘A等于

这样一个3阶矩阵

而A转置乘b就是

这样一个3维列向量

从而我们就知道了

法方程就是三个

这样的方程的重复

从而我们可以把它

简写为一个方程

即x+y+z=3/2

用高斯消元法

我们可以解得法方程的通解

也即原方程的最小二乘解

就是这样的形式

其中k1 k2为任意实数

下面我们从几何方面

来看例1的结果

在行图的观点下

最小二乘解的集合

是一个平面

与原来已知的两个平面平行

落在它们的中间且距离相等

这里红色箭头所指的

就是我们最小二乘解的解集合

在列图的观点下

最小二乘解左乘A以后

就应该等于常数向量的

正交投影向量

具体图像如下

其中黄色直线就是A的列空间

而红色的向量就是向量b

则我们很容易计算出

向量b在A的列空间的投影

就是这样的一个粉色的向量

它等于向量(3/2,3/2)

所以 也即这个向量就是

A的列空间当中

与b最接近的向量

需要注意的是

我们所求的最小二乘解

并不是列图当中的投影向量

而是左乘A以后等于

投影向量的全体向量

也即行图当中中间的那个平面

三 最小二乘解的应用

在一些实际问题里

人们想知道

某些变量之间的函数关系

可以通过实验获得数据

再从实验数据求出函数关系

这就是统计学中所谓的

曲线拟合或者是回归问题

我们从最简单的例子出发

来说明最小二乘的应用

例2 设有以下实验数据

第一行为自变量x的值

第二行为函数y的值

请大家求形如y=a+bx的函数

也就是一次函数

其中a b为待定参数

使它与实验数据的

误差平方和最小

下面我们就来求解这个问题

假设a b已经确定

则当自变量x=1 2 3 4 5时

则函数值y应该得到

如下的理论值

即将x=1 2 3 4 5分别代到

一次函数里所得到的值

我们把这些值记为

y1* y2*…y5*

进一步把这些方程组

表示为矩阵形式

就等于这样的形式

其中我们把这个矩阵记为A

而后面这个向量记为y*

从而可以把它简写为

A乘以向量a b等于向量y*

它们与实验数据的

误差的平方和是等于

这样的一个形式

即y*i减yi的平方再求和

把上式表示为向量内积的形式

且求最小值

就可以表示为这样的形式

而这个形式与我们之前

所给出的最小二乘解的形式

是一致的

从而求误差平方和最小值

就是求关于方程组

A乘a b等于y的最小二乘解

那么由于矩阵A是这样的形式

而向量y是由

实验数据的表格给出

且A明显为列满秩的矩阵

则由定理2的第二部分

我们分别去计算

A转置乘A等于这样的

一个二阶矩阵

A转置乘y等于这样的

一个二维向量

而求A转置乘A的逆是

这样的一个矩阵

最后 最小二乘解就应该

等于这样的一个向量

即a0=0.61 b0=0.51

代到一次函数里

就得到了y=0.61+0.51x

这个就是我们找到的

最优的拟合直线

求出以上最小二乘解后

我们来看拟合直线的图像

图像当中黑色的点

表示实验数据

而红色的直线表示

我们刚才得到的拟合直线

它与实验数据的

误差的平方和最小

例3 设有以下实验数据

求二次函数y=a+bx+cx^2

其中a b c为待定参数

使得它与实验数据的

误差平方和最小

与上例的分析相同

我们可以说明

使得误差平方和最小的

二次函数系数a0 b0 c0

构成的列向量

就是如下线性方程组的

最小二乘解

即这样的一个方程组

其中我们把

系数矩阵表示为A

它是一个5行3列的矩阵

而常数向量表示为向量y

它是一个5维的列向量

仔细观察一下系数矩阵A

我们会发现它的前三行

组成了一个范德蒙矩阵

根据我们第一章的结论

其行列式不等于0

所以A是一个列满秩的矩阵

由A是列满秩

因此我们可以利用

定理2的第二部分

分别去计算A转置乘A

A转置乘以向量b

以及A转置乘以A的逆矩阵

从而得到原方程组的

最小二乘解

就是这样的结果

所以误差平方和

最小的二次函数

就是y=3.64+1.35x+1.11x^2

具体拟合图像如下

其中黑色点表示实验数据

红色的曲线表示我们刚才

拟合出来的二次曲线

它与实验数据的

误差平方和最小

本讲小结

在本讲中

我们讨论了线性方程组的

最后一个基本问题

即对矛盾方程组的

解的近似问题

我们首先讨论了

近似最优解的标准

从几何方面

通过最佳逼近定理

我们说明

常数向量b在系数矩阵A的

列空间的正交投影

是那个最接近的向量

从而求解形如这样的最优解

称为最小二乘解问题

其次我们给出了

求最小二乘解的具体方法

它等价于求解对应的法方程

我们证明了法方程一定有解

从而可按一般

非齐次线性方程组的

求解步骤来计算

最后我们给出了

最小二乘解在实验数据

拟合的问题中的初步应用

实际上 最小二乘问题

在很多实际问题的模型中

有着广泛的应用

感兴趣的同学可以

参阅更多资料

本章小结

本章的核心目的

是在高维向量空间中

引入度量的概念

而最基本的两个度量概念

就是长度与夹角

然而 与2维3维空间

不一样的是

在高维空间中

我们恰恰是反过来

用内积去定义长度与夹角的

从而把定义了内积的

向量空间称为欧氏空间

接下来在欧氏空间中

我们重点讨论了

正交相关的一些问题

包括正交基

施密特正交化方法

正交矩阵 正交投影

正交分解等概念和结论

上述正交的概念和方法

在几何问题的处理中

为我们带来了很大的便利

由于高维空间中的几何对象

很难想象

故我们很多时候是用

代数的方式来推导和描述的

同学们切不可仅仅关注

代数方面的形式推导

而忽略了其中蕴含的几何背景

最后作为一个理论方面的应用

我们利用正交分解的

最佳逼近原理

解决了线性方程组的

最后一个基本问题

即解的近似问题

好 本章的内容就到这儿

我们下章再见

简明线性代数课程列表:

第0章 序论 · 开篇

-宣传片

--宣传片

-序论

--序论

第1章 线性方程组

-1-1 二元、三元一次方程组

--1-1 二元、三元一次方程组

-第1章 线性方程组--1-2 一般线性方程组的解法:Gauss消元法

-1-2 一般线性方程组的解法:Gauss消元法

--1-2 一般线性方程组的解法:Gauss消元法

-第1章 线性方程组--1-3 线性方程组解的判定

-1-3 线性方程组解的判定

--1-3 线性方程组解的判定

-第1章 线性方程组--1-4 齐次线性方程组

-1-4 齐次线性方程组

--1-4 齐次线性方程组

第2章 行列式

-第2章 行列式--2-1 二阶、三阶行列式的性质

-2-1 二阶、三阶行列式的性质

--2-1 二阶、三阶行列式的性质

-第2章 行列式--2-2 n元排列

-2-2 n元排列

--2-2 n元排列

-第2章 行列式--2-3 n阶行列式的定义

-2-3 n阶行列式的定义

--2-3 n阶行列式的定义

-第2章 行列式--2-4 行列式的性质

-2-4 行列式的性质

--2-4 行列式的性质

-第2章 行列式--2-5 行列式的计算1-利用性质

-2-5 行列式的计算1-利用性质

--Video

-第2章 行列式--2-6 行列式的展开公式

-2-6 行列式的展开公式

--2-6 行列式的展开公式

-第2章 行列式--2-7 行列式的计算2-综合

-2-7 行列式的计算2-综合

--2-7 行列式的计算2-综合

-第2章 行列式--2-8 Cramer法则

-2-8 Cramer法则

--2-8 Cramer法则

第3章 矩阵

-第3章 矩阵--3-1 矩阵及其线性运算

-3-1 矩阵及其线性运算

--3-1 矩阵及其线性运算

-第3章 矩阵--3-2 矩阵的乘法

-3-2 矩阵的乘法

--3-2 矩阵的乘法

-第3章 矩阵--3-3 矩阵的其他运算

-3-3 矩阵的其他运算

--3-3 矩阵的其他运算

-第3章 矩阵--3-4 分块矩阵

-3-4 分块矩阵

--3-4 分块矩阵

-第3章 矩阵--3-5 初等矩阵

-3-5 初等矩阵

--3-5 初等矩阵

-第3章 矩阵--3-6 逆矩阵及矩阵可逆条件

-3-6 逆矩阵及矩阵可逆条件

--3-6 逆矩阵及矩阵可逆条件

-第3章 矩阵--3-7 逆矩阵的求法

-3-7 逆矩阵的求法

--3-7 逆矩阵的求法

第4章 向量空间

-第4章 向量空间--4-1 n维向量空间

-4-1 n维向量空间

--4-1 n维向量空间

-第4章 向量空间--4-2 向量组的线性相关性

-4-2 向量组的线性相关性

--4-2 向量组的线性相关性

-第4章 向量空间--4-3 线性相关性的更多理论

-4-3 线性相关性的更多理论

--4-3 线性相关性的更多理论

-第4章 向量空间--4-4 极大线性无关组

-4-4 极大线性无关组

--4-4 极大线性无关组

-第4章 向量空间--4-5 向量组的秩

-4-5 向量组的秩

--4-5 向量组的秩

-第4章 向量空间--4-6 矩阵的秩

-4-6 矩阵的秩

--Video

-第4章 向量空间--4-7 矩阵秩的运算律与相关结论

-4-7 矩阵秩的运算律与相关结论

--4-7 矩阵秩的求法

第5章 线性方程组的解理论

-第5章 线性方程组的解理论--5-1 齐次线性方程组的解理论

-5-1 齐次线性方程组的解理论

--5-1 齐次线性方程组的解理论

-第5章 线性方程组的解理论--5-2 非齐次线性方程组的解理论

-5-2 非齐次线性方程组的解理论

--5-2 非齐次线性方程组的解理论

-第5章 线性方程组的解理论--5-3 线性方程组的几何意义

-5-3 线性方程组的几何意义

--5-3 线性方程组的几何意义

-第5章 线性方程组的解理论--5-4 矩阵方程

-5-4 矩阵方程

--5-4 矩阵方程的求解

第6章 内积空间

-第6章 内积空间--6-1 向量空间中的内积与度量

-6-1 向量空间中的内积与度量

--6-1 向量空间中的内积与度量

-第6章 内积空间--6-2 标准正交基与正交矩阵

-6-2 标准正交基与正交矩阵

--6-2 标准正交基与正交矩阵

-第6章 内积空间--6-3 Schmidt正交化与QR分解

-6-3 Schmidt正交化与QR分解

-- 6-3 Schmidt正交化与QR分解

-第6章 内积空间--6-4 正交投影与正交分解

-6-4 正交投影与正交分解

--6-4 正交补与正交分解

-第6章 内积空间--6-5 最小二乘问题

-6-5 最小二乘问题

--6-5 最小二乘问题

第7章 矩阵的特征值理论

-第7章 矩阵的特征值理论--7-1 矩阵的特征值与特征向量

-7-1 矩阵的特征值与特征向量

--7-1 特征值与特征向量

-第7章 矩阵的特征值理论--7-2 特征多项式与特征子空间

-7-2 特征多项式与特征子空间

--7-2 特征多项式与特征子空间

-第7章 矩阵的特征值理论--7-3 相似矩阵

-7-3 相似矩阵

--7-3 相似矩阵

-第7章 矩阵的特征值理论--7-4 矩阵的对角化问题

-7-4 矩阵的对角化问题

--7-4 矩阵的对角化问题

-第7章 矩阵的特征值理论--7-5 实对称阵的对角化

-7-5 实对称阵的对角化

--7-5 实对称阵的对角化

-第7章 矩阵的特征值理论--7-6 特征值理论的几个应用

-7-6 特征值理论的几个应用

--7-6 特征值理论的几个应用

第8章 矩阵与变换

-第8章 矩阵与变换--8-1 矩阵映射与矩阵变换

-8-1 矩阵映射与矩阵变换

--8-1 矩阵映射与矩阵变换

-第8章 矩阵与变换--8-2 二维三维空间中几类特殊的矩阵变换

-8-2 二维三维空间中几类特殊的矩阵变换

--8-2 二维三维空间中几类特殊的矩阵变换

-第8章 矩阵与变换--8-3 矩阵映射的复合与矩阵乘法

-8-3 矩阵映射的复合与矩阵乘法

--8-3 矩阵映射的复合与矩阵乘法

-8-4 矩阵变换的不变量与特征值理论

--8-4 矩阵变换的不变量与特征值理论

-第8章 矩阵与变换--8-5 坐标系替换与矩阵相似

-8-5 坐标系替换与矩阵相似

--8-5 坐标系替换与矩阵相似

-第8章 矩阵与变换--8-6 正交变换

-8-6 正交变换

--8-6 正交变换

6-5 最小二乘问题笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。