当前课程知识点:系统工程原理 > 第四章 系统预测 > 第四节 回归分析预测法 > 回归分析预测法
前面第三节我们一起学习了时间序列分析预测方法
那是一种
基于惯性原理的系统预测方法
所谓的惯性原理
就是说
我们所研究的那个系统量
在原来的发展是一个什么趋势
未来的发展还是什么趋势
原来的发展是比较平稳的
未来发展依然是平稳
原来的发展
有一个递增的趋势
那么在
未来的发展
依然是保持那个递增的趋势
规律不变
所以
基于惯性原理得到的预测方程
他的自变量
就是时间t
并不是去寻找
导致系统的发展变化的原因
咱们现在开始的第四节
将要学习一种
因果关系
预测原理
基于因果关系进行系统预测的方法
我们第四节学习的是回归分析预测方法
所谓的因果关系
其实有两种
第一种是确定的函数关系
比如说
圆的面积
等于π
乘以半径的平方
还有现在我们看到的
这个牛顿力学公式等等
自变量和因变量的关系是确定的
还有一种关系是不确定的相关关系
比如说
抽烟和患病的可能性
我们都知道
如果抽烟的话
对于某些疾病来说
患上的可能性就更高了
但是并不是有确切的把握
说如果抽烟
则一定会
患上某种疾病
另一个例子
儿女的身高和父母的身高的关系
我们都说
一般来讲
父母的身高越高 儿女的身高也应该越高
但是也未必
也有的父母个子比较高
但是儿女的身高却不那么高
这不是一种确定的相关关系
回归分析
就是进行不确定性因果关系分析的一种数学手段
当我们用回归分析的方法进行系统预测的时候
它分为这样几个步骤
首先第一步
就是从数据出发
来确定因变量
和自变量之间的关系
并且建立一个关系式
这第一步的阐述
其实就说明了回归分析预测它的基本的原理
它是从数据出发的
而并不是
真正地
去研究系统内部的各个要素之间的相互影响关系
或者系统的各个变量之间的相互转换关系
而是从样本数据出发
确定好因变量和自变量
所谓的因变量就是我们要研究的那个系统量
研究的就是它的发展变化
而自变量
就是导致
因变量发展变化的原因
我们要去研究因变量和自变量怎么办呢?
通过什么方式来进行呢?
是从数据的观察出发的
已有的条件
就是一组输入数据和
相应的一组
输出数据
把整个系统当作一个黑箱
不去研究内部
通过输入和输出的
关系的提炼
采用一个比较合适的数学关系式
去拟合它
这就是回归分析预测
第二步呢
是说对关系式中的参数进行估计
并且进行相应的统计检验
第三个
是筛选自变量
也就是从所有的自变量中找到影响比较显著的
剔除那些不显著的
第四是用求得的回归模型来进行预测
就是代入一组新的自变量
来看看
因变量的取值应该是多少
第五步
是对预测结果进行分析和评价
我们首先来看
回归分析预测中最简单的 最基础的
就是一元线性回归预测
一元线性回归
用于预测的时候
就是要处理
因变量y和自变量x之间的
线性关系的回归预测方法
这里给出了它的数学模型y等于a加上bx
其中a和b
称为回归系数
y就是我们要观察的那个
系统量
就是要研究
这个
系统量它的发展 演化情况
x
是导致y发生变化的原因
对于一元线性回归分析预测而言
其实我们只是抓住了主要矛盾
就是说
假设影响y的只有一个自变量
其他的自变量
都忽略了
一元线性回归分析预测方法
它首先
把y和x的现有的
统计数据
样本数据
做散点图
然后就观察y和x相互之间的关系
是不是呈为
近似的线性关系
如果是的话
那就把这个回归方程中a和b
两个系数把它找到
找到最合适的a和b的值
就可以确定
预测方程
怎么来获得参数a和b的值呢?
我们介绍两种方法
第一种是最小二乘法
所谓的最小二乘
它的基本思想就是
定义误差平方和Q
我们观察一下
误差平方和的公式
它等于yi减去
括号a+bxi
再求平方再求和
其中a+bxi
就是
代入了预测方程以后
得到的
在xi下的
预测值
而yi
是样本值
是测量值 是真实值
所以
测量值减去预测值
这个就是预测误差
求平方以后再求和
这就是误差平方和
最小二乘法的基本思想
就是要使得误差平方和达到最小
要使它达到最小 就是
令Q
分别对a和b求偏导
令其为0
可以求解到
a和b的表达式
在这个幻灯片里面已经给出来了
我们看一下b的表达式
其中x平均和y平均都是样本平均
分别是xi和yi的平均
所以b
是完全可以通过样本值
来求到的
再反过头来看a
y平均
x平均和b也都是
可以完全从样本值来求到的
因此通过这种方法可以把a b找出来
第二种方法
是解联立方程组的方法
我们虽然不能说代入任何的两个样本点
在这个回归方程里面
都认为等号可以成立
这是不允许的
但是
解联立方程组的方法认为
可以让
所有的样本点
全都分别地代入这个回归方程
然后再求和
认为等号成立
就是呈现在我们看到的公式
这样的话
就得到了一个方程
另外
再将y等于a加上bx两边分别乘以xi以后再求和
令等号依然成立
于是得到第二个方程
通过这两个方程可以分别求解a和b
我们也可以看到
现在我们看到的a和b都是可以
完全从样本数据
来求解得到
并且可以证明
这两种方法
就是解联立方程组的方法和前面的最小二乘法
得到的结果是等价的
接下来要进行回归效果的检验
就是y和x之间的统计线性相关关系是不是密切
决定了所用的线性预测方程
在多大程度上是可信的
这种检验我们是通过y和x的相关系数rxy的大小
来确定的
这里面给出来的是
rxy的经典的计算式
它等于x y的
协方差和
比上
x和y各自的方差和
求乘积再求根号
得到的rxy
它是满足
rxy绝对值小于等于1的
并且
会呈现出以下六种情况之一
我们看
这六种情况里面
最左边的两种
上下两个图分别代表着
相关系数等于1和等于-1两种情况
意思是说
在这种情况下
所有的样本点
都恰好在一条直线上
斜率为
正
或者斜率为负
这都没关系
它们都说明
是y和x完全线性相关的
斜率为正
则是完全正线性相关
斜率为负
则是完全负线性相关
中间的这两个图上面是0小于r小于1的情况
是表示y和x呈一定的正线性相关关系
到达什么样的程度呢?
要具体地计算r等于多少
下面这个图是-1小于r小于0的情况
说明y与x呈一定的负线性相关
右边这两个图情况有所不同
虽然它们都是计算出来r等于0的情况
但是上面这个图代表着
y和x不存在线性相关关系
并且
看起来好象y和x几乎不存在关系
而下面这个图呢 则代表着y与x
不存在线性相关关系
但是它们存在别的函数相关关系
我们要根据y和x的样本点值
去计算它们的相关系数
去判断
它是不是满足一定的线性相关性
这种检验方法就是取一定的显著性水平a
然后再根据样本量n
去查相关系数检验表
从而获得相应的临界值rc
如果我们利用样本点值计算出来的rxy的绝对值
是超过这个rc的
那么就表示xy之间
存在一定的
线性相关
或者换一种说法
就是y和x之间的线性相关关系
在工程上认为是可以接受的
预测模型是可用的
这就是一元线性回归分析预测
第二个问题
我们来介绍一下多元线性回归分析预测方法
对于一般的系统来说
影响它的发展变化往往是
由多个因素所造成的
一元线性回归
只是其中一种最抽象
最简单 最基础的
是抓住了主要矛盾的结果
但是有的时候
因为分不清主次
多个元素你都不好舍弃
那么
就只有通过多因素的多元回归
才能够反映事物的本质
给出它的一般的表达
假设系统的变量y和k个自变量x1到xk之间存在
统计线性相关关系
并且给定n组这样的样本点数据
如果它们满足这样一个
线性关系
就是yi等于a0加上a1x1i
一直加到akxki加上ε(i)
那么
就可以取多元线性回归预测模型
为y
等于a0加上a1x1加上a2x2,一直加到akxk
多元线性回归分析预测它的基本步骤
包括这样几步
首先是给出待建的回归预测模型
这个模型形式前面看到了
第二步
是进行参数估计
就是要求
a0到ak这些回归系数的估计式
我们这里面给出来了
最小二乘法的
一个估计结果
就是A等于(XTX)-1
再乘以XTY
它的具体推导和表达
比较复杂
如果大家感兴趣的话
可以
看我们的教材
我们也可以在网络平台上进行讨论
如果记XTX=R的话
那么表达式还可以写成R-1乘以XTY
再记C等于R-1的话
那么就有A
等于C乘以XTY
步骤三
要对模型进行一系列的统计检验
前面我们在介绍一元线性回归的时候
只做了一个统计检验
针对多元线性回归预测模型 需要进行
多个统计检验
第一种统计检验就是标准离差检验
它的目的是
要检验回归模型的精度
计算公式
这里面我们给出来了
标准离差S
等于
根号里面
分母是
n-k-1
就是样本点数
减去
自变量个数减1
分子是
样本点值减去预测值
再求平方再求和
就是误差平方和
检验标准是
如果标准离差
比上
y平均
是小于10%到15%
那么就认为
这个回归模型的精度是可以接受的
第二个检验是相关系数检验
用复相关技术进行
它的目的是要检验整体线性相关关系是不是可信的
计算公式r等于
回归平方和除以总平方和再开根号
具体的展开
也在这个公式里面给出来了
可以看到
r是可以通过
样本点求到的
它的检验标准是
取一定的α
然后
查相关系数检验表
如果计算得到的r
超过查表得到的临界值rc的话
那么就
通过检验
第三个检验
是回归方程的显著性检验
也称为F检验
它是在一定的显著性水平下
来检验
假设ai=0 (i=1,…,k)是不是成立的
它的检验方法
就是首先定义F变量
它等于回归平方和除以k再比上
剩余平方和除以(n-k-1)
根据数理统计里面已有的结论
这样构造出来的一个统计量
它是服从F分布的
并且我们观察这个公式可以知道
这个F量也是
可以通过
样本点值给求到的
接下来取一定的显著性水平α
再查
F分布表
如果
计算得到的F超过查表得到的Fα这个临界值的话
那么就通过检验
下一个检验是t检验
也叫回归系数的显著性检验
它的目的是对每一个自变量xj与y的相关关系
单独地进行显著性检验
要检验假设某个aj=0是否成立
这个t检验
要对每一个自变量xj都要进行一遍
如果对
每一个j=1,…, k
都满足这样一个不等式
我们先看一下这个t变量是怎么构造的
它等于aj
除以S
再乘以根号cjj
其中aj
就是
这个回归系数的
估计值
S是标准离差 前面我们已经给出了它的计算公式
cjj是什么呢?
cjj是C矩阵
也就是XT乘以X求逆这个矩阵
这里面
对应于第j个自变量的
那个对角线上的元素
这样计算出来的tj
然后选取一定的显著性水平α
去查t分布表
得到一个临界值tα(n-k-1)
如果tj是大于tα(n-k-1)的
那么就认为
aj与零有显着差异
也就是
xj对y是有显著影响的
还有一个假设检验是DW检验
也叫剩余项的独立性检验
是检验拟合误差
ε(i)的相互独立性
DW的定义
是由ε(i)来决定的
而ε(i)就是在xi上
的预测值和真实值的差
它的检验方法是 取一定的显著性水平α
然后根据α n
(就是样本点数量)
k(就是自变量的个数)
然后去查DW表
得到du dl值
然后再根据我们教材上给出来的
检验规则表
得出检验结论
最后我们要来确定预测区间
把结论告诉大家
置信度为95%时
置信的上限
是yH等于y0加上1.96
乘以S
下限是yL等于y0减去1.96S
这里面
y0就是代入新的自变量以后
得到的预测值
S就是标准离差
最后给出结论
结论的内容应该包括
线性回归预测模型
其次
前面第三步中
进行检验所获得的那一系列参数
包括标准离差 复相关系数 F t等
还要给出
预测结果的某个置信度下的
预测区间
-课程概述
--课程概述
-为何学习系统工程
--为何学习系统工程
--人类基因工程
-第一节 系统的基本概念
--系统的基本概念
-第一节测试 系统的基本概念
-第二节 系统的分类
--系统的分类
-第二节测试 系统的分类
-第三节 系统思想的发展
--系统思想的发展
-第三节测试 系统思想的发展
-第四节 系统工程的概念
--系统工程的概念
-第四节测试 系统工程的概念
-第五节 系统工程的特点
--系统工程的特点
--扩展阅读
-第五节测试 系统工程的特点
-第六节 系统工程的发展与应用
--扩展资料
-第六节测试 系统工程的发展与应用
-第一节 还原论与整体论
--还原论与整体论
-第一节测试 还原论与整体论
-第二节 霍尔三维结构
--霍尔三维结构
-第二节测试 霍尔三维结构
-第三节 霍尔三维结构的应用
-第四节 切特兰德的调查学习法
-第四节测试 切特兰德的调查学习法
-第五节 调查学习模式的应用
-第六节 综合集成工程
--综合集成工程
-第六节测试 综合集成工程
-第一节 系统分析概述
--系统分析概述
-第一节测试 系统分析概述
-第二节 系统分析应用
--系统分析应用
-第三节 系统目标分析的目标手段法
--目标手段法
-第三节测试 系统目标分析的目标手段法
-第四节 系统环境分析的SWOT法
--SWOT法
-第四节测试 系统环境分析的SWOT法
-第五节 系统功能分析的IDEF0方法
--IDEF0法
-第五节测试 系统功能分析的IDEF0方法
-第六节 系统结构分析的ISM法
--ISM方法
-第六节测试 系统结构分析的ISW法
-第七节 ISM方法的应用
--ISM应用
--ISM-扩展阅读
-第一节 系统预测概述
--系统预测概述
-第一节测试 系统预测概述
-第二节 时间序列分析预测
--时间序列分析预测
-第二节测试 时间序列分析预测
-第三节 时间序列分析预测应用
--时间序列预测应用
-第四节 回归分析预测法
--回归分析预测法
-第四节测试 回归分析预测法
-第五节 回归分析预测法应用
-第六节 马尔可夫预测法
--马尔可夫预测法
-第六节测试 马尔可夫预测法
-第七节 马尔可夫预测法应用
--马尔可夫预测应用
-第一节 系统评价基本概念
-第一节测试 系统评价基本概念
-第二节 系统评价的一般步骤
-第三节 指标体系的建立
--指标体系的建立
-第三节测试 指标体系的建立
-第四节 指标权重确定方法
--指标权重确定方法
-第四节测试 指标权重确定方法
-第五节 指标数量化方法
--指标数量化方法
-第五节测试 指标数量化方法
-第六节 指标综合方法
--指标综合方法
-第六节测试 指标综合方法
-第七节 层次分析法及应用
--层次分析法
-第七节测试 层次分析法及应用
-第八节 主成分分析及应用
--主成分分析及应用
-第八节测试 主成分分析及应用
-第九节 数据包络分析法
--数据包络分析法
-第九节测试 数据包络分析法
-第一节 系统决策概述
--系统决策概述
-第一节测试 系统决策概述
-第二节 完全不确定型决策方法
--完全不确定型决策
-第二节测试 完全不确定型决策方法
-第三节 风险型决策方法
--风险型决策方法
--决策树应用案例
-第三节测试 风险型决策方法
-第四节 贝叶斯决策方法
--贝叶斯决策方法
-第四节测试 贝叶斯决策方法
-引言
--引言
-第七章 网络计划技术--引言
-第一节 网络图的组成与绘制
-第一节测试 网络图的组成与绘制
-第二节 网络图的参数计算
--网络图的参数计算
-第二节测试 网络图的参数计算
-第三节 网络图关键路线的确定
-第三节测试 网络图关键路线的确定
-第四节 任务按期完成概率分析与计算
-第四节测试 任务按期完成概率分析与计算
-期末考核