当前课程知识点:大数据管理与挖掘 >  第7章 数据回归方法 >  7.3 逐步回归 >  7.3 逐步回归

返回《大数据管理与挖掘》慕课在线视频课程列表

7.3 逐步回归在线视频

下一节:7.4 Logistic回归

返回《大数据管理与挖掘》慕课在线视频列表

7.3 逐步回归课程教案、知识点、字幕

欢迎回来

我们继续讲本章的第三节内容

逐步回归

我们在这里面主要讲解

逐步回归的基本思想与它的步骤

逐步回归里面它的基本思想是

有进有出的一种思想

具体做法是将我们变量一个一个的引入

每引入一个自变量

我们对其引入的变量进行逐个检验

当我们将原引入的变量

在这过程当中逐步的进行累加

而后面引入的变量变得不再显著的时候

我们对其进行检验

引入一个变量

使其服从回归方程中的一些规则

然后呢当它们不服从的时候

我们剔除一些变量

将它作为一个逐步回归的过程

在这过程当中

每一步都要进行一个F检验

以每次引入的变量之前的关系

和回归方程时的包含的自变量进行计算

在这个过程当中要反复进行

重复迭代

直至无显著自变量引入回归方程为止

当然在这过程当中

对一些不显著的自变量

从回归方程引入过程当中

还需要逐步的剔除

直到剔除完为止

这样呢整个过程呢保证

所有的自变量之间存在一个显著关系

这个过程当中

我们还要逐步的进行最优化的

子集的设计和子集的计算

接着呢我给大家解释一下

我们逐步回归的一些基本思想和步骤

他们的第二个内容

对所有的因子按照他们的关系

和影响程度呢进行排序

使其从大到小

依次逐个地引入到回归方程当中

使我们整个回归过程

所包含的自变量都进行呢检验

看其结果是否存在显著

或者说仍然显著

如果不显著对其的进行其剔除

直到所有的回归方程中所有含的

所有的自变量

对 y 的作用都显著的情况下

才考虑引入我们新的变量

在所有的变量过程当中

在选出对y的作用比较最大的时候

检验效果是最显著的

对显著而言

引入方程

对不显著者

则不在引入

直到最后把所有的因子引入完为止

在整个过程当中

对不显著的变量还需要进行剔除

直到剔除为止

具体的步骤如我们的下面图所示

在这里面

在整个过程当中

采用 向前法

进行逐步的迭代

在这过程当中

将自变量逐个地引入方程

引入的条件是该自变量的回归过程当中

对未选入的自变量进行筛选

同时呢使其达到最大值

并经过F检验使自变量呢更加显著

在这过程当中

对每一个引入的新变量

还需要对先前引入的变量和方程

进行F检验

使我们的偏回归平方和最小

整个过程进行重复

直至我们剔除出所有方程为止

在这个过程当中我们的自变量不再引入

引入过程当中

方程的自变量不在增加直到剔除完为止

我们向后方法

采用的基本思想是

首先建立包含全部自变量的回归方程

然后逐步剔除自变量

先对每一组自变量进行F检验

剔除无显著性的变量

使它们的偏回归方程的平方和

达到最小的值

更新整个方程

接着对方程外的自变量逐个进行F检验

将偏回归平方和

最大的最显著特性的变量引入方程

然后对整个方程整个过程进行重复

直至方程中的所有自变量

都有显著特性

使它们的变量之间的关系没有显著为止

整个过程我们的自变量不多

但特别是我们的无显著的自变量

在不多的情况下可以使用这个过程

接下来我给大家解释一下

我们逐步回归的一些优点

它呢最主要体现在

它所含的自变量个数偏少

有利于使用

或者说有利于我们的整个的应用过程当中

它的剩余标准误差也比较小

方程的稳定性比较好

由于每步都需要检验

因此在整个过程当中保证了方程中的

所有自变量都是有显著性的

我们的逐步回归方法呢

主要应用于以下几个方面

一就是建立一个自变量个数比较小的

多元线性回归方程过程当中

它和一般的多元回归方程

用途基本一样

这样用于描述某些固定的元素

或是某些固定的一些元素间的相关关系

或者说它们的适量关系

比方说这里面的我们的疾病的预测等等

第二就是我们的因素分析

它有助于从大量的因素当中

对某一类数据现象做一些解释

使它们的显著特性或特征呢

能够快速的找出来

因此在在这过程当中

我们可以开展一些因素分析

比方说我们的病因分析

医疗健康分析等等

他们显著特征呢体现出来

通常还需要使用

向前方法

向后方法

对多个元素进行呢T检验

或者说异常数据的检验

同时呢结合我们的一些相关的业务知识

从中选定比较正确的或显著特性的一些元素

具体例子我们可以从我们下面如图所示

我们可以解释

这里面

我们说采用我们的一个模型

将我们的

水泥在整个过程当中呢凝固过程呢

进行假设

形成如下所示的四个假设过程

对他们的过程呢进行分析

通过这个实验呢

我们可以取得数据变量之间的相关关系

整个过程如我们的右面图所示

我们呢

接着对这个过程呢进行解释一下

按照我们第一种方法进行选择

具体过程呢如下所示

我们首先计算各要素之间的相关系数

通过相关系数

我们得到我们的相关系数矩阵如下所示

在这基础上呢

我们根据样本呢进行统计

算出我们的相关关联度

比方说我们上面所示的

两个因子之间的关联系数

通过这个计算呢

我们可以看到两因子之间它们呢不相关联

而且呢它们的关联系数呢

相对而且偏远一点或者说不相关

由此可以看到

我们逐步回归的步骤我们可以总结如下

第一步

我们选择第一个变量进行回归方程

对所有的整个过程呢

进行变量计算

并按照下面公式计算

我们偏回归方程平方和

得到我们的自变量

同时呢

把我们的

自变量引入到我们的回归方程里面去

如我们下面的公式所示

而且整个计算结果大家可以看一下

我们可以得到如下所示的三个计算公式和方程

接着呢

我们引入我们的因素

对整个过程呢进行显著性检验

在这过程当中

我们分子的自由度是1

大家可以看到

l 作为方程中自变量个数

在整个过程当中

我们进行回归方程的求解

如果我们的整个过程要进行标准化处理

我们可以得到如下的证明过程

大家可以看一下

在这基础上呢

当引入第一个因子的时候

我们可以得到如下所示的一个计算过程

在这个过程当中

我们进行统计量的计算

通过我们整个过程中统计量的计算

我们可以得到如下的一个计算过程

大家可以看一下

然后呢

我们进行矩阵的高斯计算

在这过程当中

我们对整个过程进行变换

使我们的整个过程

变换成我们可有利于计算的一个

方式和过程

比方说在这里面

我们采用主元形式呢进行矩阵的变换

具体的变换过程如我们的下面的公式所示

在这个过程当中

我们对我们的矩阵变换后

得到如下所示的一个矩阵

在这个矩阵里面

我们通过数值的计算

可以得到一些相关系数

大家可以看一下这里面

由此呢我们的一般回归过程当中

我们通过计算可以得到

我们一般回归方程的一些系数

如我们下面所示

通过这个相关系数

我们可以进行系数项的计算

通过这个常系数的计算

我们可以得到

如下所示的一般回归方程

通过这个回归方程呢

我们进行呢第二个变量的引入

和我们回归方程的计算

整个计算过程当中

我们计算呢我们偏回归方程的平方和

通过这个平方和我们进行我们的

回归方程过程中每个变量的计算

通过这个计算

我们呢

在这里面可以得到我们的均值

使他们的平方和呢达到最大

在这里面

通过引入我们回归方程

大家可以从上面这个公式可以看到

通过引入

我们在引入的基础上呢

进行检验

当我们的x1引入的时候

整个方程中有两个因子

在这个因子的基础上

我们采用偏回归方程的系数进行检验

在这里面

我们通过我们的系数的检验

和我们的系数的引入

通过计算我们的平方和

得到我们的一个变量的剩余平方和

在这里面

我们引入方程

从而使我们的

回归方程的平方和达到最大值

通过这个计算

引入我们的因子X1后

对原有因子x4的整个重复过程的检验

使我们的检验呢实现显著变化

对于过程当中不符合要求的我们进行剔除

实现我们的剔除检验

然后呢

我们进行标准回归系数的计算

通过这个标准回归的系数的计算

我们得到如下所示的两个计算公式

在这里面

对我们的回归方程一般形式呢

可以表示成如下所示

在这个基础上

我们可以得到我们的剩余平方和

如下所示

然后呢我们选择第三个变量

引入我们的回归方程

在这基础上

我们计算偏回归方程平方和

同时呢

利用我们的系数

对不存在回归方程中的一些变量

我们进行相关的变量的计算

通过这个计算使我们的变量的

偏回归方程的平方和达到最小值

在这里面我们选择 x2

接着呢

我们引入检验

偏回归系数的计算过程如下面所示

同时呢

对我们的矩阵进行高斯计算

在这个过程当中

当我们的变量引入过程当中

进行主元的测算

同时呢

记我们变换后的矩阵形式如下面所示

在这基础上

当我们引入变量后

对原有因子呢

进行重复检验

整个过程进行重复同时进行剔除检验

其中当我们的和达到最小的时候

我们可以进行如下的检验计算

对我们整个过程进行检测检验和剔除

我在这里面特别说明一下

由于我们的因子的引入过程

造成我们的变量

它的显著特性会大大的降低

因此在这个过程当中

对我们回归方程的变量

当存在多余的情况下

我们还是要进行剔除

在这基础上

我们进行矩阵的主元高斯的回归的变换

整个过程我们记如下的公式所示

我们当我们剔除我们的元素x4 后

我们还要需要在这基础上

进行检验我们前两个变量

通过这个检验

我们可以得到如下两个的计算公式

大家可以看一下

由于我们的计算过程值呢

得到以后大于我们的检验值4.10

所以说在这里面

我们对这两个变量均不剔除

第四步我们引入变量

在这引入变量过程中

我们还需要计算我们的偏回归平方和

因为在这个过程当中

我们引入的第四个变量

在上一步过程当中我们剔除了一些元素

所以在这里面不需要再作F检验

和我们的不检验的剔除

在这里面

对没有变量引入过程呢

我们还需要进行计算

当然在这个过程当中

进行逐步回归各种元素的计算过程

直到我们所有元素计算结束为止

第五步 逐步回归方程的建立

当我们引入变量以后

由由于我们整个过程呢

要得到一个标准回归系数

我们的标准回归系数如下面所示

在这个过程当中

我们原方程的回归系数呢

我们可以已经得到了

在这个基础上

我们对我们整个过程呢

进行计算

计算结果如我们下面所示

在这个过程当中

我们通过计算呢

可以得到如下的两个计算过程

通过上面的计算呢

我们可以建立我们的回归方程

如我们的右面公式所示

在这个过程当中

我们可以计算我们的剩余平方和

估计我们的标准误差

通过标准误差呢

我们进行我们复相关系数的测算和计算

以及我们方程F的检验

整个过程呢

大家可以从

这上面可以看到

这是我们第三节的内容

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

7.3 逐步回归笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。