当前课程知识点:大数据管理与挖掘 >  第7章 数据回归方法 >  7.1 一元回归 >  7.1 一元回归

返回《大数据管理与挖掘》慕课在线视频课程列表

7.1 一元回归在线视频

下一节:7.2 多元回归

返回《大数据管理与挖掘》慕课在线视频列表

7.1 一元回归课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

我们这节呢

主要讲7.1节的内容一元回归

我主要将以下几个方面的内容

一元线形回归模型的设定

总体来讲我们的线形回归

一般情况下总体是样本是未知的

而这里面它只有一条

而样本回归直线

则主要是根据样本数据的拟合

而每抽取一组数据的样本

是可以拟合成一条样本回归直线

在这里面

在总体样本参数未知的情况下

如何保证样本回归系数

尽可能接近总体参数的直线

这是一个主要问题

而在这问题下面

我们在回归分析过程当中

最常用的估计方法是最小二乘法

在统计分析实践过程当中

最常用的

一元回归模型仍然采用是线形模式

具体形式如下面公式所示

在一元线形回归模型过程当中

基本的假定过程如下所示

我们在这里面呢

首先满足一系列假定条件的情况下

最小二乘估计法

是在方差最小的无偏差估计

在这里面

我们假定方差是最小值

需要

解决或者说假定如下的基本条件

第一个我们的均值为零

第二个对于所有的x εi

还有我们的εi它的方差要相等

而在这里面

我们的误差与我们的方差之间不相关

而且它们之间是种不关联

和遵循一种正态分布的一种情况

这是我们的假设条件

在一元线形回归模型的假设过程当中

如果这些假定条件得不到满足

就不能直接进行

使用最小二乘方法进行参数估计

在实际应过程当中用中

这些假定条件

能够同时得到满足的情况下

一般情况是不长见的

因此

对这些假定条件的检验过程当中

以及采取相应的补救措施或者说补救方法

就成为回归分析的主要任务

在这里面

我们可以看一下我们的一元回归过程当中

在这里面

一元回归模型参数的最小二乘估计方式

在这里面

我们也要使用残差值的平方和

这个公式呢进行计算

如我们下图所示

在这里面

我们首先使其达到

最小值来求解我们的最小误差

在这个最小误差里面

我们将Q对β0和β1这个求知过程中

我们对其进行求导使其等于零

可以得到一个方程组

在求解这个方程组的过程当中

我们可以求解到β1 β0

当然了

大家注意这里面

β1的符号与我们相关的系数r是一致的

在这过程当中

我们还要对一元线性回归分析方差

进行分析

分析我们回归方程当中显著性检验结果

是否包括以下两方面的内容

具体如下面所示

在这里面

对每个自变量

它的回归系数的显著特性进行检验

当然在这里面

我们最主要检验或者使用的是 t检验

第二个是

对每个自变量的回归系数

它的显著特性进行检验

在这里面

我们主要采用的是F检验

在一元线性回归模型当中

如果只有一个解释变量变为X

或者说

只有一个解释变量为X

因此

对β1等于0的情况进行检验

是对整个方程的整个过程的F检验

它这个过程

它基本上是等价的

由此呢

在这过程当中

方程总体而言它显著性通过F来检验

形成以下三个步骤

第1个就是

我们在这过程当中

提出假设

通过这个假设呢

在一元回归方程当中

我们假设 H1 H0这个过程

第2步

确定检验过程的统计量

比方说

我们公式里面写的F这个统计量

第3步

计算检验统计量的样本

它的观测值和它的p值

第4步

我们进行决策

在整个过程当中

根据显著性水平a和自由度1

和自由度n减1这个过程进行统计分析

使其临界值F大于他的临界值H0

或者说我们的p值要小于等于a

这个临界值

如果不能拒绝我们的零假设

则说明我们的所有自由变量

就作为一个整体

对因变量都没有相应的解释能力

大家在这里要注意一个

我们这里F检验是右侧检验

如我们右图所示

当然在这过程当中我们还要对进行呢

所有回归系数的t检验

第1步

提出假设

具体公式如我们下面所示

假设H0 H1

对于一些具体问题

也可能需要进行单侧检验

在这过程当中

我们进行第2步里面

确定我们检验的统计量

可以证明在回归模型当中

最基本的假设成立条件下

如果我们的零假设正确

则存在以下两个公式

t和s这个过程当中

大家可以看一下

第3步

我们计算检验统计量的

样本观测值和我们的p值

第4步

在我们P值的基础上进行决策

整个决策过程当中

根据显著水平

和我们自由度

df等于n减1这样的一个过程

来确定检验统计量的临界值

这个临界值呢

我们看是否拒绝我们的H0这个过程

在这里面

我们的p值小于等于a时

我们拒绝我们的假设H0

那么在这过程当中

为什么要对我们检验系数等于0

这个过程要进行检验呢

如果总体样本当中的回归系数等于零

则说明相应的自由度

变量对y缺乏解释能力

在这种情况下

我们可以根据我们需要中回归方程中的

他们的自由变量可以去掉这样的一个系数

我们也可以对我们常系数当中进行t检验

当大部分情况下

我们并不关心

常系数的我们的检验结果是怎么样的

在这过程当中

我们呢

根据我们系数

在模型过程当中的不显著特性

我也可以呢

对模型中的常用系数呢进行呢保留下来

也可以呢去掉我们系数对我们总体样本呢

不好的一个方面

或者说不利的一些影响因素

接下来呢

我们进行我们变量预测

也就是在这过程当中

对我们的置信区间进行设置

对于一个给定的x值x0 y

然后在这基础上呢

我们对这个x0 y

它的一个参数呢进行估计

确定他们区间

这一区间常称为预测区间

叫 prediction interval

y0在这个区间里面呢

采取置信水平我们进行预测

预测的区间过程

如我们下面这个公式所示

通过这个公式

我们可以得到我们相应的这个图

这个图如我们右图所示

这里面

需要预测的值

当我们的预测值

接近我们x的均值的时候

我们在这个情况下呢

预测误差比较小

可以利用回归模型

进行外推预测

或者说进行我们较大误差的预测

由此呢在这过程当中

我们可以得到我们想要的

预测结果或者回归结果

当然这个过程呢小心使用这个过程

接着呢

我给大家介绍一元线性回归模型的推广

在我们前期学习的这些回归模型里面

我们的回归模型的估计通常比较麻烦

但是对于有些曲线模型通常来说

它可以进行如下所示的公式的推广过程

这是我们讲的第一节的内容

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

7.1 一元回归笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。