当前课程知识点:大数据管理与挖掘 > 第7章 数据回归方法 > 7.1 一元回归 > 7.1 一元回归
大家好
我是西安工程大学
管理学院的邵景峰教授
我们这节呢
主要讲7.1节的内容一元回归
我主要将以下几个方面的内容
一元线形回归模型的设定
总体来讲我们的线形回归
一般情况下总体是样本是未知的
而这里面它只有一条
而样本回归直线
则主要是根据样本数据的拟合
而每抽取一组数据的样本
是可以拟合成一条样本回归直线
在这里面
在总体样本参数未知的情况下
如何保证样本回归系数
尽可能接近总体参数的直线
这是一个主要问题
而在这问题下面
我们在回归分析过程当中
最常用的估计方法是最小二乘法
在统计分析实践过程当中
最常用的
一元回归模型仍然采用是线形模式
具体形式如下面公式所示
在一元线形回归模型过程当中
基本的假定过程如下所示
我们在这里面呢
首先满足一系列假定条件的情况下
最小二乘估计法
是在方差最小的无偏差估计
在这里面
我们假定方差是最小值
需要
解决或者说假定如下的基本条件
第一个我们的均值为零
第二个对于所有的x εi
还有我们的εi它的方差要相等
而在这里面
我们的误差与我们的方差之间不相关
而且它们之间是种不关联
和遵循一种正态分布的一种情况
这是我们的假设条件
在一元线形回归模型的假设过程当中
如果这些假定条件得不到满足
就不能直接进行
使用最小二乘方法进行参数估计
在实际应过程当中用中
这些假定条件
能够同时得到满足的情况下
一般情况是不长见的
因此
对这些假定条件的检验过程当中
以及采取相应的补救措施或者说补救方法
就成为回归分析的主要任务
在这里面
我们可以看一下我们的一元回归过程当中
在这里面
一元回归模型参数的最小二乘估计方式
在这里面
我们也要使用残差值的平方和
这个公式呢进行计算
如我们下图所示
在这里面
我们首先使其达到
最小值来求解我们的最小误差
在这个最小误差里面
我们将Q对β0和β1这个求知过程中
我们对其进行求导使其等于零
可以得到一个方程组
在求解这个方程组的过程当中
我们可以求解到β1 β0
当然了
大家注意这里面
β1的符号与我们相关的系数r是一致的
在这过程当中
我们还要对一元线性回归分析方差
进行分析
分析我们回归方程当中显著性检验结果
是否包括以下两方面的内容
具体如下面所示
一
在这里面
对每个自变量
它的回归系数的显著特性进行检验
当然在这里面
我们最主要检验或者使用的是 t检验
第二个是
对每个自变量的回归系数
它的显著特性进行检验
在这里面
我们主要采用的是F检验
在一元线性回归模型当中
如果只有一个解释变量变为X
或者说
只有一个解释变量为X
因此
对β1等于0的情况进行检验
是对整个方程的整个过程的F检验
它这个过程
它基本上是等价的
由此呢
在这过程当中
方程总体而言它显著性通过F来检验
形成以下三个步骤
第1个就是
我们在这过程当中
提出假设
通过这个假设呢
在一元回归方程当中
我们假设 H1 H0这个过程
第2步
确定检验过程的统计量
比方说
我们公式里面写的F这个统计量
第3步
计算检验统计量的样本
它的观测值和它的p值
第4步
我们进行决策
在整个过程当中
根据显著性水平a和自由度1
和自由度n减1这个过程进行统计分析
使其临界值F大于他的临界值H0
或者说我们的p值要小于等于a
这个临界值
如果不能拒绝我们的零假设
则说明我们的所有自由变量
就作为一个整体
对因变量都没有相应的解释能力
大家在这里要注意一个
我们这里F检验是右侧检验
如我们右图所示
当然在这过程当中我们还要对进行呢
所有回归系数的t检验
第1步
提出假设
具体公式如我们下面所示
假设H0 H1
对于一些具体问题
也可能需要进行单侧检验
在这过程当中
我们进行第2步里面
确定我们检验的统计量
可以证明在回归模型当中
最基本的假设成立条件下
如果我们的零假设正确
则存在以下两个公式
t和s这个过程当中
大家可以看一下
第3步
我们计算检验统计量的
样本观测值和我们的p值
第4步
在我们P值的基础上进行决策
整个决策过程当中
根据显著水平
和我们自由度
df等于n减1这样的一个过程
来确定检验统计量的临界值
这个临界值呢
我们看是否拒绝我们的H0这个过程
在这里面
我们的p值小于等于a时
我们拒绝我们的假设H0
那么在这过程当中
为什么要对我们检验系数等于0
这个过程要进行检验呢
如果总体样本当中的回归系数等于零
则说明相应的自由度
变量对y缺乏解释能力
在这种情况下
我们可以根据我们需要中回归方程中的
他们的自由变量可以去掉这样的一个系数
我们也可以对我们常系数当中进行t检验
当大部分情况下
我们并不关心
常系数的我们的检验结果是怎么样的
在这过程当中
我们呢
根据我们系数
在模型过程当中的不显著特性
我也可以呢
对模型中的常用系数呢进行呢保留下来
也可以呢去掉我们系数对我们总体样本呢
不好的一个方面
或者说不利的一些影响因素
接下来呢
我们进行我们变量预测
也就是在这过程当中
对我们的置信区间进行设置
对于一个给定的x值x0 y
然后在这基础上呢
我们对这个x0 y
它的一个参数呢进行估计
确定他们区间
这一区间常称为预测区间
叫 prediction interval
y0在这个区间里面呢
采取置信水平我们进行预测
预测的区间过程
如我们下面这个公式所示
通过这个公式
我们可以得到我们相应的这个图
这个图如我们右图所示
这里面
需要预测的值
当我们的预测值
接近我们x的均值的时候
我们在这个情况下呢
预测误差比较小
可以利用回归模型
进行外推预测
或者说进行我们较大误差的预测
由此呢在这过程当中
我们可以得到我们想要的
预测结果或者回归结果
当然这个过程呢小心使用这个过程
接着呢
我给大家介绍一元线性回归模型的推广
在我们前期学习的这些回归模型里面
我们的回归模型的估计通常比较麻烦
但是对于有些曲线模型通常来说
它可以进行如下所示的公式的推广过程
这是我们讲的第一节的内容
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论