当前课程知识点:心理统计 > 18 回归与预测 > 18.2 回归模型和回归系数 > 18.2 回归模型和回归系数
同学们 你们好
今天我们继续学习
回归与预测这一章中的
回归模型与回归系数这一节
上一节我们简单介绍了
一元线性回归的表达式
那么这一节我们重点来讲
如何来计算截距和斜率
它的计算步骤呢包括
首先要根据数据资料做散点图
来判断变量之间的关系是否是线性的
如果是线性的
那么我们就要选用合适的回归系数的方法
来计算斜率和截距
然后将求得的截距和斜率呢
代入方程式得到回归方程
现在呢问题是我们如何来选择
这条最佳的拟合直线呢
以及用什么方法来计算回归系数呢
总体参数也就是那条总体回归直线的
截距B0和斜率B1是未知的
我们可以通过样本来估计它
我们X呢可以取不同的取值
比如说X1到Xn
我们进行独立实验可以得到样本
X1和它的配对的取值Y1
X2和它的配对的取值Y2
这是一个样本
我们基于这样的样本可以采用最小二乘法
或者是最大似然法来估计回归系数
下面来看一下
我们怎么来找这条最佳的拟合直线
这是一个散点图
横轴是X纵轴呢是Y
这是假设是我们要找到的那条最佳的拟合直线
那么在这个拟合直线上有一个点
以及它所对应的实际的观测值
这个是我们的观测值
这个就是我们可以有X所预测的预测值
那么Yi减去Y∧
我们就叫做残差
我们说这个残差呢有正有负
它的和呢为零
也就是说它的期望
E(εi)呢是零
所以我们用和呢
是无法来衡量预测值和观测值的距离呢
所以我们把它加以平方
我们的目标呢就是找出一条线
使每一个观察值与预测值的距离的平方和最小
大家可以看到
我们有一个样本
我们有不同的观测值
就会有很多个残差
那么我们让它平方
我们主要是让这个平方和呢最小
如何让它最小呢
我们看一下这个式子
我们叫残差的平方和
我们重新来表达一下这个式子
Yi减去Y∧
也就是等于ei
那么其中Y∧呢是能够由X所预测的部分
所以这一部分呢带入这个公式
我们可以看到经过整理
它等于Yi减去B0减B1Xi的平方
Xi和Yi呢都是实际观测的值
我们是想找到最佳的b0和b1
使得这个SSE呢最小
那么如何使得SSE最小呢
我们可以用微积分的方法来找
也就是说我们求b0和b1点处的一阶偏导
当它等于0的时候
SSE的取值呢是最小的
我们求一阶偏导
这个式子可以转化成这样的关系式
由刚才的那个联立方程我们可以计算
b1是这样的一个表达式
其中b1的分子部分
我们以前见过是协方差的分子部分
那么代表的是X和Y的离差的集合
那么分母呢是X的离差平方和
我们还可以进行一个公式的一个转换
那么这个式子呢跟前面这个式子是等价的
只是它方便计算
同时截距b0
我们说它怎么来算呢
因为这条回归直线会过中点Y的平均数
和X的平均数
所以我们把b1带进去
我们就可以转换出b0来
我们举一个例子
这里呢我们有十个数据
有它的股利
我们看一下能不能去预测股价
因为股票的价格也就是股价与其获利的能力
有很大的关联
所以我们希望建立
股利对股价的这个预测的方程
而且我们还想预测
当X等于13的时候
它的股价是多少
我们把这样的数据进行一个转换
首先计算Xi乘以Yi就是13×115
类似的求出这样的一列数据
这里是X的平方
这是Y的平方
基于这样的数据我们来计算b1
我们基于这样的公式
把这相对应的数字带进去
b1呢等于7.5072
因为回归直线呢它是过中点
X平均数Y的平均数的
那么你把它带入这个相对应的式子
我们就可以把b0求出来
b0等于15.2017
回归系数b0和b1我们都求到以后呢
我们把它代入这个方程
那么也就是说Yi的估计值
等于截距加上斜率乘以X
同时我们还可以说这个方程表达成
y=15.2017
也就是截距加上斜率
7.5072乘以X
然后呢我们后面要加上一个残差
也就是你实际观测到的y
等于它所能预测的部分
这一部分我们称为Y∧
加上残差
大家注意
我这里的表达不再是ε
而是e
因为这个是基于样本表达式的
我们下面呢可以基于这个回归方程来做预测
当X等于13的时候
我们带入这个回归方程
可以得到y的取值呢等于112.8
下面我们再重新回到数据表当中
这里呢是股利和股价
当X等于13的时候
我们通过求得到的
最佳的那条拟合直线的回归方程
找到它的预测价格
也就是y∧=112.8
股价呢115
这是它的实际观测值
这个115和112的差
就是2.205
我们就叫做残差
下面我们来看一下
如何通过回归系数来计算斜率
我们刚才说通过最小二乘法
我们可以知道
b1等于这样的一个式子
我们重新表达一下
b1等于分子上面是离差积和SP
分母下面是离差平方和SSx
大家看这个形式是不是特别熟悉
因为它跟相关系数
也就是X跟Y的相关系数非常像
它的分子部分都是离差积和
分母部分是X跟Y的离差平方和乘积开根号
所以我们可以找到二者的一个转换关系
b1等于相关系数乘以Y的标准差
除以X的标准差
所以我们也可以用b1呢来求r
你也可以用r来求b1都可以
它们有这样的对应关系
在相关分析那一章
我们知道相关系数r呢是没有单位的
它不受X跟Y的单位的影响
但是b1呢
它等于相关系数乘以两个标准差的商
也就是说b1呢受X跟Y的单位的影响
如果我们把X跟Y做一个转换
比如说这是X这是Y我们有两列数据
我们分别去求X的标准分数
和Y的标准分数
X跟Y都是标准分数
它的平均数为零
标准差为1
如果我们去建立X跟Y的标准分数的回归方程
它应该是一个什么样的形式呢
我们可以看到
ZY也就是说
Y的标准分数的估计值等于β乘以Zx
X跟Y的标准分数有这样的一个回归方程
那么在这个回归方程里只有斜率
它的截距呢为零
因为X跟Y的标准分数的平均数都为零
所以它的截距呢也会为零
那么这个β
有什么样的关系呢和相关系数
我们说它等于r
等于r
因为b1等于相关系数乘以这样的一个式子
我们说当ZX跟ZY建立回归方程的时候呢
那么它的标准差也就是ZY的标准差
和ZX的标准差都是1
所以这个式子呢就等于消掉了
消掉了
所以X跟Y的标准分数的这样的回归方程
它的相关系数就变成r了
就变成r了
我们说当我们用X跟Y的标准分数
来建立预测方程的时候
这个式子也就是它们的前面的这个回归系数
我们称为标准化的回归系数
就是标准化的回归系数
这个回归系数等于
X跟Y的相关系数r
我们说这种标准化的回归系数呢
我们一般说用β来表示一个希腊字母
一般来说
如果你用电脑软件
比如说SPSS SARS等等
来计算回归系数的时候
它会同时输出b值
就是X跟Y的回归系数
同时也会输出X跟Y的标准分数的相关系数
我们叫标准化回归系数β值
好
在这一节里边我们讲了如何来建立回归方程
这是它的步骤
同时我们还讲了如何运用最小二乘法
来得到回归系数
这里是它的斜率的表达式
我们用不同的这个式子来表达
这里还重点强调了
这个回归系数和相关系数的关系
它有这样的对应关系
标准化的回归系数呢
在一元线性回归方程里边
就等于X和Y的相关系数
好
这节课我们讲完了
感谢大家收看
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业