当前课程知识点:寻据而来-药学数据统计 > 第四章 试验数据的回归分析 > 4.2 相关与回归方程的建立与检验 > 4.2相关与回归方程的建立与检验
同学们好
现在我们开始介绍第2节
回归方程的建立与检验
首先我们来看这个例子
它给出了关于变量x和y的7个样本点数据
利用相关分析法
结果表明
x和y存在着正向的直线相关关系
从应用的角度来看
我们希望寻求到一个方程
去近似刻画x和y之间的数量关系
本节主要介绍直线回归方程的建立方法和检验方法
我们先来看这样的一个统计模型
若变量Y与X存在直线依存关系
则可假设为它们的回归模型
这是大家非常熟知的一次函数
μ为 X取定时 Y的数学期望
模型也可以表示为下面等价的形式
X给定时
对应的Y并不是精确的等于α+βX
而是一个随机变量
ε相当于是一个修正的量
ε称为随机误差
它要求服从期望为0的正态分布
在该统计模型里
α称为截距
β称为回归系数
若β大于0
则β可以理解为当X增加一个单位时
Y平均增加了β个单位
若β小于0
则β可以理解为当X增加一个单位时
Y平均减少了β个单位
通常
实际中仅能获得有限的样本数据
用其建立Y关于X的近似表达式
得到的方程我们把它称为样本的直线回归方程
y hat 称为预测值或回归值
因为它是回归方程计算出来的函数值
a和b分别是α和β的估计值
那么
如何去计算a和b这两个参数呢
大家来看这个散点图
它是根据n个样本数据点对作出来的
将实测值与回归值作差平方然后求和
构造出了一个残差平方和
这里用yi表示第i个样本点的实测值
是实际观测到的
或者是你在实验室里面获取到的数据
用yi hat表示第i个样本点的回归值
由于今后可用回归方程作预测
它有预测的功能
因此yi hat也叫预测值
从图形上看
残差平方和就是各实测点到回归直线纵向距离的平方和
回归直线在直角坐标系中的
位置取决于a,b的取值
为了使直线能最好的反应
Y和X这两个变量之间的数量关系
应该使残差平方和达到最小
这就是经典的最小二乘法原理
古汉语中“二乘”就是平方的意思
根据这一原理
数学上通过求偏导数
可推导出a和b的计算公式
公式中lxy和lxx是前面介绍的两个离均差平方和
x bar和y bar分别是变量x和y的样本数据的平均值
若将计算a的这个公式进行简单的移项
就有y bar等于a加b倍的x bar
这意味着什么呢
意味着x bar
y bar构成的点满足回归方程
正所谓点的坐标满足方程
点就在这条直线上
所以我们由最小二乘法原理算出来的回归方程
它有一个特点
一定经过一个定点
这个定点就是(x bar,y bar)
我们再来看开篇给出的这个例子
将样本数据代入计算公式中
即可求出y关于x的直线回归方程
当然这个计算过程可直接交给统计软件完成
在这个计算过程中
我们发现对任意两个变量x和y采集到了的数据点对
都可以去构造出这样的一个回归方程
但如果两个变量压根就没有什么关系
直接生硬的将它们的数据点对去求回归方程
这是毫无意义的
因此
用样本资料建立的直线回归方程
是否能反应总体上两个变量之间
真实的存在直线回归关系
这就需要进行回归方程的假设检验
假设检验分两个层面
第一个层面是进行方差分析
即F检验
检验总体的直线回归模型有没有统计学意义
第二个层面是检验总体回归系数β是否为0
为什么要检验β是否等于0
原因是如果β等于0
那么X无论怎样变化
对Y的取值水平是没有影响的
那么Y与X就不存在依存关系
采用的方法是 t检验
先来看F检验的大致过程
它的基本思想是将因变量y的总变异
“SS总”分解成回归平方和“SS回”
和残差平方和“SS残”
其中
“SS总”即y的总离均差平方和
它反映了y的总变异
回归平方和刻画了由于x与y的直线关系
而引起y的变异的贡献部分
即回归平方和是指y的总变异中可以用x解释的部分
残差平方和
也称为剩余平方和
它反映x对y的线性影响之外的其他一切因素对y的变异的影响
也就是在总离均差平方和中无法用x解释的部分
根据数学推导
给出了总平方和
和回归平方和的等价计算形式
同时给出了三个平方和的自由度
n是样本容量
再构造一个F统计量
它服从自由度为1
n-2的F分布
查临界值Fa
给出拒绝域W
它是偏离0的右尾
如果F统计量的值落在拒绝域里面
那么我们就要拒绝原假设h0
拒绝h0意味着总体的直线回归模型有统计学意义
反之
总体的直线回归模型就没有统计学意义
我们依然来看开篇给出的例1
对求出的回归方程进行F检验
将样本数据代入计算公式中
算得F统计量的值
发现落入了拒绝域中
因此
作出总体直线回归模型有统计学意义的结论
当然这个繁杂的计算过程一样可交给统计软件完成
这是统计软件输出的方差分析表
大家只需要看最后的概率P值
将其与显著性水平α比较大小
我们这里α取的是0.01
结果显示概率P值小于0.01
因此
同样得出总体直线回归模型有统计学意义的结论
再来看回归系数β是否为0的检验
构造t统计量
它是服从自由度为n-2的t分布
给出拒绝域W
它是偏离0的两条尾巴
如果t统计量的值落在拒绝域里面
那么我们就要拒绝原假设h0
拒绝h0意味着β不等于0
也就是认为Y与X存在直线回归关系
还是对例1数据进行t检验
将样本数据代入计算公式中
算得t统计量的值
发现落入了拒绝域中
因此
同样作出Y与X存在直线回归关系的结论
对同一个样本数据
F检验和t检验得到了一致的结论
从数值上
这两个统计量的关系是根号F等于tβ的绝对值
事实上
可以论证这两个检验是等价的
对比前面作总体相关系数ρ的假设检验
r检验和t检验
由于这二者的检验是等价的
又因为可以证明tρ和tβ本质上是相等的
因此二者的检验也是等价的
故这4中检验方法都是等价的
即作出的结论都是一致的
当然我说这个等价指的是仅仅在一元直线回归的状况下
多元或者是曲线的情况不一定成立
除了检验回归方程的意义外
还需要度量回归的效果如何
我们引入两个度量指标
一个是剩余标准差
数值上是残差平方和除以其自由度n-2
再开算术平方根
该剩余标准差越小
说明回归效果就越好
另一个度量指标是决定系数
定义为回归平方和与总离均差平方和的比值
表示可由自变量x解释来因变量y总变异的百分比
经过数学推导
得知其就是样本相关系数小r的平方
因此决定系数的取值范围是0到1
当决定系数越大
越接近于1
说明回归效果越好
或者说用直线拟合逼近所有的散点的效果就越好
它的具体计算可交由统计软件完成
好
这一节我们就讲到这
谢谢!
-1.1 数据需要分析吗
-1.2 课程纲要及参考源
-1.3 数据分析的对象和任务
-1.4 从数据中获取信息
-第一章习题
-2.1 误差可以避免吗
-2.2 误差检验
--2.2 误差检验
-2.3 发现异常值
-2.4 误差是可以传递的
-2.5 数据的正态性检验
-2.6 统计助手---软件工具的介绍
-第二章习题
-3.1 各组间的差异可以衡量吗
-3.2 对照标准值比较差异
-3.3 两组数据的差异性比较
-3.4 两组配对数据差异性比较
-3.5 同环境下多组数据对比
-第三章习题
-4.1 有因就有果吗
-4.2 相关与回归方程的建立与检验
-4.3 多元回归及可信赖检验
-4.4 应当避免的数据坑
-第四章习题
-5.1 实验需要设计吗
-5.2 两因素的方差分析
-5.3 全因子设计实验
-5.4 部分因子设计实验
-5.5 响应曲面实验设计
-5.6 正交试验设计
-5.7 均匀设计实验
-5.8 无附加约束的混料实验设计
-5.9 有附加约束的混料设计
-5.10 均匀混料实验设计
-第五章习题
-6.1 聚类分析
--6.1 聚类分析
-6.2 判别分析
--6.2 判别分析
-第六章习题
-7.1 麻辛石甘汤与新冠疫情
-7.2 中药注射剂再评价
-7.3 幸存者偏差