4.2相关与回归方程的建立与检验慕课视频播放-寻据而来-药学数据统计-MOOC慕课视频教程-柠檬大学

同学们好

现在我们开始介绍第2节

回归方程的建立与检验

首先我们来看这个例子

它给出了关于变量x和y的7个样本点数据

利用相关分析法

结果表明

x和y存在着正向的直线相关关系

从应用的角度来看

我们希望寻求到一个方程

去近似刻画x和y之间的数量关系

本节主要介绍直线回归方程的建立方法和检验方法

我们先来看这样的一个统计模型

若变量Y与X存在直线依存关系

则可假设为它们的回归模型

这是大家非常熟知的一次函数

μ为 X取定时 Y的数学期望

模型也可以表示为下面等价的形式

X给定时

对应的Y并不是精确的等于α+βX

而是一个随机变量

ε相当于是一个修正的量

ε称为随机误差

它要求服从期望为0的正态分布

在该统计模型里

α称为截距

β称为回归系数

若β大于0

则β可以理解为当X增加一个单位时

Y平均增加了β个单位

若β小于0

则β可以理解为当X增加一个单位时

Y平均减少了β个单位

通常

实际中仅能获得有限的样本数据

用其建立Y关于X的近似表达式

得到的方程我们把它称为样本的直线回归方程

y hat 称为预测值或回归值

因为它是回归方程计算出来的函数值

a和b分别是α和β的估计值

那么

如何去计算a和b这两个参数呢

大家来看这个散点图

它是根据n个样本数据点对作出来的

将实测值与回归值作差平方然后求和

构造出了一个残差平方和

这里用yi表示第i个样本点的实测值

是实际观测到的

或者是你在实验室里面获取到的数据

用yi hat表示第i个样本点的回归值

由于今后可用回归方程作预测

它有预测的功能

因此yi hat也叫预测值

从图形上看

残差平方和就是各实测点到回归直线纵向距离的平方和

回归直线在直角坐标系中的

位置取决于a,b的取值

为了使直线能最好的反应

Y和X这两个变量之间的数量关系

应该使残差平方和达到最小

这就是经典的最小二乘法原理

古汉语中“二乘”就是平方的意思

根据这一原理

数学上通过求偏导数

可推导出a和b的计算公式

公式中lxy和lxx是前面介绍的两个离均差平方和

x bar和y bar分别是变量x和y的样本数据的平均值

若将计算a的这个公式进行简单的移项

就有y bar等于a加b倍的x bar

这意味着什么呢

意味着x bar

y bar构成的点满足回归方程

正所谓点的坐标满足方程

点就在这条直线上

所以我们由最小二乘法原理算出来的回归方程

它有一个特点

一定经过一个定点

这个定点就是（x bar，y bar）

我们再来看开篇给出的这个例子

将样本数据代入计算公式中

即可求出y关于x的直线回归方程

当然这个计算过程可直接交给统计软件完成

在这个计算过程中

我们发现对任意两个变量x和y采集到了的数据点对

都可以去构造出这样的一个回归方程

但如果两个变量压根就没有什么关系

直接生硬的将它们的数据点对去求回归方程

这是毫无意义的

因此

用样本资料建立的直线回归方程

是否能反应总体上两个变量之间

真实的存在直线回归关系

这就需要进行回归方程的假设检验

假设检验分两个层面

第一个层面是进行方差分析

即F检验

检验总体的直线回归模型有没有统计学意义

第二个层面是检验总体回归系数β是否为0

为什么要检验β是否等于0

原因是如果β等于0

那么X无论怎样变化

对Y的取值水平是没有影响的

那么Y与X就不存在依存关系

采用的方法是 t检验

先来看F检验的大致过程

它的基本思想是将因变量y的总变异

“SS总”分解成回归平方和“SS回”

和残差平方和“SS残”

其中

“SS总”即y的总离均差平方和

它反映了y的总变异

回归平方和刻画了由于x与y的直线关系

而引起y的变异的贡献部分

即回归平方和是指y的总变异中可以用x解释的部分

残差平方和

也称为剩余平方和

它反映x对y的线性影响之外的其他一切因素对y的变异的影响

也就是在总离均差平方和中无法用x解释的部分

根据数学推导

给出了总平方和

和回归平方和的等价计算形式

同时给出了三个平方和的自由度

n是样本容量

再构造一个F统计量

它服从自由度为1

n-2的F分布

查临界值Fa

给出拒绝域W

它是偏离0的右尾

如果F统计量的值落在拒绝域里面

那么我们就要拒绝原假设h0

拒绝h0意味着总体的直线回归模型有统计学意义

反之

总体的直线回归模型就没有统计学意义

我们依然来看开篇给出的例1

对求出的回归方程进行F检验

将样本数据代入计算公式中

算得F统计量的值

发现落入了拒绝域中

因此

作出总体直线回归模型有统计学意义的结论

当然这个繁杂的计算过程一样可交给统计软件完成

这是统计软件输出的方差分析表

大家只需要看最后的概率P值

将其与显著性水平α比较大小

我们这里α取的是0.01

结果显示概率P值小于0.01

因此

同样得出总体直线回归模型有统计学意义的结论

再来看回归系数β是否为0的检验

构造t统计量

它是服从自由度为n-2的t分布

给出拒绝域W

它是偏离0的两条尾巴

如果t统计量的值落在拒绝域里面

那么我们就要拒绝原假设h0

拒绝h0意味着β不等于0

也就是认为Y与X存在直线回归关系

还是对例1数据进行t检验

将样本数据代入计算公式中

算得t统计量的值

发现落入了拒绝域中

因此

同样作出Y与X存在直线回归关系的结论

对同一个样本数据

F检验和t检验得到了一致的结论

从数值上

这两个统计量的关系是根号F等于tβ的绝对值

事实上

可以论证这两个检验是等价的

对比前面作总体相关系数ρ的假设检验

r检验和t检验

由于这二者的检验是等价的

又因为可以证明tρ和tβ本质上是相等的

因此二者的检验也是等价的

故这4中检验方法都是等价的

即作出的结论都是一致的

当然我说这个等价指的是仅仅在一元直线回归的状况下

多元或者是曲线的情况不一定成立

除了检验回归方程的意义外

还需要度量回归的效果如何

我们引入两个度量指标

一个是剩余标准差

数值上是残差平方和除以其自由度n-2

再开算术平方根

该剩余标准差越小

说明回归效果就越好

另一个度量指标是决定系数

定义为回归平方和与总离均差平方和的比值

表示可由自变量x解释来因变量y总变异的百分比

经过数学推导

得知其就是样本相关系数小r的平方

因此决定系数的取值范围是0到1

当决定系数越大

越接近于1

说明回归效果越好

或者说用直线拟合逼近所有的散点的效果就越好

它的具体计算可交由统计软件完成

好

这一节我们就讲到这

谢谢！

寻据而来-药学数据统计课程列表：

第一章数据分析概论

-1.1 数据需要分析吗

-1.2 课程纲要及参考源

-1.3 数据分析的对象和任务

-1.4 从数据中获取信息

-第一章习题

第二章试验数据的误差分析

-2.1 误差可以避免吗

-2.2 误差检验

-2.3 发现异常值

-2.4 误差是可以传递的

-2.5 数据的正态性检验

-2.6 统计助手---软件工具的介绍

-第二章习题

第三章试验样本的均值比较

-3.1 各组间的差异可以衡量吗

-3.2 对照标准值比较差异

-3.3 两组数据的差异性比较

-3.4 两组配对数据差异性比较

-3.5 同环境下多组数据对比

-第三章习题

第四章试验数据的回归分析

-4.1 有因就有果吗

-4.2 相关与回归方程的建立与检验

-4.3 多元回归及可信赖检验

-4.4 应当避免的数据坑

-第四章习题

第五章试验设计

-5.1 实验需要设计吗

-5.2 两因素的方差分析

-5.3 全因子设计实验

-5.4 部分因子设计实验

-5.5 响应曲面实验设计

-5.6 正交试验设计

-5.7 均匀设计实验

-5.8 无附加约束的混料实验设计

-5.9 有附加约束的混料设计

-5.10 均匀混料实验设计

-第五章习题

第六章聚类分析和判别分析

-6.1 聚类分析

--6.1 聚类分析

-6.2 判别分析

--6.2 判别分析

-第六章习题

专题1：透过数据看中药质量提升

-7.1 麻辛石甘汤与新冠疫情

--7.1麻辛石甘汤与新冠疫情

-7.2 中药注射剂再评价

--7.2 中药注射剂再评价

专题2：数据发现的启示--幸存者偏差

-7.3 幸存者偏差

--7.3 幸存者偏差

●课程思政--新冠肺炎疫情

-数理统计--新冠肺炎疫情讨论

●课程参考资料及视频

-课程参考资料

4.2相关与回归方程的建立与检验在线视频

4.2相关与回归方程的建立与检验课程教案、知识点、字幕

寻据而来-药学数据统计课程列表：

第一章数据分析概论

第二章试验数据的误差分析

第三章试验样本的均值比较

第四章试验数据的回归分析

第五章试验设计

第六章聚类分析和判别分析

专题1：透过数据看中药质量提升

专题2：数据发现的启示--幸存者偏差

●课程思政--新冠肺炎疫情

●课程参考资料及视频

4.2相关与回归方程的建立与检验笔记与讨论

也许你还感兴趣的课程:

4.2相关与回归方程的建立与检验在线视频

4.2相关与回归方程的建立与检验课程教案、知识点、字幕

寻据而来-药学数据统计课程列表：

第一章 数据分析概论

第二章 试验数据的误差分析

第三章 试验样本的均值比较

第四章 试验数据的回归分析

第五章 试验设计

第六章 聚类分析和判别分析

专题1：透过数据看中药质量提升

专题2：数据发现的启示--幸存者偏差

●课程思政--新冠肺炎疫情

●课程参考资料及视频

4.2相关与回归方程的建立与检验笔记与讨论

也许你还感兴趣的课程:

第一章数据分析概论

第二章试验数据的误差分析

第三章试验样本的均值比较

第四章试验数据的回归分析

第五章试验设计

第六章聚类分析和判别分析