4.3多元回归及可信性检验慕课视频播放-寻据而来-药学数据统计-MOOC慕课视频教程-柠檬大学

同学们好

现在我们开始介绍第3节

多元回归及可信性检验

前面我们介绍的直线回归

是研究一个因变量

与一个自变量之间的线性趋势的数量关系

在医药科学研究中

也常会遇到一个因变量与多个自变量数量关系的问题

如食物中各微量元素摄入量与心血管病发病率的关系

血清中高密度脂蛋白

低密度脂蛋白与各载脂蛋白的关系

中药复方中多种药物之间的配伍用量关系等

这节将要介绍的多元线性回归分析

就是研究一个因变量

与多个自变量之间线性关系的统计方法

本节主要介绍

多元线性回归方程的建立方法和检验方法

我们先来看这样的一个统计模型

若因变量Y与m个自变量

X1、X2到Xm存在线性关系

则可假设为它们的回归模型

这是大家熟知的多元线性函数

当这m个自变量给定时

对应的Y并不是精确的等于

β0+β1X1+β2X2+……+βmXm

而是一个随机变量

ε相当于是一个修正的量

ε称为随机误差

它要求服从期望为0的正态分布

在该统计模型里

β0称为截距

β1到βm称为偏回归系数

简称回归系数

偏回归系数βi反映自变量Xi的贡献

它表示在其他m-1个自变量不变的情况下

自变量Xi增加或减少一个单位时

Y的平均变化量

β0到βm一般是未知的

若根据样本观测数据拟合这些未知参数

可得到样本的多元线性回归方程

b0到bm分别是β0到βm的估计值

那么

如何去计算这些未知参数呢？

首先要获取样本数据

这张表是多元回归的样本数据格式

一个因变量Y

m个自变量X1到Xm

按列放

样本容量是n

有n行数据

与一元回归分析类似

多元线性回归方程中参数的估计也可采用最小二乘法原理

核心就是构造残差平方和

要使残差平方和达到最小

数学上通过求偏导数

求解一个正规方程组

可推导计算出b0到bm这些未知参数

由于多元回归分析计算复杂

一般都是由计算机统计软件来完成

我们来看这个例子

考察产生心律失常所延长的时间y

与药物剂量x1和注射速度x2之间的关系

建立一个二元线性回归方程

这是样本容量为13的样本数据

输入统计软件中

可给出这样一个二元线性回归方程

在实际问题中

由于拟合的多元线性回归方程

只是根据一些定性分析所做的一种假设

因此

当建立回归方程后

还需对其进行假设检验

一是对整体回归方程的假设检验

即检验这些自变量作为一个整体

与因变量y之间有无线性关系

二是对各偏回归系数的假设检验

即检验每个自变量对因变量y的线性影响

对整体回归方程的假设检验

采用的是方差分析法

构造F检验统计量

其基本思想与直线回归分析类似

也是将y的变异即总的离差平方和分解成回归平方和

和残差平方和

这里回归平方和的自由度是m

残差平方和的自由度是n-m-1

n是样本容量

m是自变量的个数

给出拒绝域W

如果F统计量的值落在拒绝域里面

那么我们就要拒绝原假设h0

拒绝h0意味着整体的

多元线性回归方程有统计学意义

即认为因变量y与这m个自变量之间

存在线性回归关系

反之

多元线性回归方程没有统计学意义

接下来

对刚才例子中建立的二元线性回归方程

进行检验

直接借助统计软件

输出这些主要结果

我们一起解读一下

由方差分析表

得知概率P值为0.001

P值小于0.05

拒绝原假设H0

说明因变量y与自变量

x1、x2之间存在线性回归关系

由系数这张表

可读出参数

b0、b1、b2的值分别为22.460

22.108

-1.042

同时可得到各偏回归系数的假设检验结果

即t检验的概率P值分别为0.051

0.020

可认为b1无统计学意义

b2有统计学意义

这里还有一张表

给出了复相关系数R

决定系数R方

和校正的决定系数

数值分别为

0.858、0.736、0.684

接下来我们给出这几个指标的计算公式

类似于一元线性回归中决定系数的概念

在多元线性回归中

同样可定义决定系数R方

取值范围同样介于

0，1之间

它表示m个自变量能够解释因变量y总变异的百分比

即决定系数的大小反映了

各自变量对因变量回归贡献的大小

R方越接近1

表明回归拟合的效果越好

R方越接近0

表明回归拟合的效果越差

与方差分析相比

决定系数可以更清楚直观地反映回归拟合的效果

但并不能作为严格的统计学检验

称决定系数的算术平方根R为复相关系数

复相关系数与决定系数的意义是一样的

均反映模型拟合的效果

由于当方程中的自变量个数增加时

R方或R总是增加的

即使增加的变量无统计学意义

因此显然用决定系数或复相关系数的大小

衡量多元线性回归模型的优劣是由有缺陷的

此时可引入校正的决定系数RC方

它可以消除自变量个数带来的影响

拟合的效果总比R方小

一些分析人员在选择模型拟合效果的度量指标时

更倾向用比较保守的校正的决定系数RC方

像一元回归分析一样

还可定义剩余标准差

其大小反映模型预测因变量的精度

剩余标准差越小

说明建立的回归模型效果越好

最后

请大家注意

应用多元线性回归分析的方法

需要满足以下前提条件

首先因变量与自变量之间是线性的趋势

任意两个样本点数据相互独立

互不影响

同时对任意一组自变量的值

因变量都服从正态分布

并且具有相同的方差

这也是一元线性回归分析需要遵循的前提先决条件

另外

对于多元线性回归

自变量之间不能存在较强的线性相关关系

否则不仅影响回归方程的回归效果

还会影响回归方程的预测能力

若两个自变量之间的相关系数接近1

则可认为自变量之间存在多重共线性

或者如果决定系数大于0.8

但是模型中全部或部分偏回归系数无统计学意义

则也可认为自变量之间存在多重共线性

处理自变量之间的多重共线性问题

可通过重新筛选变量

采用逐步回归法

主成分回归法

岭回归等分析方法解决

好

这一节我们就讲到这

谢谢

寻据而来-药学数据统计课程列表：

第一章数据分析概论

-1.1 数据需要分析吗

-1.2 课程纲要及参考源

-1.3 数据分析的对象和任务

-1.4 从数据中获取信息

-第一章习题

第二章试验数据的误差分析

-2.1 误差可以避免吗

-2.2 误差检验

-2.3 发现异常值

-2.4 误差是可以传递的

-2.5 数据的正态性检验

-2.6 统计助手---软件工具的介绍

-第二章习题

第三章试验样本的均值比较

-3.1 各组间的差异可以衡量吗

-3.2 对照标准值比较差异

-3.3 两组数据的差异性比较

-3.4 两组配对数据差异性比较

-3.5 同环境下多组数据对比

-第三章习题

第四章试验数据的回归分析

-4.1 有因就有果吗

-4.2 相关与回归方程的建立与检验

-4.3 多元回归及可信赖检验

-4.4 应当避免的数据坑

-第四章习题

第五章试验设计

-5.1 实验需要设计吗

-5.2 两因素的方差分析

-5.3 全因子设计实验

-5.4 部分因子设计实验

-5.5 响应曲面实验设计

-5.6 正交试验设计

-5.7 均匀设计实验

-5.8 无附加约束的混料实验设计

-5.9 有附加约束的混料设计

-5.10 均匀混料实验设计

-第五章习题

第六章聚类分析和判别分析

-6.1 聚类分析

--6.1 聚类分析

-6.2 判别分析

--6.2 判别分析

-第六章习题

专题1：透过数据看中药质量提升

-7.1 麻辛石甘汤与新冠疫情

--7.1麻辛石甘汤与新冠疫情

-7.2 中药注射剂再评价

--7.2 中药注射剂再评价

专题2：数据发现的启示--幸存者偏差

-7.3 幸存者偏差

--7.3 幸存者偏差

●课程思政--新冠肺炎疫情

-数理统计--新冠肺炎疫情讨论

●课程参考资料及视频

-课程参考资料

4.3多元回归及可信性检验在线视频

4.3多元回归及可信性检验课程教案、知识点、字幕

寻据而来-药学数据统计课程列表：

第一章数据分析概论

第二章试验数据的误差分析

第三章试验样本的均值比较

第四章试验数据的回归分析

第五章试验设计

第六章聚类分析和判别分析

专题1：透过数据看中药质量提升

专题2：数据发现的启示--幸存者偏差

●课程思政--新冠肺炎疫情

●课程参考资料及视频

4.3多元回归及可信性检验笔记与讨论

也许你还感兴趣的课程:

4.3多元回归及可信性检验在线视频

4.3多元回归及可信性检验课程教案、知识点、字幕

寻据而来-药学数据统计课程列表：

第一章 数据分析概论

第二章 试验数据的误差分析

第三章 试验样本的均值比较

第四章 试验数据的回归分析

第五章 试验设计

第六章 聚类分析和判别分析

专题1：透过数据看中药质量提升

专题2：数据发现的启示--幸存者偏差

●课程思政--新冠肺炎疫情

●课程参考资料及视频

4.3多元回归及可信性检验笔记与讨论

也许你还感兴趣的课程:

第一章数据分析概论

第二章试验数据的误差分析

第三章试验样本的均值比较

第四章试验数据的回归分析

第五章试验设计

第六章聚类分析和判别分析