当前课程知识点:寻据而来-药学数据统计 > 第四章 试验数据的回归分析 > 4.3 多元回归及可信赖检验 > 4.3多元回归及可信性检验
同学们好
现在我们开始介绍第3节
多元回归及可信性检验
前面我们介绍的直线回归
是研究一个因变量
与一个自变量之间的线性趋势的数量关系
在医药科学研究中
也常会遇到一个因变量与多个自变量数量关系的问题
如食物中各微量元素摄入量与心血管病发病率的关系
血清中高密度脂蛋白
低密度脂蛋白与各载脂蛋白的关系
中药复方中多种药物之间的配伍用量关系等
这节将要介绍的多元线性回归分析
就是研究一个因变量
与多个自变量之间线性关系的统计方法
本节主要介绍
多元线性回归方程的建立方法和检验方法
我们先来看这样的一个统计模型
若因变量Y与m个自变量
X1、X2到Xm存在线性关系
则可假设为它们的回归模型
这是大家熟知的多元线性函数
当这m个自变量给定时
对应的Y并不是精确的等于
β0+β1X1+β2X2+……+βmXm
而是一个随机变量
ε相当于是一个修正的量
ε称为随机误差
它要求服从期望为0的正态分布
在该统计模型里
β0称为截距
β1到βm称为偏回归系数
简称回归系数
偏回归系数βi反映自变量Xi的贡献
它表示在其他m-1个自变量不变的情况下
自变量Xi增加或减少一个单位时
Y的平均变化量
β0到βm一般是未知的
若根据样本观测数据拟合这些未知参数
可得到样本的多元线性回归方程
b0到bm分别是β0到βm的估计值
那么
如何去计算这些未知参数呢?
首先要获取样本数据
这张表是多元回归的样本数据格式
一个因变量Y
m个自变量X1到Xm
按列放
样本容量是n
有n行数据
与一元回归分析类似
多元线性回归方程中参数的估计也可采用最小二乘法原理
核心就是构造残差平方和
要使残差平方和达到最小
数学上通过求偏导数
求解一个正规方程组
可推导计算出b0到bm这些未知参数
由于多元回归分析计算复杂
一般都是由计算机统计软件来完成
我们来看这个例子
考察产生心律失常所延长的时间y
与药物剂量x1和注射速度x2之间的关系
建立一个二元线性回归方程
这是样本容量为13的样本数据
输入统计软件中
可给出这样一个二元线性回归方程
在实际问题中
由于拟合的多元线性回归方程
只是根据一些定性分析所做的一种假设
因此
当建立回归方程后
还需对其进行假设检验
一是对整体回归方程的假设检验
即检验这些自变量作为一个整体
与因变量y之间有无线性关系
二是对各偏回归系数的假设检验
即检验每个自变量对因变量y的线性影响
对整体回归方程的假设检验
采用的是方差分析法
构造F检验统计量
其基本思想与直线回归分析类似
也是将y的变异即总的离差平方和分解成回归平方和
和残差平方和
这里回归平方和的自由度是m
残差平方和的自由度是n-m-1
n是样本容量
m是自变量的个数
给出拒绝域W
如果F统计量的值落在拒绝域里面
那么我们就要拒绝原假设h0
拒绝h0意味着整体的
多元线性回归方程有统计学意义
即认为因变量y与这m个自变量之间
存在线性回归关系
反之
多元线性回归方程没有统计学意义
接下来
对刚才例子中建立的二元线性回归方程
进行检验
直接借助统计软件
输出这些主要结果
我们一起解读一下
由方差分析表
得知概率P值为0.001
P值小于0.05
拒绝原假设H0
说明因变量y与自变量
x1、x2之间存在线性回归关系
由系数这张表
可读出参数
b0、b1、b2的值分别为22.460
22.108
-1.042
同时可得到各偏回归系数的假设检验结果
即t检验的概率P值分别为0.051
0.020
可认为b1无统计学意义
b2有统计学意义
这里还有一张表
给出了复相关系数R
决定系数R方
和校正的决定系数
数值分别为
0.858、0.736、0.684
接下来我们给出这几个指标的计算公式
类似于一元线性回归中决定系数的概念
在多元线性回归中
同样可定义决定系数R方
取值范围同样介于
0,1之间
它表示m个自变量能够解释因变量y总变异的百分比
即决定系数的大小反映了
各自变量对因变量回归贡献的大小
R方越接近1
表明回归拟合的效果越好
R方越接近0
表明回归拟合的效果越差
与方差分析相比
决定系数可以更清楚直观地反映回归拟合的效果
但并不能作为严格的统计学检验
称决定系数的算术平方根R为复相关系数
复相关系数与决定系数的意义是一样的
均反映模型拟合的效果
由于当方程中的自变量个数增加时
R方或R总是增加的
即使增加的变量无统计学意义
因此显然用决定系数或复相关系数的大小
衡量多元线性回归模型的优劣是由有缺陷的
此时可引入校正的决定系数RC方
它可以消除自变量个数带来的影响
拟合的效果总比R方小
一些分析人员在选择模型拟合效果的度量指标时
更倾向用比较保守的校正的决定系数RC方
像一元回归分析一样
还可定义剩余标准差
其大小反映模型预测因变量的精度
剩余标准差越小
说明建立的回归模型效果越好
最后
请大家注意
应用多元线性回归分析的方法
需要满足以下前提条件
首先因变量与自变量之间是线性的趋势
任意两个样本点数据相互独立
互不影响
同时对任意一组自变量的值
因变量都服从正态分布
并且具有相同的方差
这也是一元线性回归分析需要遵循的前提先决条件
另外
对于多元线性回归
自变量之间不能存在较强的线性相关关系
否则不仅影响回归方程的回归效果
还会影响回归方程的预测能力
若两个自变量之间的相关系数接近1
则可认为自变量之间存在多重共线性
或者如果决定系数大于0.8
但是模型中全部或部分偏回归系数无统计学意义
则也可认为自变量之间存在多重共线性
处理自变量之间的多重共线性问题
可通过重新筛选变量
采用逐步回归法
主成分回归法
岭回归等分析方法解决
好
这一节我们就讲到这
谢谢
-1.1 数据需要分析吗
-1.2 课程纲要及参考源
-1.3 数据分析的对象和任务
-1.4 从数据中获取信息
-第一章习题
-2.1 误差可以避免吗
-2.2 误差检验
--2.2 误差检验
-2.3 发现异常值
-2.4 误差是可以传递的
-2.5 数据的正态性检验
-2.6 统计助手---软件工具的介绍
-第二章习题
-3.1 各组间的差异可以衡量吗
-3.2 对照标准值比较差异
-3.3 两组数据的差异性比较
-3.4 两组配对数据差异性比较
-3.5 同环境下多组数据对比
-第三章习题
-4.1 有因就有果吗
-4.2 相关与回归方程的建立与检验
-4.3 多元回归及可信赖检验
-4.4 应当避免的数据坑
-第四章习题
-5.1 实验需要设计吗
-5.2 两因素的方差分析
-5.3 全因子设计实验
-5.4 部分因子设计实验
-5.5 响应曲面实验设计
-5.6 正交试验设计
-5.7 均匀设计实验
-5.8 无附加约束的混料实验设计
-5.9 有附加约束的混料设计
-5.10 均匀混料实验设计
-第五章习题
-6.1 聚类分析
--6.1 聚类分析
-6.2 判别分析
--6.2 判别分析
-第六章习题
-7.1 麻辛石甘汤与新冠疫情
-7.2 中药注射剂再评价
-7.3 幸存者偏差