当前课程知识点:医学统计学(高级篇) > 第十四章 多元线性回归分析 > 3.多元线性回归模型自变量的选择 > Video
同学们好
我是中南大学湘雅公共卫生学院的胡明老师
下面我们要来学习多元线性回归模型中
自变量的选择方法
在多元线性回归模型中间
因为自变量的个数是有多个的
所以拟合回归方程
我们需要选择有统计学意义的自变量
从而使得预报或者是解释的效果更好
那么自变量的选择方法有全局择优法
所谓全局择优法
是对自变量各种不同的组合
所建立的回归方程去进行比较
从而来选择最优的一个组合
那么选择方法通常我们要根据两个指标
一个是校正的决定系数
一个是C指标选择法
其中校正的决定系数
它的计算公式
我们可以看到是这样的一个计算公式
好 在这个公式中间 N是样本含量
决定系数是包含有p个自变量
这里的P要小于等于原有所有的M个自变量
它的回归方程的决定系数
那么校正的决定系数的变化规律是什么呢
当决定系数相同的时候
自变量的个数越多 那么校正的决定系数越小
我们所选择的最优回归方程
是指校正的决定系数最大的
那么C指标选择法里
我们的C指标的计算公式在这里
好
分子残差的平方和是由P个自变量
这里的P仍然是小于等于M个自变量
做回归它的误差平方和
分母残差的均方是从全部M个自变量的回归模型中
计算所得到的残差的均方
当由P个自变量拟合方程理论上最优的时候
我们的C指标值是最接近P加一的回归方程
为最优回归方程
那么这里要注意的是
如果全部自变量中间
没有包含对Y有主要作用的变量
那么就不宜用这个方法来选择自变量
下面我们来看一看
我们用全局择优法利用两个指标
对于例题15-1的数据的自变量去进行选择
在例题15-1中间我们有四个自变量
所以自变量的所有组合
所拟合的回归方程数是二的M次方减一等于
15种组合方式
好 那么每一种组合方式的矫正的决定系数
以及C指标值都在表格中给出来了
在这里我们可以看到
校正的决定系数最大的
是组合2 3 4 包含有X2、X3、X4
同时这个组合它的C指标值也接近于P加一
也就是这时是三个自变量 3+1等于4
所以这里的最优组合就是包含有X2 X3和X4
这样的一个回归模型
及由甘油三酯 胰岛素和糖化血红蛋白
与空腹血糖所建立的这样的一个回归方程是最优的
那么全局择优法
我们是通过对自变量的所有的组合形式去进行分析
分析它的两个指标
从而来选择最优的回归方程
那么为什么我们还要给大家介绍逐步选择法
因为全局择优法它也有它的局限性
当我们的自变量的个数比较多的时候
我们的计算量就会非常大
另外一个重要的原因就是
在我们的全局择优法里面
我们无法保证我们所选择的
这个选择进入回归方程里的自变量
都是有统计学意义的
所以我们更常用的是逐步选择法
逐步选择法里面我们有
前进法 后退法和逐步回归法
无论是哪一种方法
都是基于每一次对一个自变量
基于偏回归平方和去做F检验
看这一个自变量是否有统计学意义
那么所谓前进法是回归方程中的自变量
从无到有 从少到多
逐个的把自变量引入到回归方程里面去
而后退法是首先我们将全部的自变量选入方程
然后逐步的剔除没有统计学意义的自变量
怎么样来剔除这些自变量呢
首先我们在方程中选择偏回归平方和最小的变量
然后做F检验
决定它是否剔除
如果没有统计学意义的话 那么就将它剔除
对于剩余的自变量 我们要怎么办
重新拟合回归方程 然后再重复上一个步骤
直到方程中间所有的自变量都不再被剔除为止
而逐步回归法
则是在前述两种方法的基础上
进行双向筛选的一种方法
这个方法的实质是前进法
和前面的方法不一样的地方
就是当我每引入一个自变量进入到方程里
我还要去看一看已经在方程中的自变量
是否会退化为一个没有统计学意义的自变量
那么这样的一个过程循环往复
直到我的这个方程中间
既没有自变量可以被引入 也没有自变量被删除
那么这时候就是我们最终得到的一个
多元线性回归模型
那么在多元线性回归模型做自变量的选择的时候
我们检验水准的设置
一般情况下小样本我们可以把检验水准稍作提高
定为0.1或者0.15
大样本通常依然定为0.05
而法值定的越小表示什么呢
表示我们自变量的选择标准越严
被选入的自变量个数相对也较少
反之
如果我们的检验水准定的越大
表示选取自变量的标准越宽
那么相应的我们选入自变量的个数也就相对较多
但是这里我们要特别注意的是选入自变量的检验水准
也就是α入一定要小于或者等于
剔除自变量的检验水准α出
好 那么我们来看一下例题15-3
选用的是逐步回归的方法来分析例题15-1的数据
做自变量的选择
这里我们α入是0.1 α出是0.15
好 这是表格15-7给出了逐步回归的过程
那么最终被删除的变量是X1
那么对于最终我们所拟合的多元线性回归模型
做假设检验
发现这个模型整体上是有统计学意义的
这个表格非常重要
在我们的多元线性回归分析中间
好 最终给出了有统计学意义的自变量
那么给出了他们的什么信息呢
每一个自变量的偏回归系数
这是偏回归系数的标准误
这一栏给出了标准化回归系数
好 那么这里是我们所拟合的最优的回归方程
好 那么这个结果我们可以看到血糖的变化
与X2 X3 X4
也就是甘油三酯 胰岛素和糖化血红蛋白
是有线性回归关系的
其中与X3也就是胰岛素是呈负相关
那么如果我们要比较
这三个自变量X2X3X4的作用大和小的话
那么我们就要看标准化回归系数
从标准化回归系数的绝对值
我们可以看到
糖化血红蛋白对空腹血糖的影响是最大的
好
多元线性回归模型自变量的选择
就给大家介绍到这里
-1. 医学统计学概述
--Video
-2.统计学的几个基本概念
--Video
-3.医学统计工作的基本步骤
--Video
-第一章 绪论--章节测试
-1.频数分布表与频数分布图
--Video
-2.集中趋势描述
--Video
-3.离散趋势描述
--Video
-4.正态分布
--Video
-5.医学参考值范围的制度
--Video
-6.常用相对数
--Video
-7.应用相对数的注意事项
--Video
-8.率的标准化法
--Video
-第二章 计量资料统计描述及计数资料统计描述--章节测试
-1. 均数的抽样误差与标准误差
--Video
-2.t分布
--Video
-3.总体均数的估计
--Video
-4.假设检验的基本原理与步骤
--Video
-5.t检验
--Video
-6.假设检验的注意事项
--Video
-第三章 章节测试
-第一节 方差分析的基本思想及应用条件
--Video
-第二节 完全随机设计资料的方差分析
--Video
-第三节 随机区组设计资料的方差分析
--Video
-第四节 多个样本均数间的多重比较
--Video
-第四章 多个样本均数比较的方差分析--章节测试
-5-1 卡方检验——卡方检验的基本思想
--Video
-5-2 卡方检验——独立样本四格表资料的卡方检验
--Video
-5-3 卡方检验——配对四格表资料的卡方检验
--Video
-5-4 卡方检验——四格表资料的确切概率法
--Video
-5-5 卡方检验——行×列表资料的卡方检验
--Video
-5-6 卡方检验——卡方检验的多个样本率间的多重比较
--Video
-5-7 卡方检验——卡方检验用于拟合优度检验
--Video
-第五章 x²检验--章节测试
-6-1二项分布的概念
--Video
-6-2二项分布的特征
--Video
-6-3二项分布的应用—总体率的区间估计
--Video
-6-4二项分布的应用—率的假设检验
--Video
-6-5泊松分布的概念与特征
--Video
-第六章 几种离散型变量的分布及其应用--章节测试
-第一节 秩和检验概述
--Video
-第二节 Wilcoxon符号秩检验
--Video
-第三节 Wilcoxon秩和检验
--Video
-第四节 Kruskal-Wallis H检验
--Video
-第五节 Friedman M检验
--Video
-第七章 秩转换的非参数检验--章节测试
-第一节 统计表
--Video
-第二节 直条图和直方图
--Video
-第三节 圆图和百分条图
--Video
-第四节 线图和半对数线图
--Video
-第五节 散点图与统计地图
--Video
-第六节 箱图
--Video
-第八章 统计表与统计图--章节测试
-第一节 -概述
--Video
-第二节 直线回归
--Video
-第三节 直线回归中的统计推断
--Video
-第四节 双变量回归与相关-直线相关
--Video
-第五节 回归与相关中的注意事项
--Video
-第六节 秩相关
--Video
-第九章 双变量回归与相关--章节测试
-第一节 多因素试验
--Video
-第二节 两因素析因设计资料的方差分析01
--Video
-第三节 两因素析因设计资料的方差分析02
--Video
-第四节 三因素析因设计资料的方差分析
--Video
-第五节 正交设计与方差分析
--Video
-第六节 嵌套设计资料的方差分析
--Video
-第七节 裂区设计资料的方差分析
--Video
-第十章 章节测试
-第一节 重复测量资料的反差分析
--Video
-第二节 重复测量数据的两因素两水平分析
--Video
-第三节 重复测量数据的两因素多水平分析
--Video
-第四节 重复测量数据的多重比较
--Video
-第十一章 章节测试
-第一节 协方差分析的基本思想和步骤
--Video
-第二节 完全随机设计资料的协方差分析
--Video
-第三节 随机区组设计资料的协方差分析
--Video
-第十二章 章节测试
-第一节 多变量数据的统计描述
--Video
-第二节 多变量数据的统计推断-单组比较
--Video
-第三节 多变量数据的统计推断-两组比较
--Video
-第四节 多变量数据的统计推断-多组比较
--Video
-第五节 重复测量设计的多变量分析
--Video
-第十三章 多变量数据的统计描述与统计推断--章节测试
-1.多元线性回归模型
--Video
-2.多元线性回归模型的假设检验
--Video
-3.多元线性回归模型自变量的选择
--Video
-4.多元线性回归模型应用及其注意事项
--Video
-第十四章 多元线性回归分析--章节测试
-1Logistic 回归分析——logistic回归分析的概述
--Video
-2Logistic 回归分析——logistic回归分析的概念
--Video
-3Logistic 回归分析——成组(非条件)logistic回归分析
--Video
-4回归分析—— 配对(条件)logistic回归分析
--Video
-5Logistic 回归分析—— logistic回归的应用
--Video
-第十五章 logistic回归分析--章节测试
-第一节 生存分析中的基本概念
--Video
-第二节 生存率的估计与生存曲线
--Video
-第三节 生存率的比较
--Video
-第四节 Cox比例风险回归模型
--Video
-第十六章 章节测试
-第一节 判别分析-概论
--Video
-第二节 判别分析-Fisher判别
--Video
-第三节 判别分析-最大似然和Bays公式判别法
--Video
-第四节 判别分析-Bayes判别法与逐步判别
--Video
-第十七章 章节测试
-第一节 聚类分析-概论
--Video
-第二节 聚类分析-系统聚类法
--Video
-第三节 聚类分析-动态样品聚类
--Video
-第十八章 聚类分析--章节测试
-第一节 SPSS-概述
--Video
-第二节 SPSS-数据文件的建立
--Video
-第三节 SPSS-数据文件的管理
--Video
-第四节 SPSS-计量资料的统计分析-描述性统计量
--Video
-第五节 SPSS-计量资料的统计分析-均数比较-t检验
--Video
-第六节 SPSS-计量资料的统计分析-均数比较-完全随机设计资料的方差分析
--Video
-第七节 SPSS-计量资料的统计分析-均数比较-随机区组设计资料的方差分析_医学统计学
--Video
-第八节 SPSS-计量资料的统计分析-均数比较-拉丁方设计资料的方差分析
--Video
-第九节 SPSS-计量资料的统计分析-均数比较-交叉设计资料的方差分析
--Video
-第十节 SPSS-计数资料的统计分析-样本率与总体率比较
--Video
-第十一节 SPSS-计数资料的统计分析-样本率比较
--Video
-第十二节 SPSS-配对计量资料比较的秩和检验
--Video
-第十三节 spss-两独立样本比较的秩和检验
--Video
-第十四节 spss-多个独立样本比较的秩和检验
--Video
-第十五节 spss-随机区组设计资料的秩和检验
--Video
-第十六节 SPSS-直线相关回归分析
--Video
-第十七节 spss多元线性回归
--Video
-第十八节 spss-logistic回归
--Video
-第十九节 spss-条件logistic回归
--Video
-第二十节 spss-有序logistic回归
--Video
-第二十一节 spss-无序多分类logistic回归
--Video
-常用综合评价方法
--Video
-第二十章 章节测试
-量表的研制方法
--Video
-第二十一章 章节测试
-医学文献的系统综述与Mata分析
--Video
-第二十二章 章节测试





