当前课程知识点:寻据而来-药学数据统计 > 第四章 试验数据的回归分析 > 4.1 有因就有果吗 > 4.1 有因就有果吗
同学们好
现在我们开始介绍第四章
试验数据的回归分析
现实世界中
每一事物的变化都与它周围的事物相互联系
因此
反映客观事物变化的各种变量之间也就存在着一定的关系
在中学时
我们探讨两个变量之间的关系
通常会用形如一个函数y=f(x)去进行刻画
比如一个正方形的面积
和他的边长之间有一个函数关系
当边长给定的时候
面积是唯一确定的
但是
我们发现实际中有很多变量之间
并不存在这种确定的函数关系
比如人的年龄和血压
年龄相同的人群
他们的血压并不是完全相同的
但是我们发现随着年龄的增长
血压值似乎通常会走高
年龄和血压这种不确定性的关系
我们把它称为相关关系
本节主要介绍直线相关关系
去探讨相关分析这一基本的统计分析方法
我们来看一个背景案例
19世纪
英国统计学家高尔顿
在研究父子身高遗传问题时
他采集了国内1078对父亲和儿子的身高
用x表示父亲的身高
y表示成年儿子的身高
他将这1000多对父子的身高数据
描在一个直角坐标系中
发现这些点的排布有一个趋势
近似排成一条直线
而且他把这条直线给画出来了
大家可以看到这条直线方程
是我们熟知的一次函数关系
虽然我们用一次函数关系去进行刻画
但是请注意
它们并不是一个严格的一次函数关系
只是近似的
大家会看到y的上方加了一个尖角的符号
像戴了一顶帽子
读作y hat
看到这样的一个方程
给我们哪些启示呢
首先大家会发现x前面的系数是正的
也就意味着
随着x的增大
y的取值也是增大的
同时x的系数为0.516
也就意味着当x增大一个单位长度的时候
y平均增加了0.516个单位
另外
我们按照经验知道
父亲身高越高
他儿子的身高也相对高
但是我们发现一件事情就是
当一群高个子的父亲
他们的平均身高
反而会低于他们成年儿子的平均身高
比如
当x=80英寸
大概是两米左右
y等于75英寸
大概是1米9
另外
我们知道
矮个子的父亲
他们的儿子身高也相对矮
一群矮个子的父亲
他们的平均身高和他们的儿子的平均身高相比
儿子的平均身高会高一些
比如
当一群矮个子的父亲的身高平均身高是60英寸
大概1米5左右
他们儿子的平均身高是64英寸
大概1米64
从数量关系上
可以发现其中这样的一个趋势
也就是人类的身高在遗传的时候
有一种向中心回归的趋势
这也就是为什么人类文明发展到现在
人类的身高不会一直增长下去
正是因为这样的一个趋势
使得人类的身高始终维持在一个相对稳定的状态
在医学上
会探讨人的身高和体重这两者之间的关系
大家所熟知的BMI指数
它的计算公式是用人的体重除以身高的平方
如果把这样的一个式子进行变形
我们就得到了人的体重和身高的
平方之间的一个近似的数量关系
其中它的系数在18.5到23.9时
是我们国人BMI指数的一个正常范围
它对于我们去判断自己的体重是否是正常
有着重要的指导意义
又比如
人的脚掌长度和身高之间
也存在一定的相关关系
脚大的人
一般身高也偏高
男生的脚普遍比女生的大
同时男生的身高也普遍的比女生的高
当然这是指平均意义上的
接下来我们探讨两个变量之间的这种相关关系
最简单的一种情形
我们将它称为简单相关
或者称为直线相关
如何去刻画两个变量之间的直线相关关系呢
最直观的想法就是画图
当我们将x和y两个变量的数据采集到了n个数据点
把这n个数据点对画在同一个直角坐标系下
形成这样的一幅图
我们把它称为散点图
它可以很直观的让我们发现
x和y这两个变量之间的数量趋势
前两幅图
这些散点的排布是近似一条直线的关系
也就是我们将要探讨的直线相关关系
而后两幅图
并没有直线的趋势
但可能存在某种曲线相关关系
当然除了图形外
还希望寻求一种量化的、确定的计算方法
去刻画两个变量的相关关系程度究竟有多大
我们引入这样一个统计指标
叫皮尔森相关系数
它可以刻画两个变量之间
相关关系的紧密程度和相关的方向
如果是基于总体数据计算的相关系数
称为总体相关系数
记为
基于样本信息计算出来的相关系数
称为样本相关系数
用字母r表示
我们来看一下相关系数r的计算公式
它是一个比值的构造形式
其中lxy
lxx和lyy
叫离均差平方和
所谓离均差指的是离开平均值的程度
或者是离开平均值的差距
比如 lxx是每一个x
都减去它们的平均值x bar
然后平方求和
除了用离均差平方和这种形式去进行计算相关系数
也给出了一个等价的计算公式
当然具体的计算求值我们直接借助软件
这样定义的相关系数
它有哪些特点呢
按照r的构造形式
它是一个比值
分子和分母的单位是相同的
所以r是没有单位的
同时可以验证r的范围一定是介于-1到1之间
当r取正的时候
称为正相关
r取负的时候
称为负相关
r的绝对值刻画了两个变量之间的相关程度
r的绝对值越大
相关程度就越大
当r的绝对值
大到一定的程度
比如说极端的状态r的绝对值刚好等于1
也就是
r=1或-1
称为完全相关
另外一种极端状态是r的绝对值越来越小
小到刚好等于0
称为零相关
注意零相关
并不代表两个变量什么关系都没有
只是说明x和y没有直线相关关系
两个变量不具有直线相关关系
还有可能具有其他的曲线相关关系
因此
样本相关系数r
它其实只是仅仅用来刻画两个变量
是否具有直线相关关系的一个统计指标
通常我们认为
r的绝对值大于0.85
称为强相关
r绝对值小于0.35
称为弱相关
现在我们来看一个例子
一个地区
想要刻画同龄儿童体重和表面积之间的相关关系
随机抽取了10名儿童的体重和体表面积
为了计算x和y的相关系数
我们按照第1种离均差平方和的形式来进行计算
表格中最后三个数据
24.904
1.543892和5.69156分别是
lxx、lyy和lxy
得到这三个离均差平方和
就可以代入计算样本相关系数r的取值
结果是0.9179
第2种方式是
将离均差平方和进行等价变形
等价公式中需要求出x乘以y的和
x的平方和
y的平方和
表格中最后三个数据
775.3466
1831.24和329.4834正是这三个和
把这三个和代到等价公式中
就可以得到三个离均差平方和
进而得到r的取值
和前一种计算r的方式结果是一样的
随着样本的变化
样本相关系数也会变化
实际上
两个变量的样本相关系数
只是总体相关系数的估计量
总体相关系数是衡量两个变量
是否存在直线相关关系的总体特征值
它是一个理论值
在实际问题中一般无法获知
通常根据具体抽样的相关系数r
作为总体相关系数ρ的估计值
事实上
如果从一个ρ=0的总体做随机抽样
由于抽样误差的影响
所得r值也常不等于零
因此
要判断是否真的存在直线相关关系
就需要做是否为零的假设检验
在变量X和Y都服从正态分布的前提下
通常使用的检验方法有两种
第1种检验方法
我们采用t统计量进行假设检验
t的结构里面含有样本相关系数r
这个t统计量是服从n-2的t分布
给出拒绝域W
它是偏离0的两条尾巴
如果t统计量的值落在拒绝域里面
那么我们就要拒绝原假设h0
拒绝h0意味着ρ不等于0
也就是认为直线之间存在相关关系
反之就没有理由拒绝h0
认为ρ等于0
那也就意味着x和y没有直线相关关系
第2种直接采用r作为检验统计量
它的自由度是n-2
n是样本容量
查找r的临界值r a/2
给出拒绝域W
它是离开0的两条尾巴
如果r的值落在拒绝域里面
认为ρ不等于0
即认为直线之间存在相关关系
反之
当r没有落在拒绝域里面
就认为等于0
可以认为x和y没有直线相关关系
现在我们对例1的数据
检验总体相关系数是否等于0
题目给出的样本是这个地区10名三岁儿童的体重和体表面积
研究的总体数据指的是什么呢
总体指的是这个地区所有三岁儿童的体重和体表面积
现在我们分别用t检验和r检验来分析
先看t检验
将前面计算出来的r值代入到t统计量的计算公式
算得t等于6.543
查得临界值t a/2
是3.355
给出拒绝域
从数值上
大家会发现t落在拒绝域里面
就要拒绝h0
认为ρ不等于0
而且由于r是正的
因此作出体重与体表面积呈正向直线相关的结论
再来看r检验
查得临界值r a/2
是0.765
给出拒绝域
显然r落在拒绝域里
那就要拒绝h0
因此和t检验的结论是一致的
在用统计软件进行计算时
同学们可以通过输出的概率P值与显著性水平α进行大小比较
得出相应的结论
事实上
从理论上我们可以论证r检验和t检验
这两种检验方法是等价的
同学们在分析总体相关系数是否等于0时
选择其中一种检验方法就可以了
直线相关分析的条件是双变量正态性
两变量要有直线趋势
另外
样本数据要注意异常值的影响
若不满足双变量正态分布
或总体分布类型未知
或者两变量至少有一个是等级资料
则要进行等级相关分析
主要的等级相关分析方法有斯皮尔曼法和肯德尔法
可直接交由统计软件进行计算分析
做相关分析要注意以下几点
第一
在计算相关系数前
先利用散点图判断两变量间是否具有线性趋势
第二
有些研究中
一个变量的数值随机变动
另一个变量的数值却是人为选定的
如研究药物的剂量和反应关系时
一般先选定几种剂量
然后观察每种剂量动物的反应
此时得到的观察值就不是随机样本
计算的样本相关系数r会因剂量的选择方案不用而不同
因此
一个变量的数值是人为选定时
不宜做直线相关分析
第三
异常点对正确评价两变量直线相关有较大的影响
在做相关分析前
需要对异常点及时修正或剔除
第四
分层资料不要盲目合并
否则可能得出错误结论
最后我们来区分一下相关关系和因果关系
例如
根据相关分析
儿童身高与小树树高是直线相关的
并不代表儿童身高的变化引起了小树树高的变化
这是由于时间变量与二者的潜在联系
造成了儿童身高与树高相关的假象
两变量相关并不能武断的认为
它们之间存在因果关系
有时造成这种相关仅仅只是由于
它们共享了一些共同的特征
因此
有一个变量如果看成是因
与之相关的变量并一定是它的果
好
这一节我们就讲到这
谢谢
-1.1 数据需要分析吗
-1.2 课程纲要及参考源
-1.3 数据分析的对象和任务
-1.4 从数据中获取信息
-第一章习题
-2.1 误差可以避免吗
-2.2 误差检验
--2.2 误差检验
-2.3 发现异常值
-2.4 误差是可以传递的
-2.5 数据的正态性检验
-2.6 统计助手---软件工具的介绍
-第二章习题
-3.1 各组间的差异可以衡量吗
-3.2 对照标准值比较差异
-3.3 两组数据的差异性比较
-3.4 两组配对数据差异性比较
-3.5 同环境下多组数据对比
-第三章习题
-4.1 有因就有果吗
-4.2 相关与回归方程的建立与检验
-4.3 多元回归及可信赖检验
-4.4 应当避免的数据坑
-第四章习题
-5.1 实验需要设计吗
-5.2 两因素的方差分析
-5.3 全因子设计实验
-5.4 部分因子设计实验
-5.5 响应曲面实验设计
-5.6 正交试验设计
-5.7 均匀设计实验
-5.8 无附加约束的混料实验设计
-5.9 有附加约束的混料设计
-5.10 均匀混料实验设计
-第五章习题
-6.1 聚类分析
--6.1 聚类分析
-6.2 判别分析
--6.2 判别分析
-第六章习题
-7.1 麻辛石甘汤与新冠疫情
-7.2 中药注射剂再评价
-7.3 幸存者偏差