当前课程知识点:寻据而来-药学数据统计 >  第四章 试验数据的回归分析 >  4.1 有因就有果吗 >  4.1 有因就有果吗

返回《寻据而来-药学数据统计》慕课在线视频课程列表

4.1 有因就有果吗在线视频

下一节:4.2相关与回归方程的建立与检验

返回《寻据而来-药学数据统计》慕课在线视频列表

4.1 有因就有果吗课程教案、知识点、字幕

同学们好

现在我们开始介绍第四章

试验数据的回归分析

现实世界中

每一事物的变化都与它周围的事物相互联系

因此

反映客观事物变化的各种变量之间也就存在着一定的关系

在中学时

我们探讨两个变量之间的关系

通常会用形如一个函数y=f(x)去进行刻画

比如一个正方形的面积

和他的边长之间有一个函数关系

当边长给定的时候

面积是唯一确定的

但是

我们发现实际中有很多变量之间

并不存在这种确定的函数关系

比如人的年龄和血压

年龄相同的人群

他们的血压并不是完全相同的

但是我们发现随着年龄的增长

血压值似乎通常会走高

年龄和血压这种不确定性的关系

我们把它称为相关关系

本节主要介绍直线相关关系

去探讨相关分析这一基本的统计分析方法

我们来看一个背景案例

19世纪

英国统计学家高尔顿

在研究父子身高遗传问题时

他采集了国内1078对父亲和儿子的身高

用x表示父亲的身高

y表示成年儿子的身高

他将这1000多对父子的身高数据

描在一个直角坐标系中

发现这些点的排布有一个趋势

近似排成一条直线

而且他把这条直线给画出来了

大家可以看到这条直线方程

是我们熟知的一次函数关系

虽然我们用一次函数关系去进行刻画

但是请注意

它们并不是一个严格的一次函数关系

只是近似的

大家会看到y的上方加了一个尖角的符号

像戴了一顶帽子

读作y hat

看到这样的一个方程

给我们哪些启示呢

首先大家会发现x前面的系数是正的

也就意味着

随着x的增大

y的取值也是增大的

同时x的系数为0.516

也就意味着当x增大一个单位长度的时候

y平均增加了0.516个单位

另外

我们按照经验知道

父亲身高越高

他儿子的身高也相对高

但是我们发现一件事情就是

当一群高个子的父亲

他们的平均身高

反而会低于他们成年儿子的平均身高

比如

当x=80英寸

大概是两米左右

y等于75英寸

大概是1米9

另外

我们知道

矮个子的父亲

他们的儿子身高也相对矮

一群矮个子的父亲

他们的平均身高和他们的儿子的平均身高相比

儿子的平均身高会高一些

比如

当一群矮个子的父亲的身高平均身高是60英寸

大概1米5左右

他们儿子的平均身高是64英寸

大概1米64

从数量关系上

可以发现其中这样的一个趋势

也就是人类的身高在遗传的时候

有一种向中心回归的趋势

这也就是为什么人类文明发展到现在

人类的身高不会一直增长下去

正是因为这样的一个趋势

使得人类的身高始终维持在一个相对稳定的状态

在医学上

会探讨人的身高和体重这两者之间的关系

大家所熟知的BMI指数

它的计算公式是用人的体重除以身高的平方

如果把这样的一个式子进行变形

我们就得到了人的体重和身高的

平方之间的一个近似的数量关系

其中它的系数在18.5到23.9时

是我们国人BMI指数的一个正常范围

它对于我们去判断自己的体重是否是正常

有着重要的指导意义

又比如

人的脚掌长度和身高之间

也存在一定的相关关系

脚大的人

一般身高也偏高

男生的脚普遍比女生的大

同时男生的身高也普遍的比女生的高

当然这是指平均意义上的

接下来我们探讨两个变量之间的这种相关关系

最简单的一种情形

我们将它称为简单相关

或者称为直线相关

如何去刻画两个变量之间的直线相关关系呢

最直观的想法就是画图

当我们将x和y两个变量的数据采集到了n个数据点

把这n个数据点对画在同一个直角坐标系下

形成这样的一幅图

我们把它称为散点图

它可以很直观的让我们发现

x和y这两个变量之间的数量趋势

前两幅图

这些散点的排布是近似一条直线的关系

也就是我们将要探讨的直线相关关系

而后两幅图

并没有直线的趋势

但可能存在某种曲线相关关系

当然除了图形外

还希望寻求一种量化的、确定的计算方法

去刻画两个变量的相关关系程度究竟有多大

我们引入这样一个统计指标

叫皮尔森相关系数

它可以刻画两个变量之间

相关关系的紧密程度和相关的方向

如果是基于总体数据计算的相关系数

称为总体相关系数

记为

基于样本信息计算出来的相关系数

称为样本相关系数

用字母r表示

我们来看一下相关系数r的计算公式

它是一个比值的构造形式

其中lxy

lxx和lyy

叫离均差平方和

所谓离均差指的是离开平均值的程度

或者是离开平均值的差距

比如 lxx是每一个x

都减去它们的平均值x bar

然后平方求和

除了用离均差平方和这种形式去进行计算相关系数

也给出了一个等价的计算公式

当然具体的计算求值我们直接借助软件

这样定义的相关系数

它有哪些特点呢

按照r的构造形式

它是一个比值

分子和分母的单位是相同的

所以r是没有单位的

同时可以验证r的范围一定是介于-1到1之间

当r取正的时候

称为正相关

r取负的时候

称为负相关

r的绝对值刻画了两个变量之间的相关程度

r的绝对值越大

相关程度就越大

当r的绝对值

大到一定的程度

比如说极端的状态r的绝对值刚好等于1

也就是

r=1或-1

称为完全相关

另外一种极端状态是r的绝对值越来越小

小到刚好等于0

称为零相关

注意零相关

并不代表两个变量什么关系都没有

只是说明x和y没有直线相关关系

两个变量不具有直线相关关系

还有可能具有其他的曲线相关关系

因此

样本相关系数r

它其实只是仅仅用来刻画两个变量

是否具有直线相关关系的一个统计指标

通常我们认为

r的绝对值大于0.85

称为强相关

r绝对值小于0.35

称为弱相关

现在我们来看一个例子

一个地区

想要刻画同龄儿童体重和表面积之间的相关关系

随机抽取了10名儿童的体重和体表面积

为了计算x和y的相关系数

我们按照第1种离均差平方和的形式来进行计算

表格中最后三个数据

24.904

1.543892和5.69156分别是

lxx、lyy和lxy

得到这三个离均差平方和

就可以代入计算样本相关系数r的取值

结果是0.9179

第2种方式是

将离均差平方和进行等价变形

等价公式中需要求出x乘以y的和

x的平方和

y的平方和

表格中最后三个数据

775.3466

1831.24和329.4834正是这三个和

把这三个和代到等价公式中

就可以得到三个离均差平方和

进而得到r的取值

和前一种计算r的方式结果是一样的

随着样本的变化

样本相关系数也会变化

实际上

两个变量的样本相关系数

只是总体相关系数的估计量

总体相关系数是衡量两个变量

是否存在直线相关关系的总体特征值

它是一个理论值

在实际问题中一般无法获知

通常根据具体抽样的相关系数r

作为总体相关系数ρ的估计值

事实上

如果从一个ρ=0的总体做随机抽样

由于抽样误差的影响

所得r值也常不等于零

因此

要判断是否真的存在直线相关关系

就需要做是否为零的假设检验

在变量X和Y都服从正态分布的前提下

通常使用的检验方法有两种

第1种检验方法

我们采用t统计量进行假设检验

t的结构里面含有样本相关系数r

这个t统计量是服从n-2的t分布

给出拒绝域W

它是偏离0的两条尾巴

如果t统计量的值落在拒绝域里面

那么我们就要拒绝原假设h0

拒绝h0意味着ρ不等于0

也就是认为直线之间存在相关关系

反之就没有理由拒绝h0

认为ρ等于0

那也就意味着x和y没有直线相关关系

第2种直接采用r作为检验统计量

它的自由度是n-2

n是样本容量

查找r的临界值r a/2

给出拒绝域W

它是离开0的两条尾巴

如果r的值落在拒绝域里面

认为ρ不等于0

即认为直线之间存在相关关系

反之

当r没有落在拒绝域里面

就认为等于0

可以认为x和y没有直线相关关系

现在我们对例1的数据

检验总体相关系数是否等于0

题目给出的样本是这个地区10名三岁儿童的体重和体表面积

研究的总体数据指的是什么呢

总体指的是这个地区所有三岁儿童的体重和体表面积

现在我们分别用t检验和r检验来分析

先看t检验

将前面计算出来的r值代入到t统计量的计算公式

算得t等于6.543

查得临界值t a/2

是3.355

给出拒绝域

从数值上

大家会发现t落在拒绝域里面

就要拒绝h0

认为ρ不等于0

而且由于r是正的

因此作出体重与体表面积呈正向直线相关的结论

再来看r检验

查得临界值r a/2

是0.765

给出拒绝域

显然r落在拒绝域里

那就要拒绝h0

因此和t检验的结论是一致的

在用统计软件进行计算时

同学们可以通过输出的概率P值与显著性水平α进行大小比较

得出相应的结论

事实上

从理论上我们可以论证r检验和t检验

这两种检验方法是等价的

同学们在分析总体相关系数是否等于0时

选择其中一种检验方法就可以了

直线相关分析的条件是双变量正态性

两变量要有直线趋势

另外

样本数据要注意异常值的影响

若不满足双变量正态分布

或总体分布类型未知

或者两变量至少有一个是等级资料

则要进行等级相关分析

主要的等级相关分析方法有斯皮尔曼法和肯德尔法

可直接交由统计软件进行计算分析

做相关分析要注意以下几点

第一

在计算相关系数前

先利用散点图判断两变量间是否具有线性趋势

第二

有些研究中

一个变量的数值随机变动

另一个变量的数值却是人为选定的

如研究药物的剂量和反应关系时

一般先选定几种剂量

然后观察每种剂量动物的反应

此时得到的观察值就不是随机样本

计算的样本相关系数r会因剂量的选择方案不用而不同

因此

一个变量的数值是人为选定时

不宜做直线相关分析

第三

异常点对正确评价两变量直线相关有较大的影响

在做相关分析前

需要对异常点及时修正或剔除

第四

分层资料不要盲目合并

否则可能得出错误结论

最后我们来区分一下相关关系和因果关系

例如

根据相关分析

儿童身高与小树树高是直线相关的

并不代表儿童身高的变化引起了小树树高的变化

这是由于时间变量与二者的潜在联系

造成了儿童身高与树高相关的假象

两变量相关并不能武断的认为

它们之间存在因果关系

有时造成这种相关仅仅只是由于

它们共享了一些共同的特征

因此

有一个变量如果看成是因

与之相关的变量并一定是它的果

这一节我们就讲到这

谢谢

寻据而来-药学数据统计课程列表:

第一章 数据分析概论

-1.1 数据需要分析吗

--1.1 数据需要分析吗

-1.2 课程纲要及参考源

--1.2课程纲要及参考源

-1.3 数据分析的对象和任务

--1.3数据分析的对象和任务

-1.4 从数据中获取信息

--1.4从数据中获取信息

-第一章习题

第二章 试验数据的误差分析

-2.1 误差可以避免吗

--2.1 误差可以避免吗

-2.2 误差检验

--2.2 误差检验

-2.3 发现异常值

--2.3 发现异常值

-2.4 误差是可以传递的

--2.4 误差是可以传递的

-2.5 数据的正态性检验

--2.5 数据的正态性检验

-2.6 统计助手---软件工具的介绍

--2.6 统计助手---软件工具的介绍

-第二章习题

第三章 试验样本的均值比较

-3.1 各组间的差异可以衡量吗

--3.1 各组间的差异可以衡量吗

-3.2 对照标准值比较差异

--3.2 对照标准值比较差异

-3.3 两组数据的差异性比较

--3.3 两组数据的差异性比较

-3.4 两组配对数据差异性比较

--3.4 两组配对数据差异性比较

-3.5 同环境下多组数据对比

--3.5 同环境下多组数据对比

-第三章习题

第四章 试验数据的回归分析

-4.1 有因就有果吗

--4.1 有因就有果吗

-4.2 相关与回归方程的建立与检验

--4.2相关与回归方程的建立与检验

-4.3 多元回归及可信赖检验

--4.3多元回归及可信性检验

-4.4 应当避免的数据坑

--4.4应当避免的数据坑

-第四章习题

第五章 试验设计

-5.1 实验需要设计吗

--5.1试验需要设计吗

-5.2 两因素的方差分析

--5.2两因素的方差分析

-5.3 全因子设计实验

--5.3全因子试验设计

-5.4 部分因子设计实验

--5.4部分因子试验设计

-5.5 响应曲面实验设计

--5.5响应曲面试验设计

-5.6 正交试验设计

--5.6正交试验设计

-5.7 均匀设计实验

--5.7均匀试验设计

-5.8 无附加约束的混料实验设计

--5.8无附加约束的混料试验设计

-5.9 有附加约束的混料设计

--5.9有附加约束的混料试验设计

-5.10 均匀混料实验设计

--5.10均匀混料试验设计

-第五章习题

第六章 聚类分析和判别分析

-6.1 聚类分析

--6.1 聚类分析

-6.2 判别分析

--6.2 判别分析

-第六章习题

专题1:透过数据看中药质量提升

-7.1 麻辛石甘汤与新冠疫情

--7.1麻辛石甘汤与新冠疫情

-7.2 中药注射剂再评价

--7.2 中药注射剂再评价

专题2:数据发现的启示--幸存者偏差

-7.3 幸存者偏差

--7.3 幸存者偏差

●课程思政--新冠肺炎疫情

-数理统计--新冠肺炎疫情讨论

●课程参考资料及视频

-课程参考资料

4.1 有因就有果吗笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。