当前课程知识点:基于R语言的社会统计分析 > 第七章: 统计推断 - 显著性检验 > 7.5 检验中错误的类型 > Video
好下面我们来聊聊
做显著性检验的时候
可能犯错误的类型还有这种
每种错误发生的概率
我们想只要是我用样本
信息
用很有限的小小样本去猜测大大的无限总体
每次在这个过程中
但凡我没有办法收到来自总体的所有信息
我就存在着
犯错的风险
那
有哪几种可能哪几种错误的类型呢
我们来看看啊
我先建一个小表格
我先对比一下现实还有你的研究结论
首先我有现实真实的情况
现实的情况分为两种
第一种可能
是你的原假设是真的
H0是真的
另外一种呢H0是假的
这是现实的情况
是总体的真实情况也就是
我们实际上不知道的情况
我们每次想用样本去猜测这个总体
这是我们不知道的
那另外呢
我们说每次做一个显著性检验的时候
你都需要做决策
或者是最后下的那个结论
结论你会下两种结论
一种
我要不拒绝原假设或者是接受原假设
当然我们说不能这么说我认为
有可能我没有成功的拒绝它呢
实际上类似于我认为H0暂时是真的
那还有一种呢我认为H0是假的
也就是成功的把它拒绝掉了
这里面就是拒了
这里面是不拒
好
我们现在看看
这有这么多种的排列组合
2乘2一共有4种可能
如果现实中
原假设是真的
我也没有把它拒绝掉
那实际上我干了一件很对的事儿对吧
所以这个时候干对了
那如果说
现实中原假设为真
我却把它拒绝掉了
这事儿就没干对对吧干错了
那我现在问你
当现实中原假设为真
而我却认为它是假
也就是我把它拒绝掉了这个概率是多少呢
你仔细想一想
我们刚才说显著性水平
显著性水平是什么意思
就是说我认为在原假设为真的情况下
发生这件事的概率太小了
于是乎我选择把它拒绝
但有没有可能真的发生了呢
实际上
我们所说的显著性水平α
就是你犯错的可能
就是我甘愿冒的风险
我认为在原假设为真的情况下
虽然它有可能发生
但是它发生的概率太小了
我决定拒绝它
那这个时候也有可能
你冒着犯错的风险
这个地方就是α
那另外呢
在现实中假设
H0是假的H0是假的
然后
我也成功的
把H0拒绝掉了
把原假设拒绝掉了
那这个时候我干了一件很对的事情
我们就
开心了
然后如果现实中H0是假的
我却没有成功的把它拒绝掉
这个时候我认为我犯错了
这儿犯了错误
如果现实中H0是假的
然后我也成功的把它拒绝掉了
我会发现我是最最开心的为什么
什么时候我会拒绝原假设
说明我把备择假设给接受了
备择假设是你的研究问题
是我真正想证明的研究问题
那也就是说我处心积虑想干的事儿终于成功了
我的愿望达成了
研究假设得证我的理论是对的
那这个时候我认为
我的检验特别有功效
这个时候我们管这个概率叫做β
也就是说你干对一件事儿的概率
当原假设为假的时候
成功的把它拒绝的概率叫做β概率
那这里面当然就是你犯错的概率
当H0为假的时候
没有成功的把H0拒绝掉那就犯错了
那它的概率呢实际上
就是1减β
那这边也对应H0可能
在H0为真的情况下
你有可能不拒绝它也有可能拒绝它了
我们说拒绝的概率是α
那么不拒绝呢就是1减去α
所以有两种犯错的概率
犯第一类错误的概率
我们中文管它叫弃真
也就是在原假设为真的情况下把它扔掉了
把真的扔掉丢弃了弃真
那第二类错误叫取伪也是在原假设为假的情况下
我却认为它是真的把假的给取了啊
叫做第二类错误
α对应的是第一类错误
我们认为犯第一类错误的概率是α
那第二类错误呢
是1-β啊
大多数情况下呢在实际研究中我们当然是
不想犯错的
那我希望
第一类错误和第二类错误发生的概率
都小我希望这个α和β值都小
那怎么办呢
我们看
你现在眼前看到的这张图啊
它说明了一个什么问题
说α和β此消彼长
实际上我们永远要在α和β之间做出权衡
不能有一种特别好的方法
就是在样本量不变的情况下我们没有一种特别好的方法
能够使α和β同时变小为什么呢
我们看现在这张图啊左边的这个分布这个小山包啊代表的是
原假设为真的情况
右边的这个小山包
代表的是备择假设为真的情况
那我们看到中间的这条竖线
代表的是
α等于0.05时的那个临界值
也就是说当你得到的t检验的t值也好Z值也好
当这两个检验统计量取值大于
竖线上的这个值的时候
我们就会拒绝原假设认为在原假设为真的情况下
抽到这样的样本的概率就很小了
那α现在等于0.05
如果说我希望把α
第一类错误的概率降低
也就是我希望把这条线往右挪
使右尾的阴影部分呢
面积变小
也就是
下面这张图啊
看一看结果你看在
这条竖线右移
的过程之中左边α
错误的概率不可避免的就增加了
α是什么呢
α是在原假设为假的时候没有成功的拒绝它
那你看看α和错误这个
造成混淆最直接的原因是
两边H0和H1两个山包离得太近
就是说如果它们两个重叠的面积
很大的话那
你得到一个值真的很难分辨说它到底
是来自于H0还是H1的尤其它是
两个山包重叠的交界这个部分
那怎么样能够让α和β
同时变小呢
实际上只有一条路可走就是增大样本量
我们想像一下我们增大样本量会对你眼前
的图片产生一个什么样的效果
我现在这个分布
宽窄代表的是
它的离散程度对吧
离散程度是由
样本量来决定的
也就是样本量变小的时候
离散程度会大而如果你增大样本量的话离散程度会小
然后你这个山包呢就会变得很窄
山包两个山包都变得很窄的情况下它们相交的面积
就会很小于是乎α和β就会同时变小了
所以总结而言如何同时
控制两类错误唯一的途径
就是增大样本量
最后呢我们来聊聊显著性检验的局限性
我知道很多同学都非常喜欢看到显著的结果啊
拿到了一个显著的结果就觉得我特别的无敌打败一切了啊
好像什么事都成功了啊
那统计学意义上的显著我一定要说并不是神器
有的时候一个很小的P值
比如说P=0.001它可以告诉我们的
只是说样本观测值给我们足够的证据去反对原假设
但很有可能就在实际中没有任何意义
可能大家一听就很崩溃啊说我学了半天最后我使了半天劲证出来的
显著没有任何意义呢
我们举一个实际的例子啊虽然这个例子可能相对比较极端
但是是很说明问题的
比如说我现在是一个
社会工作团队我想进行关于
中风的术后干预
就是我想知道
通过了我的
服务以后
能不能够
让中风的手术的预后会变得更好
那我一定会有一个评价标准对吧
我的评价标准呢比如说是
日常生活能力量表
这个量表呢叫做activity of daily living ADL
ADL呢
有很多种不同类型的ADL
我们假设我们用一种量表这种量表的
取值范围是0到100
0代表的是这个老人的日常生活能力
完全不能自理啊状态极差不能吃饭不能穿衣服
不能走路
那100代表的是活蹦乱跳状态非常好
那这是我的评价标准
我选择研究方法很简单
就是刚做完手术的时候
或者说刚出院的时候我对老人的日常生活能力进行一个评估
评估完了以后三个月以后
我再评估它一次
看看它的日常生活能力有没有
变化也就是在0到100之间的这个
取值大概是多少
我们先不考虑更严肃的有没有控制组的问题
我们现在就说
在刚出院还有出院以后三个月
我想比较一下
ADL的均值
那假设
手术后的ADL的平均分是30分
然后经过了干预我发现
好像有所好转得了32分
其实
如果你的样本量
足够大我们看就是两分的差距
如果是你的样本量足够大
我有很大的可能能把
样本的标准误抽样标准误控制的特别特别小
我就可以能成功的证明
你的原假设那个30或者是说
中风预后以后ADL得分没有变化的这个假设
可以很简单的就把它成功拒绝掉
但拒绝了以后我得出了结论
只是说我的样本均值显著的不同于30
那32和30相比到底有多大的临床意义呢
这是真正值得推敲的
所以说统计学意义上的显著
和我们实际上的显著实际意义上或者临床意义上显著
是两个故事totally different stories
所以一定要注意啊就是
你真正想证明的是什么
有的时候仅仅是一个P值小于0.001你并不能
说我无敌了说我完成任务了
好第二个问题
是关于显著性检验
可能有的时候
并不比置信区间管用
这样的一个陈述啊
有的
人会说我们社科文章中每篇
文章都能看到好多的小星星
一颗星两颗星三颗星
就告诉你说我是
显著还是高度显著啊
有的时候在社科研究中
其实我们认为显著性检验的作用有的时候可能是被过分地夸大了
因为无论如何你都是和一个值一个假想敌去战斗
就像我们刚才所说的
刚才的那个例子我拿32和30比
只要这个值不等于30这个值很可能是30.1 30.2
只要我的样本量足够大我都可以把30成功拒绝掉
那如果是置信区间呢
置信区间会对总体参数的取值范围进行一个猜测
它会给你更多的信息
所以你会发现现在的研究论文有一个趋势啊如果你看社科论文我们还在
不遗余力的使用显著性检验
而在医学论文上
显著性检验基本上已经不被要求报了啊
我们基本上报一个置信区间就可以了啊
然后这就留给大家一个问题
显著性检验的结果
和置信区间得出的结果到底
存在什么样的关系
这个答案通过总结这一周和上一周的内容其实你自己可以得出结论
那
这就是我们本周的学习内容
我们总结一下本周我们都说什么事了啊
我们首先介绍了每个检验都共有的五个部分
我们说每个检验首先都有前提假定
有理论假设有检验统计量有P值还有最后
回到现实中来得出的那个结论
然后我们分别介绍了关于总体均值的
显著性检验还有总体比例的显著性检验
最后我们还聊了
说每次只要你是用样本去推测总体都会犯错
犯错的可能是什么
然后我们又说要想同时控制α错误和β错误
唯一的途径就是增大样本量
然后最后虽然讲得很短但是我希望大家不要忘记
一个很重要的信息就是统计学意义上的显著
和实际意义或者是临床意义上的显著是完全不同的概念
有的时候可能使用置信区间
比简单的使用显著性检验给我们能够带来更多的信息
这就是我们这周的主要内容
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video