3.18 Statistic power analysis慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

最后我们再来讨论一下 power analysis

对于统计力的分析是非常重要的

那么我们在rct的这一个单元就引入了

cluster具备的这样的一种残差特点

这个时候对于我们抽样会带来很多的影响

也就是说当学校内部的学生特别相似的时候

组内的相似性很强的时候

我们抽我们抽越多的抽很多的学生

它给我们带来的信息其实是很有限的

这个时候是不是抽更多的学校会更加的有意义是吧

但是当我们组内的相似性很低

也就是说大部分的variation是来自于学校内部

而学校与学校之间没有太大的

平均来讲没有太大的差异

这个时候我们在从学校内部抽样抽多一点

那么给我们的信心也是会相应的增加很多

那么这个就是一个非常直观的这么一个解释

那么我们来看一下具体的这样的一个分析

那么这张图是给出了 power的这样的一个曲线

好

power就是当然了我们算power的时候是不是

要先给定显著程度

我们这里的显示度就是5%

这里就说明了那么这个n每一个学校内部我抽多少个学生

那么这张图是每个学校内部我抽50个学生

这个横坐标轴是我抽多少个学校 cluster

纵轴给定这些量之后

我的 power有多大

统计力有多大

咱们之前说power analysis那块蓝色的阴影

面积有多大

那么有三条曲线

这条实线他给的是ρ是等于0

也就是说什么

Intra class correlation是

等于0

他这个组内没有什么相似性

这个学生之间是非常独立的

我们说这种情况第二条线虚线

它是ρ等于5%

也就是说组内的 correlation它是5%有一点

点相似性

那么ρ等于10%

再大一点

相似性再大一点

那么也就是说 cluster的这样的一个结构特点会

更明显一点

那么这个是这三条线

那么右边这张图跟左边这张图其他的值都一样

唯一的区别就是我们每一个学校抽的学生人数改成100

前面是50

这个是100

那么这是这两张图

这个曲线我们来看不同的参数的情况下

我们会得到什么样的power

这个是随便画一条纵

竖线

也就是说给定我抽样的情况是一样的

比如说我都抽10个学生

都抽10个学校

那么每个学校抽50个人

那么大家可以看一下

在这样的一个比较低的样本量下

这三条曲线它对应的 power分别有多大

那么0的这条曲线

它的 power是最大的是吧

达到了0.8

那么ρ等于0.05

其实0.05跟0相比

确实它增加的量是非常有限的

但是 power降低的怎么样

降低的幅度非常厉害

降到了0.4以下了

是不是

那么对于ρ等于0.1这种情况

power就降到了多少

相当于大概0.2 0.25左右

是不是

也就是说你看在当我只抽10个学校

就是这个学校数量不是很多的情况下

intra-class correlation给我们带来的 power的

这样的一个损伤是非常巨大的

是不是

这都是很清晰的一张图

我们再来看看横向就是给定

我们就要求我们的样本量至少给我们一个80%的

power

这个时候在不同的intra class

correlation的取值下

我们分别需要抽多少学校

你看ρ等于0

我们只需要抽10来个学校

我们的power就可以达到08了

但是对于ρ等于0.05

因为他的学校内部的学生有了一点点的相似性

这个时候如果我们还想保证我们样本整个给我们的

power是0.8的话

我抽多少学校

我是不是得抽

你看40是不是

你抽40个学校

从10个学校变成40个学校

这是增加了增加了三倍是吧

这是非常大的一个增值

对于样本对于学校数量的增加是非常多的

看如果是ρ等于0.1

就等于0.1的时候

大家看一下我需要多少学校

我需要70多个学校

是不是这样

70多个学校才能达到一个0.8的power

而大家想一下

如果ρ等于0的话

我们才只需要多少

才需要10个学校

这10个学校跟70个学校在执行上这个层面上

它的成本是完全不一样的

大家可以比较直观的感受到intra-class correlation给我们带来的

这样的一个挑战

在样本的挑战就是我不是简单的增加人数

学校人学校内的人数是要增加学校数量

当然我们可以来看说对应同样的 power

我简单的增加学校内部的抽样人数

大家想增加学校内部的抽样人数是不是相对简单

我跟这个校长说我抽50个人跟抽100个人

其实没有什么差别

是不是

这个非常好组织

但是我多抽一个学校

组织沟通成本各方面

他其实要高很多的

我们就看学校校内抽50个人

跟校内抽100个人

他的这样的一个差别也是都给定

比如说0.8的这样的一个power的情况

那么大家可以看ρ等于0的这条线

如果我每个学校抽100个人

我最后抽几个学校就可以了

在这个地方取值是吧

如果这是10的话

这个可能就是56

可能就是抽6个学校就可以了

真的是当我组内的抽样人数增加一倍的时候

我抽的学校数就减小一半

就是总的样本量不变就可以了

因为ρ等于0

所以说每一个个体都是独立的

所以这个就是一个非常好的效果

我总的样本量还是会很少

就可以达到0.8的power

但是大家看一下

对于ρ等于0.05和ρ等于0.1的这两种情况

尽管我这把校内的抽样人数增加了一倍

但实际上为了达到同样的 power

大家看一下

比如说ρ等于0.05这种情况

之前是在这儿是吧

之前是在这儿

我们大概抽了40个40多个学校

那么现在是在这儿稍微减少一点

可能是40以下

如果这个地方是40的话

差不多这是40

也就是说其实这个时候我少抽的学校数量是跟我校内增加

的人数相比

它是不成比例的

我校内增加了一倍

但是我学校数量并没有减少一半

是减少了几个而已

那么对于ρ等于0.1的情况

我们可以看到说原来我们是要抽70多个学校

70多

那么这个地方可能是一个70

那么可能要超过75

那么现在也得抽到70

也就是说我校内的人数增加了一倍

总样本量就增加一倍

但是我相应的要减少的抽样的学校的数量就减少了几个

也就是说在这种情况下

当intra class correlation

比较大

其实都不算大

0.05 0.1这都不算太大

我们可以看到说简单的增加校内的抽样人数

并不能够很好地增加我们的power

我们只能通过增加学校个数来增加我们的power

这个是非常重要的一个概念

尤其是在现在的学校

大家也知道

这个学校内部它一定不可能是完全独立的

学生个体之间他就是有这种intra class

correlation

这个时候你想增加你的结论的可推广性

增加你的power等等

包括power

包括外部有效性

这是两个概念

要想增加这两个概念

要增加抽样的学校数

学校内部不用抽那么多

这个是很重要的

好

那么关于 power的分析大家有没有问题

包括你看我们知道像PISA做中学生的测试

他在每个学校抽的人数其实就几十个

很有限的

抽多了没有什么意义

但是他要抽足够多的学校

所以这个跟抽样也是一个道理

抽样也是一样的

我们做rct的抽样也是一样的

Questions有没有问题

没有问题

好

明白了

对给反馈很重要

同学们给老师一个反馈

老师才能往下

接着讲

我们简单的总结一下关于rct首先 rct它是

我们模型里面的一个黄金准则

他是在这个逻辑上理念上是非常重要的

但是它在执行过程中

那么它可以受到很多因素的干扰

那么我们都讨论过了

有的其实是没有办法通过统计的手段去解决的

比如说像这种心理的效应

霍桑这种是很难解决的

你能够证明他没有都不容易

但是像cross over这个问题

它在行为上是可以观测的

它又有很好的工具变量

所以我们是可以用工具变量来去解决的

再就是 rct开始我们就会经常性的看到

因为间组内的方差结构分层的这样的一个数据结构

给我们带来了 cluster residual的

这样的一个方差特点

那么我们必须要去考虑这样的一个方差特点

才能够得出一个无偏估计

那么这个就牵扯到了一个多层级模型的问题

我们在第6个专题里面

hlm里面也会专门的去介绍

那么再就是由 cluster的问题

我们就引入了 power analysis

虽然大家并不需要经常的去做 power

analysis

但是你要心里有数

说对于这样的一个intra class

correlation的这样的一种情况

我们应该总体上采取一种什么样的抽样方案

才能够增加我们的power以及增加我们的外部的效度

大家你就会有第一反应

那么这个就是你的专家的判断

慢慢的你这个知识就连成一片了

好吧

3.18 Statistic power analysis在线视频

3.18 Statistic power analysis课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.18 Statistic power analysis笔记与讨论

也许你还感兴趣的课程: