3.10 Clustered group 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

我们来看

这个时候我们引入一个概念叫intraclass

correlation

假设在同一个班里面有两个学生

student i and student j这两个学生

那么他们俩的离差或者他们的他们所谓这个时候就是空

模型了

他们的离差就是学生的outcome

跟全班均值的差异

我们这么定义

那么我们可以计算它的这一个两个学生之间的离差的相关

性

的期望

那么它就等于这样的一个值等于rou*

σ square

σ square是谁的

这个是谁的方差呢

是整个全班的离差就是误差项

它的方差那么也就是说它等于整个误差的方差乘以一个

系数ρ

那么我们就把ρ定义为intraclass

correlation

这个叫组内的 correlation 组内相关性

这就是一个简单的方差分析

我们重新的把它写一下

就是这个式子

ρ它就等于组间方差除以总方差

总方差

包括组间方差跟组内方差

是不是

那么这是简单的一个方差分析

那么当然ρ它是在0~1之间来去取值

ρ等于1的时候

within等于0

组内的方差等于0

也就是说组内的学生没有任何差异

完全相似完全一样

所有的整个学生群体的 variation来自于组间

比如班与班之间的差异

这ρ等于一的这种情况

ρ等于0是什么

ρ=0说是组间方差等于0

它等于0

是不是

所有的方差都来自于组内

是不是

也就是说所有的每一个班内部的差异是非常大的

但是班与班之间整体上看没有什么在均值上没有什么差异

这就是两种极端的情况

这个就是平行班

对吧

分了快慢班

大概就是这样的一个方差结构

好

这个intraclass correlation的概念非常重要

大家有没有什么问题

觉得哪个地方没有理解透的

有没有问题

上边这个例子是我们教科书里边的我相信大家都读到了

对这个有没有问题

我们来我们来写一下

我发现我用这个笔还不如我们同学用的好

这个是Yi

我们用c

好

不好意思

有人敲门

这个Yic在第c个class里面的第i个人

它应该等于什么

空模型是alpha0

截距项加上残差eic就这么简单

我解释一下这个地方

ij他用的是j就这样的一个式子

所以说是空模型我不加任何解释变量

我做一个方差分析的时候会得出这样的一个表达式来

好

大家有没有什么问题

关于intraclass correlation的这样的一个概念

好

没有问题

我们接着往下走

我们为什么关心这个东西

为什么关心intra class

correlation或者说如果全班同学他们是相互

独立的

他们的outcome相互独立

就是说ρ等于0这种情况

那是 by default假设的这种情况

但是如果学生跟学生之间的 dependence

越来越强

他们组内的相似性相关性越来越大的时候

现在是第一次讨论这种情况

为什么我们要关心这种情况呢

大家想一下

高的 intraclass correlation

它其实会增加我们的标准误

好

我们来看一下

那么这个式子也是教科书上的

那么分子是我们考虑的intra class

correlation

也就是它既然产生了这样的一个组内相似性

我们在做分析的时候要考虑进去

因为它是现实存在的

这样的估算才是一个正确的无偏的估算

当我们考虑的因考虑它之后

我们算的beta的variation beta系数的方差

那么我们把它记为分子

那么如果我不考虑它

我简单跑一个ols回归的话

它的系数beta的方差我们记为分母

那么可以证明它等于这个式子

等于1加上n-1乘以ρ

就是刚才说的intra class

correlation

因为它是0~1之间的一个值

n往往也是大于1的

所以这个比值是大于一的

也就是说真实的beta的误差标准误它要大于我们如果不

考虑它这样的标准误

因为我们要考虑它

考虑它之后才是对的

不考虑它我们就低估了

低估了beta的标准误

那么大家想我们做统计推断的时候

要做t检验每一个系数

我们感兴趣的系数

那么随着我们考虑这个标准误就会使得什么

使得这个分母它会变大

是不是

它比 ols这个标准误要大

其实会怎么样

会降低 t的直

对不对

t统计量的值

那么我们的什么就会变小

我们的 power就会变小

是不是

当我们的标准物变大的时候

这种情况标准会变大

这种情况

那么我们的统计力就会减小

Intra class correlation

它给我们带来的问题

我们必须要考虑它

考虑它之后我们标准误还会减小

用一个更形象的说法

我们再回到前面的图

我们用一个更形象的说法

大家想一下就这张图

当每一个人之间是

是互相独立的时候

人与人之间是互相独立的时候

他们并没有一个组内的相似性的时候

这个样本假设是n这种情况

但是当这个组内就是这个人这个组内的这些人特别相似的

时候

大家想实际上他给我们造成的问题是什么

我从组里面从这个班里面我抽一个学生

它的观测值比如说是y Yi我再额外的抽一个学生

他的观测值还是同样一个值还是y因为他们太相似了

他们的分数段比如说都是在同一个分数段

都在一分以内

那么我不论是抽1个学生还是抽10个学生

那么是不是我对这一群人的判断是没有变化的

也就是说当我还是抽n个人的时候

其实跟我抽一个人

其实给我带来的信息是一样的

是不是

这时候在这个样本里

我抽n个人

每一个人他都是不一样的

它具有多样性

它有一个连续的分布

我会有一个更加多样的这样的一个描述

但是对于如果这一个班的学生

他们的成绩完全一样

大家想如果都是比如说80分

我抽一个是80分

抽10个人

每个人都是80分

是不是没有给我增加额外的信息

这时候相当于什么

我就算抽了10个人跟我抽1个人是一样的

对不对

这种情况下

其实本质上我的样本量是在怎么样

是在缩水的

这是个非常形象的一个解释

也就是说当我有很强的组内相似性的时候

我其实抽10个人带给我的信息带给我的

variation是非常低的

他就跟我在一个完全独立的这样的一个相互之间互相独立

的这样的一个cluster里面

我来抽10个人

他的信息量是完全不一样的

那么它等于这个样本是缩水了

这么解释

大家有没有问题

那么我们怎么解决它

首先我们来定义什么算是一种比较严重的情况

ρ intra class correlation多高的时候

我们需要特别的要考虑

一般是在10%以上

甚至比如说25%等等

这都是很高的

我们要考虑这种情况

如果非常的小

比如5%什么的这种情况就没有必要考虑这种情况

这个也是用了一个例子

这个例子也是书上的例子

那么这个也是一个干预教育干预叫successful

for all

那么他是在41个学校里面

邀请了41位的学校的校长来参加这样的一个随机控制

实验

那么他做了一件什么非常聪明的事情呢

他把他把这些学生分成两个年龄段

一个是二年级

一个是三到五年级

那么对于 treatment group的这些学校

它是抽学校

41个学校里面它抽一半的学校作为treatment

group

剩下一半的学校作为control group

那么他给treatment group的二年级学生实施干预sfa

那么他当然就希望说用另外这些学校里面control group学校

里面的二年级学生作为对照就形成一个对照

但是大家想如果仅此而已的话

被分到control group的校长

他也没有激励参加这个项目

他显然没有对不对

他又没有获得这个sfa的项目

他还要提供数据的研究者做研究

他就没有激励的

所以研究者做了一个什么事情呢

研究者就是在三到五年级他反过来他给

control group的这些学生提供了sfa

政策

他让treatment group的三到五年级学生作为control

这样的话把这些年级的数据都提供给研究者

因为每一个学校其实都在某些年级段获得了sfa

的项目的支持

我们来看这个模型

在这个时候多层级模型

在多层级模型里面

大家可以看到这是空模型

是刚才我手写的是一样的

式子

对于student i in

school j就是第j个学校里面的第i个学生

他的 outcome

它的outcome可以Yij就可以写成组

内的均值beta0j再加上残差项

βoj是他们全校的平均分

就是β0j j是可以变化的

j是学校的角标

以及学生个体他跟学校均值的差值epsilonij这个时候

β0j他在第二层是可以变化的

β0j在第二层

β0j他就是说相当于每个学校之间的均值是有差异的

它由什么构成呢

它会由这个γ00就是所有学校的一个平均分

以及他是否参加了这个实验

sfa是个01变量

以及剩下的残差

残差是每一个学校的均值跟整体的均值的差异

这时候大家可以看到

其实我们是建构了一个两层的模型

β0j在第一层是一个截距项

但到第二层就变成了因变量

把这两个式子合并

第一个式子是个空模型

没有加自变量

第二式子只有一个自变量

是我们感兴趣的 treatment effect

那么合并之后

式子这个式子这个时候大家会发现它的残差项是不是有两

部分组成

它的残差项

一个是εij一个是u0j它就是一个是组内方

差

一个是组间方差

方差结构就跟过去的 ols是不一样了

它多了一块

叫uoj组间方差

3.10 Clustered group 2在线视频

3.10 Clustered group 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.10 Clustered group 2笔记与讨论

也许你还感兴趣的课程: