3.11 Clustered group 3慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

那么这个时候我们有一系列重要的假设

第一个他们是独立同分布

个体之间的方

差

残

差

它是独立的

而且是服从相同的正态分布

方差相等

在组间方差都是ε

σ^2

那么在这个组间都是σu^2

独立同分布

这两个残差的不相关

那么这个是刚才说的式子

同时我们可以把这个式子重新写一下

写成这样的一个式子

我们把这个什么

把u0j提到前面去

他就变成了我们截距项的一部分

是吧

那么这个εij加上u0j作为残差

它是具有一个组内和组间的这样的一个方差结构

我们叫它cluster residual

聚类的这样的一个残差

如果我们把u0j提到前面作为截距项的一部分

我们就叫他什么

叫随机截距

因为这个截距包括两部分

一个常数项γ00

一个可以在组间变动的残差u0j当然你给定j比如说j

等于1或者等于2

给定是哪个学校u0j它是固定的一个值

因为我们可以计算对吧

学校的均值跟所有学校均值之间的差值

离差是可以计算的

所以给定一个学校的时候

它就变成固定值

但是如果没有给定具体哪个学校是所有学校的话

它就变成一个随机变量

那么他所以说我们叫它random

intercept

随机截距项

然后我们给它这么个名字

好

这个就是整个模型的setup

大家有没有问题

讲到这里

有问题吗

这个模型的估算我们并不准备多讲

因为我们最后的 hlm也会讲很多

那么它的估算方法其实有很多种

像广义最小二乘法极大似然估计法都可以用

但是我们要把这个概念要搞清楚

就是说因为在rct里面

我们实施的时候是以这个群体为主来实施的

而群体内部它可能是具有种类相似性的

使得我们在分析的时候

我们的残差结构变得更加复杂

它就多了一个组内和组间的这样的一个关系

因此我们在做分析的时候要考虑考虑方差结构

或者说我们把它提到前面去

把组间的residual提到前面去

作为一个random intercept

也是可以的

那么我们的模型就变得相对复杂一点

这个是非常重要的一个概念

我们先不讲估算这个概念大家还有没有什么问题

好

没有问题的话

我们就来看一下一个实际的例子

我们来看一个实际的例子

咱们还剩10分钟

我把铃给停了

我们后面就接着讲完

希望今天不拖堂

Ok这是一个估算结果

大家看第一个model是什么呢

第一个model是空模型

unconditional model就叫空模型

只有什么 intercept什么也没有

第二个model是什么呢

叫sfa

这个是我们刚才说的我们的干预变量

对不对

sfa等于1它就接受了干预

这个学校接受了干预

sfa=0

他就没有接受干预

第三个是什么

第三个是加入了一个控制变量

这个学校整体的一个成绩的平均值作为控制变量

它是一个前测成绩

放在

这里

当然我们关心的还是我们

关心的还是这是空模型

这是第二层的模型

那么加入了我们关键解释变量sfa的模型是这么来写的

加入控制变量模型是这么来写的

控制变量我们叫它pj那么大家想看到说这个模型里面

所有的角标能变化的角标

j它都是在学校层面的

这是第二层的模型

第一层不变就是空模型 Yij等于β0j加上

εij就把它对应好

大家就能看明白

那么我再回忆一下

那么之前说的 intra class

correlation

它是不是就等于这个式子我们之前列过了

那么对应到这个方程式里面

between组间方差

就是u0j的方差

组内方差

就是εij的方差

那么当然总方差就它俩之

和

所以在刚才的模型方程里面是有很好的对应的

我们来看

在刚才的回归结果里面

它会报告这两个方差

一个是ε的方差

σε^2一个是u的方差σu^2

σε^2是314

u的方差是78

当我们在第二层模型就是school level加入

了一个控制变量

加入了一个不是控制变量sfa这个我们的关键解释变量

之后

第二层的方差稍微变小了一点点

是不是

R square就从0变成了0.032

当然第一层

因为第一层我们没有加任何控制变量

它的方差是不变的

残差的方差没有变化

那么接着我们加入一个第二层的控制变量

学校层面的一个前测成绩的平均分

这个时候在第一层其实还是没有加任何控制变量

所以它的残差的方差还是没有变化

再加上控制变量之后

大家看第二层的残差的方差是不是

小的很多

所以控制变量它起的作用还是很大的

R square也有所提高

对吧

好

有没有问题

第一层跟第二层如何区分

这个是从概念上区分的

在列式子是怎么列两这两层的公式是不是可以合并

合并之后残差结构就变成两部分了

它就靠组内跟组间来去区分的

周璐这个问题是这意思吗

你可以解开麦克直接问

我还是有一点点不理解为什么加入一个pretest的

控制变量之后

组间差异的方差会减少这么多

它是怎么跟上面一直不变的

到底是怎么分开还是有点模糊

好

大家看这是刚才这个模型的方程

那么大家这是刚才说的控制变量 pretest

他是不是只在组间变化

也就是它在学校之间是有变化的

因为它是一个学校的前测成绩的均值

是不是

那么这个学校这一层就是β0j他的所有的

variation都在u0j里面

当我们不断的在这一层加入变量来去解释β0j的

variation的时候

那么u0j就会不断的变小

对不对

因为因为这三个变量所有的variation其实跟空

模型里的命令这是一样的

对方差的一个解释是吧

跟我们的ols的逻辑是完全一样的

所以当我们加入了一个在学校层面会变化的这样的一个

学校前测成绩的均值的时候

显然它其实是解释的一部分β0j的

那么当然u0j就会减小

因为它本来是在u0j里面的

我这样解释清楚吗

我明白了

对

因为它没有解释到这个组内的方差

因为它就是组间的一个学校的一个均值是吧

它根本解释不到任何学校内部这些学生的差异

因为这些学生内内部的差异

它对应的都是同一个学校的均值

是因为协变量在学校层面

对没错

说得很对

因为这个变量它本质上它就是在学校层面变化

它同一个学校的学生面对这一个变量的赋值的时候

是不是都是一样的

都是同一个值

所以他根本没有办法在数学上在统计上

在数字上他能够去解释

组内的variation一点都解释不了

Ok这个没有问题吧

蓝文问得很好

显然大家想一下

如果我们在学生这一层面加入了每一个学生个体的前测

成绩

是不是在εij这个地方

如果这个地方加的不是school level的

我们把 school删掉

它就是学生个体的 ppvt j而且它是什么

它是在学生层面的

如果我们加入的是这样的一个协变量

他显然解释的就是学生层面的variation

是不是

ε的方差

它就会迅速的下降

迁移做的很对

就是这样子的

我们这个例子里面没有加

好

大家还有没有问题

没有问题我们就做最后一个练习

这个练习什么

就是根据刚才报的表格

你们根据intra class correlation的

计算公式来去算一下第二个model

就是说没有加控制变量

只加了sfa这一个变量的情况下

第二个model里面的 intra class

correlation的值是多少

好吧

好

我们来看一下

那么intra class correlation是不是

我们用u的方差除以u和σ的方差和是不是

那么对于第二列来讲

也就是0.196

我们好多同学都算对了

大家感兴趣的话可以再回去再算一遍

那么这个大家想0.196

包括我们没有加任何的协变量的时候

sfa也算协变量

没有加任何协变量的时候

空模型也就是简单的一个方差分析

是20%

那么是不是是达到了我们刚才说的算是还算比较大的一个

一种intra class correlation是吧

我们说10%是中等

25%以上是比较高的

20%也是需要我们要考虑的

那么他其实会给我们带来带来这个影响

所以我们在估算的时候不能忽视这样的一个

cluster

一个方差结构还要考虑

3.11 Clustered group 3在线视频

3.11 Clustered group 3课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.11 Clustered group 3笔记与讨论

也许你还感兴趣的课程: