3.9 Clustered group 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

**刚才问了一个问题

说为什么要分开对比加控制变量跟不加控制变量的结果

计算的时候应该看哪一列

显然我们会prefer加控制变量这一列

但是不加控制变量这一列

它在假设它更简单

因为它是一元的

我们在报告结果的时候

往往就是要把加控制变量跟不加控制变量

以及控制变量加哪些往往会分开分别报告出来

这样可以让大家看到说随着我增加控制变量

我们感兴趣的关键解释变量它的系数会不会有变化

变化会多大

当然我们希望它是稳健的是吧

通过这些来去做一些验证

这是第一点

第二点其实在实证中大家也可以慢慢感受到

有的时候我们的一些模型的假设

我们是没有办法检验的

是不是

比如说这个工具变量到底是不是外生的等等

还有一些其他的问题

有的时候我们很难因为不能去检验这些假设

因此我们其实并不清楚哪一个模型的结果会更加的真实

更加的无偏

这个时候我们往往采取了一个折中的办法就是说

我们把不同的模型的结果都报告出来

如果这些结果都是一致的

它的变化非常小

那么我们其实就非常的皆大欢喜了

就是说你看不论我有哪个模型跑

它结果都差不多

其实我们就不用太担心到底假设成不成立

会给我们结果造成什么样的影响

所以说这也是常用的一种方法

在实证中

**我这么解释你你觉得满意吗

对这些很重要

就是慢慢的大家就会在很多实战中你就会积累经验

为什么我要去报告这些东西

我为什么要讨论我对某一种结果

我到底要多看重它

还是我更看重另外一列的结果等等

就慢慢的你就会有感觉了

那么下面我们来探讨

可能对大家来说是比较新的一块知识

聚类当我们在rct的参与人就被试里面发现有这种聚类

的情况的时候

会有哪些问题

我们应该怎么去解决

鼠标

那么聚类在rct里面是非常常见的

比如说我们要做一个实验

那么这个实验需要300个学生参与

这个时候有不同的抽样策略

其实不光实验了

包括大家自己平时要是说要抽个样

采一个问卷调查等等

那么都会遇到这种问题

假设你要选300个学生

你的样本量300个就够了

这时候你有两种操作策略

第一个你先随机抽取10个学校

在每个学校里面再随机抽30个学生

这是第一种策略

第二种是你随机抽300个学校

每个学校里面随机抽一个学生

最后你都会得到一个300人的样本

大家想哪一种抽样策略成本低

实施起来成本低

这个成本不光是金钱的成本

包括组织成本

沟通成本都在里面

是不是显然第一种方案它的成本要低很多

是不是

抽10个学校

然后我只需要找到这10个学校的校长去跟他们谈这个

事情

征求他们同意就可以了

然后每个学校抽30个学生是很容易的是吧

我抽1个班也行

或者是我在一个年级里面分别抽也行

都会相对很容易很多

但是如果我抽300个学校

大家想想

就算是有比如说教育局或者是当地政府的支持

他得通知300个校长

你的实验

然后要得到这300个校长的支持才能往下做

然后每个学校抽一个人

组织成本和沟通成本是不是会很高

所以往往在我们做一个实验的时候

我们更加的容易采取第一种策略

考虑到可行性的问题

这是第一点

包括普通的问卷调查也是一样的

第二点

大家想一下

是不是很多我们的教育干预

他其实不是针对某一个学生的

因为教育都是以这个群体的方式来发生

比如说一个班的学生等等

因此我们的很多教育干预它作用在什么层面

它本来就作用在比如说班级层面

作用在教师层面

作用在学校层面

或者是学区层面

他不是作用在学生层面

不是说这一个学生受到干预

另外一个学生他的同桌就没有干预

往往不是这种情况

大家想我做一个教师层面

那一个教师是不是也影响一个班

所以说本身当我们要做一个实验

或者是有一个教育改革教育干预的时候

作用的层面也相对高一点

那么这个层级下面的这些学生

他其实就是在一个具体的cluster里面

比如说班级或者说是学校

所以说其实一个是分层级的问题

一个是出现整群的问题

在教育研究包括更广义的社会科学研究里面是非常常见的

是吧

那么也就是说学生他是以成组的方式

以cluster的方式被组织在一个社会结构下面的

那么它会以整体的这种形式接受干预

或者没有接受干预

这个是很常见的

包括比如社会调查里面

家庭可能就是一个cluster是吧

等等

所以cluster分层和 cluster在社会科学

里面是非常常见的数据结构

它会有什么问题呢

它可能有问题

可能没有问题

我们用一个形象的图来表示一下

那么第一种情况

就是说所有的学生

他在学校内部的

我们以学校为单位

假设我们把cluster定义在学校层面

学校

那么在这一个学校里的学生

他们互相之间是完全独立的

那么第二种情况

那么在一个学校内部这些学生是完全的

dependent相关的

就是不独立的

什么意思呢

也就是说大家想即便我们在一开始比如说学生择校的时候

我们把这些学生完全随机的分配到不同的学校里去了

但是这个学校是他们重要的一个组织单元

他们在这个学校里面他们share同样的老师

那么面对同样的老师

同样的校长

同样的学校文化

同样的物理环境等等

包括在班级层面

那就更类似老师都是一样的

他们密切的在每天在教室里相处

形成自己的班级文化等等

那么使得学生之间他就会产生correlated

outcome

对不对

这个学校他管理水平高

那么学生整体的成绩都会上升

并且他们的成绩会越来越越来越相似

因为他们都在上升

那么如果学校管理水平特别差是吧

或者这个班他的教学水平特别差

使得班里的或者学校的学生

它的整体的 outcome都会在下降

是不是

所以说久而久之

随着学生在他所固有的cluster里面接受教育和

成长

就使得cluster内部的学生的相似性会越来越强

这个我解释清楚了吧

因此也就是说即便是我们最早的分组是随机的

但是当我们研究这群人的时候

他们已经在一个cluster里面相处足够长时间

得到了相似的这种对待

比如说课程的要求

教师的教学方式

文化等等

那么这个时候他们就会产生组内的这种相似性

同一个班内部我们叫班风对不对

同一班内部或者同一个学校内部

校风学校的特点等等

他都会使得cluster内部的成员

他们的相似性在不断增强

是不是

那么这个时候我们就会发现

我们往往就观察不到这种independent这种

情况

而是更多的观察到什么

Dependent这种情况出现

有没有问题

有问题你们就随时问

那么我们用一个更加抽象的方式来表达

这个是咱们助教王坤同学上学期上去年的时候做的

我觉得他的配色不错

用一下

那么大家可以看到说这个是刚才对应的 perfect

independent这种情况

那么使得每一个人他们在内部就是一个学校内部

跟在另外一个学校内部

学校内部的他们组内的差异是足够大的

这个组内差异也是足够大的

这就是一判断的这种情况

如果说perfect dependent

也就是学校内部的学生他们都一样都很相似

都长着个也都长颜色是吧

另外一个学校他们都比较相似

但是怎么样

学校与学校之间怎么样

学校与学校之间就会产生较大的差异

一个是偏黄褐色的

一个是偏绿色的

而上面这个当差异主要来自于内部

就是学校学生内学校内部学生之间有足够的足够强的多

差异性和多样性的时候

那么在学校层面他们这两个学校

它可能并没有什么特别明显的差异

因为他们每个学校内部都有各种各样的学生

多样性的学生

而下面这种情况是学校内部的学生非常特征非常单一

非常一致

这就使得两个学校之间的差异他就会比较大

比如说这是高分学校

那是低分学校

那么如果我们放到大家熟悉的这种班也是一样

比如说重点班非重点班

班与班之间的差异会很大

班级内部的差异会小一些

如果都是平行班

如果是平行班是不是差异主要来自于班级内部

那么这个班与班之间其实没有这么大的整体上的这种差异

那么这个就是两种不同的生源结构或者说数据结构

那么这个时候我们很关心的一个问题就是说

这两种组织方式或者说是产生了这样的一个组内的相似性

的这样的一个程度

是否会影响到我们所关心的标准差的问题

standard deviation以及标准误这样的问题

那么因为标准差和标准误会影响到我们的什么

我们估算和我们的统计推断

3.9 Clustered group 1在线视频

3.9 Clustered group 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.9 Clustered group 1笔记与讨论

也许你还感兴趣的课程: