3.21 RCT workshop 3慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

你来解释一下

简单解释一下

我觉得这个其实就是多了两个控制变量

所以第我这里就加了一个学校层面的控制变量

然后对第二步应该在这里再加一个个人层面的控制变量

所以相当于现在的回归的式子

有两个控制变量

一个是学校的前测成绩

一个是个人的前测成绩

然后其他的都和上面一样了

然后就呈现它以学校为分组的

回归

然后就显示它的组内方差和组间方差

好

请你再把 xt reg这一行命令跑的结果

output给大家展示一下

好吗

好

然后第一个表是只加了学校层面前测成绩的表

然后就能看到他现在的组组内方差是减小了很多

因为原来是八年级

现在变成六点几了

然后包括组间的也是有所减小

然后ρ的变化

ρ的变化也是变小了

我们最感兴趣的变量sfa的系数显著吗

依然不显着

然后下一步再加了一个对

加了一个个人层面的前测变量

然后就发现组间差异和组内差异是又变小了

然后ρ又但显著和上一个并不就差异并不大

而且我们感兴趣的变量它现在依然是不显著的

大家看到说当加入了学生层面的前测的时候

对学生层面的前测的平均分就不显著了

是不是

很好

好谢谢

好

我们同学们是不是都跑出来了

还有没有有问题的

没有的话我往下走的话有问题的话

你们随时在聊天区里面或者打弹幕来说一下

后面因为时间关系我们不我们不跑了

中心化的问题

我们到hlm我们到hlm的时候

会专门的再去探讨中心化的问题

我们这个就跳过了

但是非常希望大家在尝试一下我们刚才说的 fixed

effect的问题

也就是说它到底能不能跑一个fixed effect

model

那么这个我看一下

我们放到我们放到下一个练习题里面来

我们会做一下这个东西

好

咱们现在换一下数据库

换成star数据库

换数据库的时候一定要先提前clear

在内存里面

在stata内存里面可以这样的话他不会遗留任何我们残余的

上面一个分析的东西

我们打开 Iv workshop里面 rct

Iv的文件夹

把 star这样的一个数据打开

打开了

这个数据就要比刚才数据要丰富很多

内容信息也更多

我们来一起来看一下

这star显然也是一个treatment

我们肯定是要检验 treatment

对于学生的学业成绩的影响

这个也是我们的 reading里面的这一个研究

那么它是有两个treatment以及这两个treatment的叠加

一共是有三种treatment

那么这个里面就出现了cross over的问题

也就是说给了学生 option之后

学生并不一定会接受 treatment

去接触辅导

那么我们其实就是看辅导的对学生评级别的提高

好

大家来看一下这个数据

看下屏幕

GPA year1显然是前测成绩第一次的成绩

GPA year2是第二次的成绩

说错了不是前测

而且他每年都会测一回成绩

Control group这里有他这个

outcome会有很多

包括他每一年选的学分是多少

他们认为这个也是outcome

也就是说选的越多

说明他被辅导的比较好

他有更强的能力

或者是欲望去意愿去选择更多的这样的一个学分

还有就是一些控制变量

比如说父亲的受教育程度

high school group等等

我们一串里边控制内容

接下来是我们最重要的关键点识别量

从sfp开始

sfp是offered sfp那么这个

就是我们说的d是我们的分组变量

就是说我offer了这样的一个东西给你

那么下面变量sfp加了一个

后面又加了一个p那个是signed-up sfp也就是学生是不是

接受了

这个是真实的选择结果

也就是sfp是我们的D

Sfpp呢是 t t就是一个内生的分组

结果这个D是我们外生的这样一个分组的方案

那么还有一个sfsp它是一个叠加的

它是谁跟谁的叠加

它是sfp和ssp的叠加

所以说我们刚才说了有两个锤的本子

一个是ssp一个是ssp要它们两个叠加就是sfsp

那么这三个都是分组方案

共同的要放在我们的方程里面来去跟control group做

对比的

那么他们分别有一个带尾缀p的对应的一个变量

那么这三个变量就是内生的

也就是产生了cross over之后的实际的分组的

结果

大家就搞清楚这些关键变量在哪里了

我们来看一下 do file

file里面我们先把96行以前的先都跑完

这些属于data cleaning

就是我们选择了一个样本

选择了比如说女性

然后以及符合一系列人口学特征的一个子样本

我们先把这些命令都跑了

我们不做具体解释了

stata的版本不一样

有些命令可能已经不行了

好

你因为这个版本不一样

装了不同版本的stata

所以有些命令他没有跑出来数据清理

但这个不是很关键

好

大家都跑完了吧

跑到 generate ID等于下杠n我们新生成了

一个相当于给每个学生生成一个学号

下一个命令是很常用的

我不知道大家之前接触过没有

reshape命令

reshape命令其实是在追踪数据里面

对这个数据存储方式数据格式的一个转换

它的到底是一个long data还是一个wide

data

为了理解这一点呢

大家可以打开这个数据

我们来看看数据

你们用 browse这个就是我们只观察数据浏览数据

不去对这个数据做修改

那么打开这个数据窗之后

你们可以看到 gpa year1第一个学生

第一年的GPA year2是学生第二年的GPA包括

还有很多变量

它也是分1和2的

比如说credits这样的

那么这就是一个wide data

也就是说这一个学生他有两个gpa他分别被存储在两

列里面

它就比较宽

那么下面我们我们不我们想把这两个GPA同时作为外都

来分析

虽然他有的y是第一年的

有的Y是第二年的

但是这个都是我们的 outcome

这种情况下我就需要把这些GPA放到同一列里面来去

分析

有一些变量

它其实比如说像他人口学变量

他的性别父母受教育程度等等

像这样的变量

它其实是不随着年份的变化还是变化的

所以它就会在新生成的 long data里面会重复两

遍

所以这个就是数据结构的一个转化

大家先记住现在这个数据结构是CPA year1

GPA year2已经对应了他所有的这种

人口学变量

那么我们现在跑一下 reshape

这个reshape你们可以去查 help

reshape来看它的命令格式

现在我们需要做的事情就是reshape long

也就是说让stata把一个wide data变成一个long data

其中哪些变量会发生什么变化

这些GPA year等等这样的几个变量

这些变量它都会有一个尾缀1和2刚才那个数字

那么这个数字它就会变成一个新的变量叫year

也就是说 j这个变量是一个group变量

它会存储刚才这些变量里面最后一个数字

也就是说你在变量名里面其实已经提前把它给都整理好了

很多是非常整齐的1212这样子

那么这个ID就是每个student的ID

那就是刚才我们新生成的 ID

那么这一行命令给大家跑一下

跑完之后请你们再打开这个数据

打开这个数据就变成这个样

你会发现这个ID还是刚才那个ID

但是它会重复的出现两次

为什么呢

因为我们把GPA两年的GPA并到一列里面了

这时候他就需要一个新的标签叫year变量

来标记哪个是第一年的GPA哪个是第二年的GPA所以

这个时候ID就重复两次

因为都是同一个学生的GPA

大家会看到这个就是一个新的数据结构

那么它就变量减少了

但是让变量的长度增加了

因为它增加一倍

因为它把两年的数据放在一年的数据里面

两年的变量放在一年的变量

那么这就叫long data

这个是我们待会分析的时候要用的

因为我们想把两年的区别放在一起来分析

3.21 RCT workshop 3在线视频

3.21 RCT workshop 3课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.21 RCT workshop 3笔记与讨论

也许你还感兴趣的课程: