3.22 RCT workshop 4慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

回到我们的do file

回到do file呢

我们来看

给大家写了一行命令

这个是一个参考

那么我们跑回归回归是用的实际的分组结果

实际的分组结果

也就是这些带着一个尾缀p的这三个变量

ssp、sfp和sfsp那么它们都带

个尾缀p GPA是我们的y

剩下这些全部是控制变量

但是这些控制变量起

因为他们都是类属变量

有的是两类

有的可能是不止两类

因此我们在每一个类属变量前面

加了一个i.加了一个前缀

同时在整个方程的前面加了一个xi：

空格

这样的话其实我就会告诉stata在命令里面

凡是变量名前面加了i.的

它都是类属变量

请你自动按照类属变量来给我处理

你就不用再怎么样

再一个一个的把这些多类属的变量写成一组dummy

你再跑了

它就现在会自动这样处理

那么这个时候我们用了另外一种 cluster的

residual的计算形式，用的是 r r是告诉stata

这是个random effect

cluster

这是个缩写

告诉cluster的id cluster的这个也是要分组的

那么分组的变量是student ID

那么这个一个没有考虑 cross over的情况下

我们根据实际的参与的情况来做的一个ols的分析

这个地方大家想一下

为什么我们要加一个cluster id

是不是同一个学生

它有两次成绩

这是一个追踪数据

第一年的成绩跟第二年的成绩对于学成绩来讲

这两年的成绩都是在学生内部的

是不是

这时候学生就是分组变量

他在历次考试成绩就是学生内部的每一次成绩

显然同一个学生

他的学习能力是相对固定的

学习努力程度等等都是相对固定的情况下

那么他的历次考试成绩的内部是不是有很强的相关性

是不是也就是说他每一次考试成绩之间是不独立的

而一个学生跟另外一个学生来讲

他的历次考试成绩的平均分是不是会有较大的差异

对不对

那么这种分组变量就变成了学生了

那么我们在hlm里面会专门的讲这种追踪数据的分析

所以这个地方我们用ID来去控制cluster ID

来去解决因为学生内部的成绩的相似性而带来的方差结构

所以大家把104这一行跑一下

跑完了吧

跑完了可以打个弹幕

或者聊天区里面说一下

我们可以看到说这个时候我们最感兴趣的变量

你写命令的时候就注意把它放前面

后面那都是控制变量

我们就不不管他了

那么跑出去这样的一个结果

这个时候这是我们用的另外一种方法

这个时候可以看到在这个表里面专门报告了一个什么呢

std. err. adjusted

也就是说这个标准误已经根据826个学生

cluster进行调整

也是一个robust standard error

是通过这种形式来报告的

那么为什么我们这次采用了 cluster Id

这样的一个方式尾缀的方式来去解决 cluster的问题

因为下一步我们要再跑一个模型是什么呢

上iv了那么iv前面就不能加xt了

这个时候我们就会用 cluster ID的这种方式

来去控制

本来这个事应该让大家做练习的

因为实在是超时了

不好意思又拖堂了

所以这个时候就直接我们来一起来看一下

我看一下

那么这个命令是什么呢

这个命令本来应该放在这儿的

我就跳过了

直接放在这

好

我们一起来看一下

命令的还是我们上节课上一个我们要讲的iv

regress

然后前面加上xi的前缀

使得后面的这些控制变量理加上i.之后

大家知道这些都是类属变量

知道怎么去处理它

那么 ivregress 2sls

two stage least square

这个y是GPA我们的内生解释变量在哪里呢

在第一步的方程小括号里面对不对

等号左边是三个内生解释变量

等号右边是我们之前的分组方案

也就是我们的三个Iv它是一个恰好识别的情况

后面 option之后加上r cluster

id就可以把学生作为分组变量

两次成绩的组内相似性

把它给考虑进去

就是用工具变量加上 cluster

这两种情况都要考虑的时候

我们可以用这种方法来处理

这里面我们还加了一种考虑

当然控制变量的类属变量问题

所以我们前面有xi所以大家我把这行命令我应该是粘贴

到讨论区域

然后你们可以跑一下

当然你们可以自己讨论聊天

自己的来写一下也是没有问题的

怎么样能够

好

大家看到命令了

大家一个是把这个命令跑一下

当然只要是软件没什么问题了都能跑出来

前面就为什么刘健你为什么前面哪个地方跑不出来的

现在我可以停止共享

你可以共享一下你的屏幕

其他同学呢你们可以打开麦克说

因为文字交流有的时候前面几行都是红的

老师前面那些地方就已经开始报错了

就从一开始的generate那里就报错了

Generate

Generate报不出来吗

我看看

对

这个就不用管了

刚才我这边报错了

他可能是跟版本的命令的格式有关

好

看看后面的

然后后面所以这个地方ID生成了

对

生成了 xi这个没有跑出来是吗

对

反正long data这个是没有问题的

XI这个命令没有跑出来

对

他说什么

var list required

但是你这个时候没跑全

你 xi i.你看一下

等等

你xi i.没有加全还是怎么样

我看一下

你等着

你这没有弄全

看一下

对

所以我就建议你不要粘贴

而是直接选中

对

没有选中两行是不是

对

就这个地方没选全

谢谢老师

行

看还是很方便的

报红没关系

那个是数据的一些清理

跳过不跑那一行了

把 n生成了

generate n生成以后就直接跑回归

只不过是回归的结果跟论文里的结果就不一致

因为前面的数据清理没做成功

这个是我忽略了可能之前的命令在新版本里面已经不适用

了

后面能跑出来吗

同学们

有哪个同学跑出来了

跑出来了

你跑出来了

你共享一下好吗

老师可以看到我的共享吗

可以的

对

然后我把刚才发的命令复制到这里

然后它就跑出来了

有什么问题吗

看这个结果

有问题吗

或者来给我们解读一下

这个地方关键看哪几个点

我也不知道应该

关键看哪里

你屏幕往上调一点点

把整个表格基本露出来

我们一起来看一下

我来用注释功能

对

再往再往对把再往把这个表再往上推一推

推一点点ok

过了

过了再回来点

好

再回来点把表头露出来

好

可以了

谢谢

好

大家一起来看一下一霖的屏幕

首先他报告的是一个两阶段最小二乘法的工具变量的估算

对吧

Ok那么这个样本量是放在这儿了

1000多的样本量卡方的值跑出来了

那么整个方程是显著的

因为卡方检验是 p值是0.0000

R square是22%还是不错的

这个时候尤其要注意我们cluster的因为cluster

产生的标准误的变化

我们都考虑进去了

所有的标准误都已经根据cluster的结构做了调整是

robust

就加了个 robust standard error

这个时候是这个是工具变量跑出来的最终的结果

也就是第二阶段

那么显然这个叫变量名报告的还是我们原来的内生解释

变量

因为我们要的还是他最终参与以后的效果

这三个系数报告在这里

显然这前两个非常小

对不对

它的标准误也挺大的

所以最终可以看到它其实是不显着的

我们叠加的treatment就是前两个treatment叠加之后

它的效益非常大

0.3是个蛮大的一个值

而且它是比较显著的

以及虽然都是所有的控制变量

那么就跟我们之前的解读是一样的

所以在一个rct里面又考虑了cluster

又考虑了Iv cross over的问题

我们怎么来去做这样的一个分析

3.22 RCT workshop 4在线视频

3.22 RCT workshop 4课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.22 RCT workshop 4笔记与讨论

也许你还感兴趣的课程: