当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.22 RCT workshop 4
回到我们的do file
回到do file呢
我们来看
给大家写了一行命令
这个是一个参考
那么我们跑回归回归是用的实际的分组结果
实际的分组结果
也就是这些带着一个尾缀p的这三个变量
ssp、sfp和sfsp那么它们都带
个尾缀p GPA是我们的y
剩下这些全部是控制变量
但是这些控制变量起
因为他们都是类属变量
有的是两类
有的可能是不止两类
因此我们在每一个类属变量前面
加了一个i.加了一个前缀
同时在整个方程的前面加了一个xi:
空格
这样的话其实我就会告诉stata在命令里面
凡是变量名前面加了i.的
它都是类属变量
请你自动按照类属变量来给我处理
你就不用再怎么样
再一个一个的把这些多类属的变量写成一组dummy
你再跑了
它就现在会自动这样处理
那么这个时候我们用了另外一种 cluster的
residual的计算形式,用的是 r r是告诉stata
这是个random effect
cluster
这是个缩写
告诉cluster的id cluster的这个也是要分组的
那么分组的变量是student ID
那么这个一个没有考虑 cross over的情况下
我们根据实际的参与的情况来做的一个ols的分析
这个地方大家想一下
为什么我们要加一个cluster id
是不是同一个学生
它有两次成绩
这是一个追踪数据
第一年的成绩跟第二年的成绩对于学成绩来讲
这两年的成绩都是在学生内部的
是不是
这时候学生就是分组变量
他在历次考试成绩就是学生内部的每一次成绩
显然同一个学生
他的学习能力是相对固定的
学习努力程度等等都是相对固定的情况下
那么他的历次考试成绩的内部是不是有很强的相关性
是不是也就是说他每一次考试成绩之间是不独立的
而一个学生跟另外一个学生来讲
他的历次考试成绩的平均分是不是会有较大的差异
对不对
那么这种分组变量就变成了学生了
那么我们在hlm里面会专门的讲这种追踪数据的分析
所以这个地方我们用ID来去控制cluster ID
来去解决因为学生内部的成绩的相似性而带来的方差结构
所以大家把104这一行跑一下
跑完了吧
跑完了可以打个弹幕
或者聊天区里面说一下
我们可以看到说这个时候我们最感兴趣的变量
你写命令的时候就注意把它放前面
后面那都是控制变量
我们就不不管他了
那么跑出去这样的一个结果
这个时候这是我们用的另外一种方法
这个时候可以看到在这个表里面专门报告了一个什么呢
std. err. adjusted
也就是说这个标准误已经根据826个学生
cluster进行调整
也是一个robust standard error
是通过这种形式来报告的
那么为什么我们这次采用了 cluster Id
这样的一个方式尾缀的方式来去解决 cluster的问题
因为下一步我们要再跑一个模型是什么呢
上iv了 那么iv前面就不能加xt了
这个时候我们就会用 cluster ID的这种方式
来去控制
本来这个事应该让大家做练习的
因为实在是超时了
不好意思又拖堂了
所以这个时候就直接我们来一起来看一下
我看一下
那么这个命令是什么呢
这个命令本来应该放在这儿的
我就跳过了
直接放在这
好
我们一起来看一下
命令的还是我们上节课上一个我们要讲的iv
regress
然后前面加上xi的前缀
使得后面的这些控制变量理加上i.之后
大家知道这些都是类属变量
知道怎么去处理它
那么 ivregress 2sls
two stage least square
这个y是GPA我们的内生解释变量在哪里呢
在第一步的方程小括号里面对不对
等号左边是三个内生解释变量
等号右边是我们之前的分组方案
也就是我们的三个Iv它是一个恰好识别的情况
后面 option之后加上r cluster
id就可以把学生作为分组变量
两次成绩的组内相似性
把它给考虑进去
就是用工具变量加上 cluster
这两种情况都要考虑的时候
我们可以用这种方法来处理
这里面我们还加了一种考虑
当然控制变量的类属变量问题
所以我们前面有xi所以大家我把这行命令我应该是粘贴
到讨论区域
然后你们可以跑一下
当然你们可以自己讨论聊天
自己的来写一下也是没有问题的
怎么样能够
Ok
好
大家看到命令了
大家一个是把这个命令跑一下
当然只要是软件没什么问题了都能跑出来
前面就为什么刘健你为什么前面哪个地方跑不出来的
现在我可以停止共享
你可以共享一下你的屏幕
其他同学呢你们可以打开麦克说
因为文字交流有的时候前面几行都是红的
老师前面那些地方就已经开始报错了
就从一开始的generate那里就报错了
Generate
Generate报不出来吗
我看看
对
这个就不用管了
刚才我这边报错了
他可能是跟版本的命令的格式有关
好
看看后面的
然后后面所以这个地方ID生成了
对
生成了 xi这个没有跑出来是吗
对
反正long data这个是没有问题的
XI这个命令没有跑出来
对
他说什么
var list required
但是你这个时候没跑全
你 xi i.你看一下
等等
你xi i.没有加全还是怎么样
我看一下
你等着
你这没有弄全
看一下
对
所以我就建议你不要粘贴
而是直接选中
对
没有选中两行是不是
对
对
就这个地方没选全
谢谢老师
行
看还是很方便的
报红没关系
那个是数据的一些清理
跳过不跑那一行了
把 n生成了
generate n生成以后就直接跑回归
只不过是回归的结果跟论文里的结果就不一致
因为前面的数据清理没做成功
这个是我忽略了可能之前的命令在新版本里面已经不适用
了
后面能跑出来吗
同学们
有哪个同学跑出来了
跑出来了
10
你跑出来了
你共享一下好吗
老师可以看到我的共享吗
可以的
对
然后我把刚才发的命令复制到这里
然后它就跑出来了
有什么问题吗
看这个结果
有问题吗
或者来给我们解读一下
这个地方关键看哪几个点
我也不知道应该
关键看哪里
你屏幕往上调一点点
把整个表格基本露出来
我们一起来看一下
我来用注释功能
对
再往再往对把再往把这个表再往上推一推
推一点点ok
过了
过了再回来点
好
再回来点把表头露出来
好
可以了
谢谢
好
大家一起来看一下一霖的屏幕
首先他报告的是一个两阶段最小二乘法的工具变量的估算
对吧
Ok那么这个样本量是放在这儿了
1000多的样本量卡方的值跑出来了
那么整个方程是显著的
因为卡方检验是 p值是0.0000
R square是22%还是不错的
这个时候尤其要注意我们cluster的因为cluster
产生的标准误的变化
我们都考虑进去了
所有的标准误都已经根据cluster的结构做了调整是
robust
就加了个 robust standard error
这个时候是这个是工具变量跑出来的最终的结果
也就是第二阶段
那么显然这个叫变量名报告的还是我们原来的内生解释
变量
因为我们要的还是他最终参与以后的效果
这三个系数报告在这里
显然这前两个非常小
对不对
它的标准误也挺大的
所以最终可以看到它其实是不显着的
我们叠加的treatment就是前两个treatment叠加之后
它的效益非常大
0.3是个蛮大的一个值
而且它是比较显著的
以及虽然都是所有的控制变量
那么就跟我们之前的解读是一样的
所以在一个rct里面又考虑了cluster
又考虑了Iv cross over的问题
我们怎么来去做这样的一个分析
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM