当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.21 RCT workshop 3
你来解释一下
简单解释一下
我觉得这个其实就是多了两个控制变量
所以第我这里就加了一个学校层面的控制变量
然后对第二步应该在这里再加一个个人层面的控制变量
所以相当于现在的回归的式子
有两个控制变量
一个是学校的前测成绩
一个是个人的前测成绩
然后其他的都和上面一样了
然后就呈现它以学校为分组的
回归
然后就显示它的组内方差和组间方差
好
请你再把 xt reg这一行命令跑的结果
output给大家展示一下
好吗
好
然后第一个表是只加了学校层面前测成绩的表
然后就能看到他现在的组组内方差是减小了很多
因为原来是八年级
现在变成六点几了
然后包括组间的也是有所减小
然后ρ的变化
ρ的变化也是变小了
我们最感兴趣的变量sfa的系数显著吗
依然不显着
然后下一步再加了一个对
加了一个个人层面的前测变量
然后就发现组间差异和组内差异是又变小了
然后ρ又但显著和上一个并不就差异并不大
而且我们感兴趣的变量它现在依然是不显著的
大家看到说当加入了学生层面的前测的时候
对学生层面的前测的平均分就不显著了
是不是
很好
好谢谢
好
我们同学们是不是都跑出来了
还有没有有问题的
没有的话我往下走的话有问题的话
你们随时在聊天区里面或者打弹幕来说一下
后面因为时间关系我们不我们不跑了
中心化的问题
我们到hlm我们到hlm的时候
会专门的再去探讨中心化的问题
我们这个就跳过了
但是非常希望大家在尝试一下我们刚才说的 fixed
effect的问题
也就是说它到底能不能跑一个fixed effect
model
那么这个我看一下
我们放到我们放到下一个练习题里面来
我们会做一下这个东西
好
咱们现在换一下数据库
换成star数据库
换数据库的时候一定要先提前clear
在内存里面
在stata内存里面可以这样的话他不会遗留任何我们残余的
上面一个分析的东西
我们打开 Iv workshop里面 rct
Iv的文件夹
把 star这样的一个数据打开
打开了
这个数据就要比刚才数据要丰富很多
内容信息也更多
我们来一起来看一下
这star显然也是一个treatment
我们肯定是要检验 treatment
对于学生的学业成绩的影响
这个也是我们的 reading里面的这一个研究
那么它是有两个treatment以及这两个treatment的叠加
一共是有三种treatment
那么这个里面就出现了cross over的问题
也就是说给了学生 option之后
学生并不一定会接受 treatment
去接触辅导
那么我们其实就是看辅导的对学生评级别的提高
好
大家来看一下这个数据
看下屏幕
GPA year1显然是前测成绩第一次的成绩
GPA year2是第二次的成绩
说错了不是前测
而且他每年都会测一回成绩
Control group这里有他这个
outcome会有很多
包括他每一年选的学分是多少
他们认为这个也是outcome
也就是说选的越多
说明他被辅导的比较好
他有更强的能力
或者是欲望去意愿去选择更多的这样的一个学分
还有就是一些控制变量
比如说父亲的受教育程度
high school group等等
我们一串里边控制内容
接下来是我们最重要的关键点识别量
从sfp开始
sfp是offered sfp那么这个
就是我们说的d是我们的分组变量
就是说我offer了这样的一个东西给你
那么下面变量sfp加了一个
后面又加了一个p那个是signed-up sfp也就是学生是不是
接受了
这个是真实的选择结果
也就是sfp是我们的D
Sfpp呢是 t t就是一个内生的分组
结果这个D是我们外生的这样一个分组的方案
那么还有一个sfsp它是一个叠加的
它是谁跟谁的叠加
它是sfp和ssp的叠加
所以说我们刚才说了有两个锤的本子
一个是ssp一个是ssp要它们两个叠加就是sfsp
那么这三个都是分组方案
共同的要放在我们的方程里面来去跟control group做
对比的
那么他们分别有一个带尾缀p的对应的一个变量
那么这三个变量就是内生的
也就是产生了cross over之后的实际的分组的
结果
大家就搞清楚这些关键变量在哪里了
我们来看一下 do file
do
file里面我们先把96行以前的先都跑完
这些属于data cleaning
就是我们选择了一个样本
选择了比如说女性
然后以及符合一系列人口学特征的一个子样本
我们先把这些命令都跑了
我们不做具体解释了
stata的版本不一样
有些命令可能已经不行了
好
你因为这个版本不一样
装了不同版本的stata
所以有些命令他没有跑出来数据清理
但这个不是很关键
好
大家都跑完了吧
跑到 generate ID等于下杠n我们新生成了
一个相当于给每个学生生成一个学号
下一个命令是很常用的
我不知道大家之前接触过没有
reshape命令
reshape命令其实是在追踪数据里面
对这个数据存储方式数据格式的一个转换
它的到底是一个long data还是一个wide
data
为了理解这一点呢
大家可以打开这个数据
我们来看看数据
你们用 browse这个就是我们只观察数据浏览数据
不去对这个数据做修改
那么打开这个数据窗之后
你们可以看到 gpa year1第一个学生
第一年的GPA year2是学生第二年的GPA包括
还有很多变量
它也是分1和2的
比如说credits这样的
那么这就是一个wide data
也就是说这一个学生他有两个gpa他分别被存储在两
列里面
它就比较宽
那么下面我们我们不我们想把这两个GPA同时作为外都
来分析
虽然他有的y是第一年的
有的Y是第二年的
但是这个都是我们的 outcome
这种情况下我就需要把这些GPA放到同一列里面来去
分析
有一些变量
它其实比如说像他人口学变量
他的性别父母受教育程度等等
像这样的变量
它其实是不随着年份的变化还是变化的
所以它就会在新生成的 long data里面会重复两
遍
所以这个就是数据结构的一个转化
大家先记住现在这个数据结构是CPA year1
GPA year2已经对应了他所有的这种
人口学变量
那么我们现在跑一下 reshape
这个reshape你们可以去查 help
reshape来看它的命令格式
现在我们需要做的事情就是reshape long
也就是说让stata把一个wide data变成一个long data
其中哪些变量会发生什么变化
这些GPA year等等这样的几个变量
这些变量它都会有一个尾缀1和2刚才那个数字
那么这个数字它就会变成一个新的变量叫year
也就是说 j这个变量是一个group变量
它会存储刚才这些变量里面最后一个数字
也就是说你在变量名里面其实已经提前把它给都整理好了
很多是非常整齐的1212这样子
那么这个ID就是每个student的ID
那就是刚才我们新生成的 ID
那么这一行命令给大家跑一下
跑完之后请你们再打开这个数据
打开这个数据就变成这个样
你会发现这个ID还是刚才那个ID
但是它会重复的出现两次
为什么呢
因为我们把GPA两年的GPA并到一列里面了
这时候他就需要一个新的标签叫year变量
来标记哪个是第一年的GPA哪个是第二年的GPA所以
这个时候ID就重复两次
因为都是同一个学生的GPA
大家会看到这个就是一个新的数据结构
那么它就变量减少了
但是让变量的长度增加了
因为它增加一倍
因为它把两年的数据放在一年的数据里面
两年的变量放在一年的变量
那么这就叫long data
这个是我们待会分析的时候要用的
因为我们想把两年的区别放在一起来分析
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM