当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.20 RCT workshop 2
那么接下来我们就要考虑说
既然我们刚才观察到了组间差异
我们怎么样把组间差异把它分析出来
那么我们用的命令咱有多个每一个的算法不一样
那么我们先用的就是xt regression
xt
regression实际上它也是在面板数据里面经常使用的
我们大家看一下
首先是xt regression不再是
regression了
前面加了xt的前缀y还是放在这里
没有放任何的x就是一个空模型
主要是在看它的方差
那么后面需要告诉stata我的分组变量是谁
这个option就是 I加上小括号里面分组变量的
ID
这里就是school ID
那么是这样的一个方程
就大家选中第17行
选中以后跑一下
那么这个时候你们就会得到这样的一个 output
是不是
我们来看一下
那么这个就跟刚才结果不一样了
它用的首先是什么
它是一个随机效应
模型
它用的是广义的
最小二乘法
这个是group variable呢是school
ID就告诉你了
这个就来检验你的方程是不是设定是对的
那么这个地方报告了 number of
observations
这个是总的样本量不变
学生的数量是2334
接着报告了number of groups
这个报告的就是 school ID所识别出来的有
多少个组
41个
这个是我们的学校的数量
这是没错的
接着他报告了每一个组里面最少的样本量就是有的学校
里面只有10个人
那么最大的是134
有的学校里面是134个人把这个报告出来了
那么接着我们来看
这个是它的假设了
这个也是我们之前说的随机效应模型的假设
就是μij跟所有的x它是不相关的
接着我们来看下面 constant是截距项了
大家可以看到这个是477跟前面ols报告的478
基本上是相等的差一点点
但是这个standard error怎么样
这个standard error是1.4
之前的是什么
是0.4
之前的这个是怎么样
低估了
我们用ols就低估了它的标准误
下面这个标准误才是无偏的
那么接着报告的两个值
一个是什么
σμ
一个是
σε这个e是ε
这个就分别是我们模型里面的μ是第二层是school
level的
e是第一层是student level的
它的方程的两个残差
一个是组内的残差
一个是组间的 variation
它组间的方程的残差的值分的标准差分别是多少
σ是标准差
它不是方差
把ρ也给我们报告出来了
ρ
而且还解释了一下 fraction of
variance due to ui ρ是
多少
是0.2 0.2是不是还挺高的
根据我们刚才 power analysis
0.1都已经让我们损失很多的power了
那么这个地方它的ρ是0.2
ok那么这个ρ是怎么算的呢
是按照这个公式
应该是 e的方差除以e的方差加上u的方差
那么这个地方他报告的不是方差
这个地方报告的是什么
标准差是所以说要怎么样
要平方之后才能够做计算
所以我们看在给大家 do file里面
我们加上了计算平方
当然你用Excel也是可以算出来的
那么大家看一下
21行 display就是当你跑完一个回归以后
用display这个命令就可以把它把dstata里面算
出很多参数值上都报告出来
因为stata不会一个都报告
你就可以让它报告
σu的平方以及σe的平方
那么就都会报告出来
大家可以跑下这两行
这两行报告出来的结果就可以拿它直接做一个比较
来去算我们的ρ
因为时间关系咱就不不一个一个的来去看了
这个是比较简单的
那么这样的话其实我们是不是就非常清楚了
在rct里面当然有 cluster的时候
我们应该怎么去分析
那么也就是说我们换命令了换成MC
以及我们要告诉stata谁是分组变量
刚才是空模型
做一个什么事情
那么请大家自己来写一下这个方程
考虑cluster的这种情况
你应该怎么样写方程能够得到sfa的
treatment effect
也就是说我们要加一个自变量
好不好
你只需要加一个sfa自变量就可以了
不需要加控制变量好吧
那么大家现在自己写一下
根据前面的方程相信你们可以写出来
好
我们好像看到了蓝文的共享
写的很对
蓝文大家可以看到就是蓝文共享的屏幕
我们是不是在这个地方就是加入了sfa就可以了
非常简单
多加了一个自变量
是不是
大家是不是都跑到了都得到了这样的一个结果
那么后面来算残差的方差都是一样的
是吧
其他同学有没有共享你的屏幕
我觉得现在我好像可以看到很多人的屏幕了
好
那么我接着共享我的屏幕了
技术太多就是搞不定
好
那么这个大家都可以来算出来
那么我们再找一位同学请你来报告一下你的结果
好不好
这样我们后面再报告
我们后面还有别的练习
主要是时间压力比较大
我们可以看到加上sfa之后
大家会发现这样的一个结果
首先前面的这些值会有一些变化
这些不会有变化
卡方检验会有一个变化
它这个值原来是空模型
现在是有一个值了
between的 R square的增加了
因为我们在between比如在 school
level增加了自变量
所以between的 r square有所增加
从0变成0.04了
但是非常小
为什么
大家来看一下 sfa的系数是4
ok
但是他的 t检验的结果怎么样
它的 p值是0.127
那么也就是说它是不显着的
对不对
那么所以说模型的唯一的变量不显着
这个模型它就不显著
所以大家可以看到卡方检验的值
p值它也是一样的不显著的
它俩是完全对等的
当然了我们可以看一下μ
σμ应该是减小了一点点
因为我们毕竟在这一层加了一个自变量
它变成了8.75
我们可以看一下之前的值是多少
时间是8.87
介绍一点点
所以这个ρ从0.2就降到了0.19
非常小的一个变化
好
那么我们现在来怎么样来加入控制变量
也就是说下面这个 model three
我们加入控制变量
我们这里唯一的控制变量是什么
就是这个学校的平均前测成绩
这个是school level的前测成绩
那么请大家就把 school level的前测成绩
加进去
跑一下模型
以及你们在顺带着下一步把 student
level的前测成绩作为student level的控制变量
也加进去
两把这两个模型跑一下
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM