当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 4.16 DID workshop 2
谢谢反馈
那么大家看一下
在这个里面你们应该可以看到我的鼠标
但是我还是可以用来注释的功能注释
Ok
这个地方我们用了
survey这样的一个前缀之后
这个结果是一个加权的结果
它就不再是对样本的简单的计算了
这个地方stata会报出来到底有多少个
primary sampling
unit
一共3000多个
那么原始的样本量是3900多
加权之后的样本量是下面这一块数字
可见权重加的还是蛮大的
那么这个时候报出来的mean就是加权
之后的结果均值是0.49
也就是说大概有49.4%的
学生能够在23岁的时候
上大学
不知道他是不是已经上了
已经毕业了还是正在上
反正
这个比例大概是百分之
49
点4
标准误当然很低的
因为我们的样本量非常大
那么这个就是加权的使用
那么大家可以马上你自己再跑一下
如果我不加权重
我算一个mean
这个结果是什么
是不是大家可以自己跑一下 对不对
刚才那行命令我们其实
就是不加权就完事了
直接就跑命
呃 college
基本上就没事了
那么这个结果
大家是不是跑出来了呢
这个结果大家看是不是跟加权就不一样
不加权的权重
不加权的权重是45.7%
45.7%
加权是49.4%
所以说这就是加不加权的区别
这个大概会有一个
4个百分点
这个还是蛮大的一个差别
所以这个就是权重的使用
Ok
我们再看下一行命令
下一个面是做了一个交叉表格
tabulate
这个也很常用 就是说
我们想看一下
两个群体
一个是在18岁的时候父亲是否去世
就是他是否有资质
获得资助
再一个就是他到底是哪一年的学生
他在哪一年上了高四
就是18行的命令
这个命令因为它是对样本的数量的统计
他就没有办法再加权了
所以说我们就直接跑一下
看一下就可以了
大家跑一下18行
跑出来之后你可以看一下你自己的结果
我们可以看到
79年 79年高四的学生
80年 81年 82年
83年一共有5届学生对不对
每届学生的样本量
我把这个字体调大一点
每届学生的样本量
基本上还比较均衡
900多1000,900
但是最后一年83年的数据
样本量就非常少了
只有200多个学生
那么在这个里面有多少学生在高四的时候
18 18岁的时候父亲去世了
已经去世了 那么
这大概数量大家可以看到
基本上也是比较稳定的一个比例
就是说大概比较稳定的一个比例
那么这个是
因为我们也假设这个数据是比较随机的
好
那么接下来我们有这个 year
senior显然跟 offer这两
个变量
它是有对应关系的 因为
这个year senior它
是一哪一个cohort
我知道它是哪个cohort
我就知道它那一年是不是有这个政策
高四,美国的学制是444
同学们
美国的小学初中和高中都是4年
合在一起是12年
咱们国家是633对不对
所以美国444大学也是4年
所以高四就是咱们的高三
清楚了
好
那么我们来看23行
23行我们还是求
他上大学的人数的比例
我们加上权重
那么我们想看4组人
这4组人是怎么定义的呢
Father deceased
跟 offer这两个变量交互
那么over,用over这个option
就可以来看到这一点
给大家跑一下第23行
好
同学们是不是跑出了这一行呢
这个还是算均值
因为college的均值
因为college是一个二元变量
所以它的均值就是一个比例
那么我们可以看到
因为我们用了over 这个option
over而且是 over两个变量
两个哑变量
所以stata就会把我们的人群
分成4组人 sub group
这个就是sub population
1234
就定义了这4组人
它写得很清楚
这有两
两个变量
因为这个数据里面 father
deceased变量是有label
的
offer变量label太长了
可能是因为,那么它就直接用了01
那么我们可以看到说
subgroup 1它就是
father not deceased
而且你的offer=0
就是subgroup 1
subgroup 2是father not
deceased offer=1
就是它处于offer=1的那些年份
那么同理就是subgroup 3是
father deceased
然后
offer等于0以及第
4种就是offer=1
所以就把我们感兴趣的这4种人
咱们在
讲课的时候画的表格对不对
就这4组人
那么他们的均值我们是不是就
可以用这种方式就报出来
而且是加权均值
那么这个均值就写在这个表里面
这4组人
它分别是多少
那么同学们可以看这4组人的
均值差异是不是还蛮大的
看描述统计的话
是不是
比如说 sub group
three
sub group three跟三
第3个子样本跟第4个子样本
他们都是
父亲去世的这些学生
他们就是我们的 treatment
group
一个等于0 一个是等于1的
那么你看等于1的时候
也就是有资助政策的时候
第4组的人他的上大学的比例是56%
但是没有政策的这些年份的学生
他们上大学的比例就只有35%
是不是
可见这样的一个巨大的 gap差值
而对于第一个第一组和第二组的人
他们是在18岁的时候
父亲没有去世的人群
他们就是我们的control
group
那么在不论有没有政策 offer
政策年份
他们上大学的比例大家看一个是
47%
一个是50%就非常接近
是不是
这个gap就不像后面这么大
所以说
我们做一下描述统计
这4个组的均值把它弄出来
就可以看到依稀可辨的差别
好
那么这个就是我们对它做的描述统计
当然这个也是加权的
好
那么我们接着往下看
我们
做到了这一步
那么接下来其实我们就要
这4个均值我们接下来就是做这个计算
我们就能够算出DID来了
大家这个表格应该印在你的脑子里了
但是这个标准误还要手动去计算就很麻烦
所以现在我们更愿意跑回归
让
让回归来帮我们算这些标准误
那么我们当然要一步一步的跑
那么第一个就是我们来算一重差分
一重差分大家来看一下第26行
26行
survey
是一个前缀
if条件也可以作为一个前缀
所以两个前缀就放在一起
然后再点这个冒号
所以说它第一个是加权了
第二个是对于 treatment
group
因为是
father deceased=1
这个地方是双等号
大家知道一个条件
那么我们跑一个简单的回归
回归就两个变量
college
一个是x,是offer
那么
因此回归的系数跟 t检验
两组人的t检验是一样的
因为我们前面加的if条件已经限定了
这个是在treatment group里面
所以说offer是个时间变量
那么
这个就是
一重差分就出来了
所以
同学们来跑一下26行
看一下这个结果
那么这个结果大家
跑出来了
我这个速度我也不知道快不快
所以说如果有同学觉得跟不上
你就一定要
在聊天区里面或者是
用弹幕要说一声
要不然的话我就一直就往前说了
我给大家看一下
的系数offer的系数0.208
t值是2.23
p值是0.027
是一个显著的差异
也就是 offer政策的年份
要比没有offer政策年份
treatment group的学生
他上大学的比例要高出20.8%来
这是一个很大的
一个政策效应
这么大个百分比是不是
大家看一下20.8%
跟我们前面算的分4组的均值
它有什么关系
是不是前面56%-35.2%
是完全相等的 因为
t检验的结果
t检验就是均值差值
对于这样的一个咱们都
很熟悉的这种方法了
好
那么把对于treatment
group里面的它这种差分
我们就把它给算出来了
那么同样我们还是可以通过作图的方式
非常形象的把这个图也画出来
因为咱们讲课的时候也经常使用这个图
是不是
所以说下面29行到32行
就是画一张图
这个图首先做了一个recode
因为这个图就是这个时间顺序不要反过来
我们还是希望让自然的年份
所以他用recode把 offer
01和10
掉了个个
然后掉个之后没有存到offer里面
存在一个新变量里面叫做post
这个是
解释一下
接着用twoway命令
来做了一个拟合曲线
lfit是拟合曲线对不对
线性拟合曲线就是回归的线性拟合曲线
那么这个回归方程还是 college
和post
college是我们的y
post作为时间变量是我们的x
用到了权重
在回归里面可以用权重
用这种方式,用中括号
pw等于wt88
就把权重给用上了
By的命令就是说分两组
treatment跟control分别来画
接着又是对这个图的一些
格式图例等等的一些设定
这就是这几方面大概的意思
所以大家跑一下
从29行到第32行的命令
跑下来之后
你应该成功的画出一一张图来
因为我这个虚拟机它内存已经快不行了
所以跑的会很慢
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM