当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 4,17 DID workshop 3
那就是你横纵都没上去
同学们看一下我这张图
我这个图终于跑出来这么
简单的图跑了半天
那么这个是我画的这张图
大家可以看到
因为可能是我命令的版本稍微老一点
你们如果用的更新版的stata的话
可能就会有
有不一样
不过这个也不是,这个就是格式的问题
你们可以根据新版的命令
把这个格式调一下
好
大家看一下
这张图
第一个
因为我这边加标题是没有问题的
就是father not deceased
第二右边father deceased
是两个group
那么纵轴是
呃 percentage
of college
enrollment
那么横轴是year
所以说这个是刚才我们
设定的都标出来了
我这个不是stata
15
你们如果用的是最新版的话
可能它
可能是因为格式要求又发生了变化
所以可能要再调一下
比较简单
但是能跑出来是可以的
所以都标了 pre1981跟
post981这两个那么斜线
time trend就出来了
所以说我们可以看到说
左边这个呢按说就是
control group
所给我们估算出来的time trend
那么假设这两组人time trend一致的话
它也应该是
treatment group的 time
trend
那么右边这个就是一重差分
我们可以看到说
它们都有一个下降
但是显然treatment的下降
要更加的陡 是不是
那么也就是这个政策对treatment
确实产生了很大的影响
那么这个就是一个直观的画图
好
那么
接下来
什么工作
我们来做一个大家同学们
的自由探索和小组讨论
下一张图我们不画了
类似
那么大家可以看到说这个地方空了几个
当然你也可以去根据这个
论文里的表格本身
那么我们把
我们用回归的方法
其实刚才我跑了一个回归
26行就是这个回归
那么我们因为有两个一重差分
还有一个两重差分
对不对
大家就是来看一下
我怎么样分别把这两个一重差分
和双重差分
都用回归的方式
把它给跑出来
第4组直接开始分享
大家好 我们是第4组
然后我们分享一下我们刚刚讨论的结果
然后首先是第一重差分
第一重差分其实刚刚老师讲过了
第一重差分和上面回归式子完全一样
它要看的是在实验组
也就是说
父亲去世的那些人里面
提供
政策
对他大学入学的影响
所以说自变量是offer
然后因变量是
他进入大学与否
然后要控制是在实验组
所以说father
deceased应该是等于1
所以这样跑出来的就是第一重的
差分
然后我们可以看到它是
0.208,是能和这个表格
的第一重是对上的
然后我们来跑第二重
第二重其实你想对比的是
它和实验组的一个差异
这个时候
一个完整的
首先它等于0在对照组里面的差
然后你想要最后得到的那一个
回归应该是自变量还是
因变量
还是他进入大学与否
这个时候自变量就应该变成三个
一个是
是不是在实验组里的dummy
还有一个是不是接受了 policy
的一个dummy就是 offer
还有一个是这两个的交乘项
这里两个井号就这个代表的意思就是
它是一个自变量
它是一个自变量
然后它们的交乘项也是一个自变量
这个时候我们跑一下这个式子
等一下我这个冒号可能打错了
刚刚上面我们已经跑出来了
就能发现
是这个式子
0.182也是能对起来的
但是我们组遇到了一个小问题
就是我们算出来的
p值稍微和原数据有一点点的不相符
然后不知道其他各组有没有什么
好的
方法或者建议
然后这就是我们组做的最终的结果
好 谢谢**
第4组跑的非常好
大家也看到了
当然了跑交互项
可以有不同的方案
**他们这一组
用到的方案其实是
最便捷的
也是我们用的双井号
大家应该是之前也是
应该是了解过的
是不是
那么双井号
其实跑了双井号就等于
把这两个dummy都跑了
而且还把它们的交互项也
跑了,这个就是双井号的一个作用
如果单井号也可以跑
在单井号就
完全不一样
好
那么有没有什么问题
同学们这个是不是都这么跑的
其他几个组
这个地方大家看我们当然
是可以直接是这样跑
这个是最简洁的
我就不用再新生成变量了
我刚才听有的组的同学
在讨论要不要生成一个新的变量
这个也是可以的
对不起我
快捷键
这快捷键在
虚拟机里面特别难用
Ok
那么我们当然也可以提前去生成一个变量
相当于我们比如如果提前形成一个变量
那么
刚才有同学叫DID,我们就可以
这样的话我再单独加一个
变量叫DID就可以了
当然前提是
我要先生成一个变量 generate
DID等于
跑了看不懂表
我们再一块来看一下
先把这个命名说完
那么就等于 offer乘以
father
deceased
那么先生成这个变量我们就可以
用这样的一个更加朴素的方法
也可以跑出来是一模一样
那么有同学说看不懂这个表
我们来看一下
咱们都跑一下
我把命令
我把它发到聊天区里面
如果有同学没有用这一个命令
你可以都试一下
等一下我这个电脑现在比较慢
聊天
或者其实
第4组也可以发
好 咱们都跑一下这个命令
我们来看一下怎么来解读表格
这个表格也就是普通的回归
那么当然是加了
权重这块我们就不再解释了
当然它的R方确实很小
大家可以看到R方非常小
因为我们就放在
这么几个变量
1.offer就是说当offer
等于1的时候
跟offer等于0的时候差值
这个就1.offer的含义
也就是说它把offer里面
的取值为1标出来了
对照组
这是treatment group
这个是1
father deceased
它这里面写了一个father deceased
就是前面这个是
我来用它注释
这个是变量名
这个
变量取1的时候对应的label是什么
也是为了告诉我们差值的方向是什么
因为既然是差值
肯定是一组人减去另外一
组人的均值,到底谁减谁
如果是对调的话
这个符号就反了
所以为了避免混淆
stata会报出来
这个是treatment
它减的是
减的control
Offer也是一样的
offer是变量名
这个1就是赋值为1的这一
组减值赋值为0的这一组
Ok
这个变量当然是交互项了
这个是offer乘以father
deceased
这是交互项
那么
这个地方谁是取一
显然就是前两个变量
分别取1
它对应的它大概就是个含义
所以这个地方报告的
就是交互项的系数
也就是双重差分0.182
当然会还有它的
标准误以及t统计量等等
但是这里跟这个书上有一点出入
但是点估计是相等的
所以大家跑一个双
当你要跑一个DID的时候
其实很简单
我们就是跑刚才命令就可以了
对
几个系数看懂就可以了
好 看懂了 好
好 大家有没有什么问题
还有没有问题
有问题现在说
好
没有的话我们就
还有三分钟时间
咱们在非常
刻苦的再看一个数据库
clear一下 把现在的数据库clear
打开另外一个数据库 sorry
打开另外一个数据库
autor数据库我们来看一下
咱们刚才说的之前我们讨论的
这个就是立法多重多期DID的这种情况
打开这个数据库的数据就非常多了
希望你们提前看了回顾了论文以及
提前预习的数据
等等
让我先把注释先清掉
我虚拟机的内存已经占得很满了
好
好 我们一起来看一下
那么这个数据
我们不准备全部来讲
我们没有时间
那么这里面有几个重要的变量
我们看的是它临时雇用工人的
情况
显然大家如果还有印象的话
立法
它想保护正式工人的权益
就是要规定
雇主不能随意的解除正式员工
那么这个就会激励雇主少去雇用正式员工
而去多雇用临时的工人
临时的员工或者是把工作外包出去
那么这个也算是临时雇用
那么这样的话本质上还是伤害
了广大劳动者的利益的
因为他们就
有更多的人不能成为正式员工了
那么这个数据比较大
我们不会去细看
还有很多人口学变量
它有每一个州的一些在
雇佣就业情况方面的一些统计变量
那么我们来看一下 do file
do file 前面一块跳过
那个是老的命令里面带着
我们就不用管它了
我们来简单解释一下
从76行开始
76行它是生成了一个
这个annual employment
就是一年的
就业率的 log
把它给生成了
以及其他一些
non business
service
sector就是做了一些
控制变量
那么把其他的这些一些产业,一些
sector里面的
employment都把
它算出来
那么这里面比较重要的是 state
dummy
这一部分
这个
州的就是表示它是哪个州的
咱要用州固定效应
所以说它是哪个州的
我们在这里面把它设置好,year dummy
都是哪年的
要设置好
还有它加了一个交互项
就是state
乘以time
就是州跟时间的交互项
trend就是
这种非常琐碎的细节的差异
我们刚才描述过这个事儿
它也把它都给算出来了
这个地方它主要用的就是xi
咱们之前讲过xi
i. 这些
那么stata就知道了
这些全是类属变量
跑的时候就会按类属变量来跑
会把它自动分成
按照它的赋值分成一组dummy来跑
我们就不用一个手动生成了
但是它为了
界定数据处理
它把某些年份的数据给删除了
Ok
那么
后
后面 working sample
是要用的数据
有些数据它是不用的
因为数据库它共享的是更大的
而分析本身用的数据库要小一点
就在这里去做了一些界定
这些我们不去深究
你也不用现在理解它
你就知道它就是进行定义了
一个我们分析的数据库
所以请大家
把76行到88
76号到98行直接跑了
这个属于数据预处理
虽然数据处理是最重要的
也是最花时间的
但是我们在这里不是教学的主要目标
所以说我们就直接简单带过
大家跑一下就可以了
你不用纠结这一块
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM