4,17 DID workshop 3慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

那就是你横纵都没上去

同学们看一下我这张图

我这个图终于跑出来这么

简单的图跑了半天

那么这个是我画的这张图

大家可以看到

因为可能是我命令的版本稍微老一点

你们如果用的更新版的stata的话

可能就会有

有不一样

不过这个也不是，这个就是格式的问题

你们可以根据新版的命令

把这个格式调一下

好

大家看一下

这张图

第一个

因为我这边加标题是没有问题的

就是father not deceased

第二右边father deceased

是两个group

那么纵轴是

呃 percentage

of college

enrollment

那么横轴是year

所以说这个是刚才我们

设定的都标出来了

我这个不是stata

你们如果用的是最新版的话

可能它

可能是因为格式要求又发生了变化

所以可能要再调一下

比较简单

但是能跑出来是可以的

所以都标了 pre1981跟

post981这两个那么斜线

time trend就出来了

所以说我们可以看到说

左边这个呢按说就是

control group

所给我们估算出来的time trend

那么假设这两组人time trend一致的话

它也应该是

treatment group的 time

trend

那么右边这个就是一重差分

我们可以看到说

它们都有一个下降

但是显然treatment的下降

要更加的陡是不是

那么也就是这个政策对treatment

确实产生了很大的影响

那么这个就是一个直观的画图

好

那么

接下来

什么工作

我们来做一个大家同学们

的自由探索和小组讨论

下一张图我们不画了

类似

那么大家可以看到说这个地方空了几个

当然你也可以去根据这个

论文里的表格本身

那么我们把

我们用回归的方法

其实刚才我跑了一个回归

26行就是这个回归

那么我们因为有两个一重差分

还有一个两重差分

对不对

大家就是来看一下

我怎么样分别把这两个一重差分

和双重差分

都用回归的方式

把它给跑出来

第4组直接开始分享

大家好我们是第4组

然后我们分享一下我们刚刚讨论的结果

然后首先是第一重差分

第一重差分其实刚刚老师讲过了

第一重差分和上面回归式子完全一样

它要看的是在实验组

也就是说

父亲去世的那些人里面

提供

政策

对他大学入学的影响

所以说自变量是offer

然后因变量是

他进入大学与否

然后要控制是在实验组

所以说father

deceased应该是等于1

所以这样跑出来的就是第一重的

差分

然后我们可以看到它是

0.208，是能和这个表格

的第一重是对上的

然后我们来跑第二重

第二重其实你想对比的是

它和实验组的一个差异

这个时候

一个完整的

首先它等于0在对照组里面的差

然后你想要最后得到的那一个

回归应该是自变量还是

因变量

还是他进入大学与否

这个时候自变量就应该变成三个

一个是

是不是在实验组里的dummy

还有一个是不是接受了 policy

的一个dummy就是 offer

还有一个是这两个的交乘项

这里两个井号就这个代表的意思就是

它是一个自变量

然后它们的交乘项也是一个自变量

这个时候我们跑一下这个式子

等一下我这个冒号可能打错了

刚刚上面我们已经跑出来了

就能发现

是这个式子

0.182也是能对起来的

但是我们组遇到了一个小问题

就是我们算出来的

p值稍微和原数据有一点点的不相符

然后不知道其他各组有没有什么

好的

方法或者建议

然后这就是我们组做的最终的结果

好谢谢**

第4组跑的非常好

大家也看到了

当然了跑交互项

可以有不同的方案

**他们这一组

用到的方案其实是

最便捷的

也是我们用的双井号

大家应该是之前也是

应该是了解过的

是不是

那么双井号

其实跑了双井号就等于

把这两个dummy都跑了

而且还把它们的交互项也

跑了，这个就是双井号的一个作用

如果单井号也可以跑

在单井号就

完全不一样

好

那么有没有什么问题

同学们这个是不是都这么跑的

其他几个组

这个地方大家看我们当然

是可以直接是这样跑

这个是最简洁的

我就不用再新生成变量了

我刚才听有的组的同学

在讨论要不要生成一个新的变量

这个也是可以的

对不起我

快捷键

这快捷键在

虚拟机里面特别难用

那么我们当然也可以提前去生成一个变量

相当于我们比如如果提前形成一个变量

那么

刚才有同学叫DID，我们就可以

这样的话我再单独加一个

变量叫DID就可以了

当然前提是

我要先生成一个变量 generate

DID等于

跑了看不懂表

我们再一块来看一下

先把这个命名说完

那么就等于 offer乘以

father

deceased

那么先生成这个变量我们就可以

用这样的一个更加朴素的方法

也可以跑出来是一模一样

那么有同学说看不懂这个表

我们来看一下

咱们都跑一下

我把命令

我把它发到聊天区里面

如果有同学没有用这一个命令

你可以都试一下

等一下我这个电脑现在比较慢

聊天

或者其实

第4组也可以发

好咱们都跑一下这个命令

我们来看一下怎么来解读表格

这个表格也就是普通的回归

那么当然是加了

权重这块我们就不再解释了

当然它的R方确实很小

大家可以看到R方非常小

因为我们就放在

这么几个变量

1.offer就是说当offer

等于1的时候

跟offer等于0的时候差值

这个就1.offer的含义

也就是说它把offer里面

的取值为1标出来了

对照组

这是treatment group

这个是1

father deceased

它这里面写了一个father deceased

就是前面这个是

我来用它注释

这个是变量名

这个

变量取1的时候对应的label是什么

也是为了告诉我们差值的方向是什么

因为既然是差值

肯定是一组人减去另外一

组人的均值，到底谁减谁

如果是对调的话

这个符号就反了

所以为了避免混淆

stata会报出来

这个是treatment

它减的是

减的control

Offer也是一样的

offer是变量名

这个1就是赋值为1的这一

组减值赋值为0的这一组

这个变量当然是交互项了

这个是offer乘以father

deceased

这是交互项

那么

这个地方谁是取一

显然就是前两个变量

分别取1

它对应的它大概就是个含义

所以这个地方报告的

就是交互项的系数

也就是双重差分0.182

当然会还有它的

标准误以及t统计量等等

但是这里跟这个书上有一点出入

但是点估计是相等的

所以大家跑一个双

当你要跑一个DID的时候

其实很简单

我们就是跑刚才命令就可以了

对

几个系数看懂就可以了

好看懂了好

好大家有没有什么问题

还有没有问题

有问题现在说

好

没有的话我们就

还有三分钟时间

咱们在非常

刻苦的再看一个数据库

clear一下把现在的数据库clear

打开另外一个数据库 sorry

打开另外一个数据库

autor数据库我们来看一下

咱们刚才说的之前我们讨论的

这个就是立法多重多期DID的这种情况

打开这个数据库的数据就非常多了

希望你们提前看了回顾了论文以及

提前预习的数据

等等

让我先把注释先清掉

我虚拟机的内存已经占得很满了

好

好我们一起来看一下

那么这个数据

我们不准备全部来讲

我们没有时间

那么这里面有几个重要的变量

我们看的是它临时雇用工人的

情况

显然大家如果还有印象的话

立法

它想保护正式工人的权益

就是要规定

雇主不能随意的解除正式员工

那么这个就会激励雇主少去雇用正式员工

而去多雇用临时的工人

临时的员工或者是把工作外包出去

那么这个也算是临时雇用

那么这样的话本质上还是伤害

了广大劳动者的利益的

因为他们就

有更多的人不能成为正式员工了

那么这个数据比较大

我们不会去细看

还有很多人口学变量

它有每一个州的一些在

雇佣就业情况方面的一些统计变量

那么我们来看一下 do file

do file 前面一块跳过

那个是老的命令里面带着

我们就不用管它了

我们来简单解释一下

从76行开始

76行它是生成了一个

这个annual employment

就是一年的

就业率的 log

把它给生成了

以及其他一些

non business

service

sector就是做了一些

控制变量

那么把其他的这些一些产业，一些

sector里面的

employment都把

它算出来

那么这里面比较重要的是 state

dummy

这一部分

这个

州的就是表示它是哪个州的

咱要用州固定效应

所以说它是哪个州的

我们在这里面把它设置好，year dummy

都是哪年的

要设置好

还有它加了一个交互项

就是state

乘以time

就是州跟时间的交互项

trend就是

这种非常琐碎的细节的差异

我们刚才描述过这个事儿

它也把它都给算出来了

这个地方它主要用的就是xi

咱们之前讲过xi

i. 这些

那么stata就知道了

这些全是类属变量

跑的时候就会按类属变量来跑

会把它自动分成

按照它的赋值分成一组dummy来跑

我们就不用一个手动生成了

但是它为了

界定数据处理

它把某些年份的数据给删除了

那么

后

后面 working sample

是要用的数据

有些数据它是不用的

因为数据库它共享的是更大的

而分析本身用的数据库要小一点

就在这里去做了一些界定

这些我们不去深究

你也不用现在理解它

你就知道它就是进行定义了

一个我们分析的数据库

所以请大家

把76行到88

76号到98行直接跑了

这个属于数据预处理

虽然数据处理是最重要的

也是最花时间的

但是我们在这里不是教学的主要目标

所以说我们就直接简单带过

大家跑一下就可以了

你不用纠结这一块

4,17 DID workshop 3在线视频

4,17 DID workshop 3课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

4,17 DID workshop 3笔记与讨论

也许你还感兴趣的课程: