4.16 DID workshop 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

谢谢反馈

那么大家看一下

在这个里面你们应该可以看到我的鼠标

但是我还是可以用来注释的功能注释

这个地方我们用了

survey这样的一个前缀之后

这个结果是一个加权的结果

它就不再是对样本的简单的计算了

这个地方stata会报出来到底有多少个

primary sampling

unit

一共3000多个

那么原始的样本量是3900多

加权之后的样本量是下面这一块数字

可见权重加的还是蛮大的

那么这个时候报出来的mean就是加权

之后的结果均值是0.49

也就是说大概有49.4%的

学生能够在23岁的时候

上大学

不知道他是不是已经上了

已经毕业了还是正在上

反正

这个比例大概是百分之

点4

标准误当然很低的

因为我们的样本量非常大

那么这个就是加权的使用

那么大家可以马上你自己再跑一下

如果我不加权重

我算一个mean

这个结果是什么

是不是大家可以自己跑一下对不对

刚才那行命令我们其实

就是不加权就完事了

直接就跑命

呃 college

基本上就没事了

那么这个结果

大家是不是跑出来了呢

这个结果大家看是不是跟加权就不一样

不加权的权重

不加权的权重是45.7%

45.7%

加权是49.4%

所以说这就是加不加权的区别

这个大概会有一个

4个百分点

这个还是蛮大的一个差别

所以这个就是权重的使用

我们再看下一行命令

下一个面是做了一个交叉表格

tabulate

这个也很常用就是说

我们想看一下

两个群体

一个是在18岁的时候父亲是否去世

就是他是否有资质

获得资助

再一个就是他到底是哪一年的学生

他在哪一年上了高四

就是18行的命令

这个命令因为它是对样本的数量的统计

他就没有办法再加权了

所以说我们就直接跑一下

看一下就可以了

大家跑一下18行

跑出来之后你可以看一下你自己的结果

我们可以看到

79年 79年高四的学生

80年 81年 82年

83年一共有5届学生对不对

每届学生的样本量

我把这个字体调大一点

每届学生的样本量

基本上还比较均衡

900多1000，900

但是最后一年83年的数据

样本量就非常少了

只有200多个学生

那么在这个里面有多少学生在高四的时候

18 18岁的时候父亲去世了

已经去世了那么

这大概数量大家可以看到

基本上也是比较稳定的一个比例

就是说大概比较稳定的一个比例

那么这个是

因为我们也假设这个数据是比较随机的

好

那么接下来我们有这个 year

senior显然跟 offer这两

个变量

它是有对应关系的因为

这个year senior它

是一哪一个cohort

我知道它是哪个cohort

我就知道它那一年是不是有这个政策

高四，美国的学制是444

同学们

美国的小学初中和高中都是4年

合在一起是12年

咱们国家是633对不对

所以美国444大学也是4年

所以高四就是咱们的高三

清楚了

好

那么我们来看23行

23行我们还是求

他上大学的人数的比例

我们加上权重

那么我们想看4组人

这4组人是怎么定义的呢

Father deceased

跟 offer这两个变量交互

那么over，用over这个option

就可以来看到这一点

给大家跑一下第23行

好

同学们是不是跑出了这一行呢

这个还是算均值

因为college的均值

因为college是一个二元变量

所以它的均值就是一个比例

那么我们可以看到

因为我们用了over 这个option

over而且是 over两个变量

两个哑变量

所以stata就会把我们的人群

分成4组人 sub group

这个就是sub population

1234

就定义了这4组人

它写得很清楚

这有两

两个变量

因为这个数据里面 father

deceased变量是有label

的

offer变量label太长了

可能是因为，那么它就直接用了01

那么我们可以看到说

subgroup 1它就是

father not deceased

而且你的offer=0

就是subgroup 1

subgroup 2是father not

deceased offer=1

就是它处于offer=1的那些年份

那么同理就是subgroup 3是

father deceased

然后

offer等于0以及第

4种就是offer=1

所以就把我们感兴趣的这4种人

咱们在

讲课的时候画的表格对不对

就这4组人

那么他们的均值我们是不是就

可以用这种方式就报出来

而且是加权均值

那么这个均值就写在这个表里面

这4组人

它分别是多少

那么同学们可以看这4组人的

均值差异是不是还蛮大的

看描述统计的话

是不是

比如说 sub group

three

sub group three跟三

第3个子样本跟第4个子样本

他们都是

父亲去世的这些学生

他们就是我们的 treatment

group

一个等于0 一个是等于1的

那么你看等于1的时候

也就是有资助政策的时候

第4组的人他的上大学的比例是56%

但是没有政策的这些年份的学生

他们上大学的比例就只有35%

是不是

可见这样的一个巨大的 gap差值

而对于第一个第一组和第二组的人

他们是在18岁的时候

父亲没有去世的人群

他们就是我们的control

group

那么在不论有没有政策 offer

政策年份

他们上大学的比例大家看一个是

47%

一个是50%就非常接近

是不是

这个gap就不像后面这么大

所以说

我们做一下描述统计

这4个组的均值把它弄出来

就可以看到依稀可辨的差别

好

那么这个就是我们对它做的描述统计

当然这个也是加权的

好

那么我们接着往下看

我们

做到了这一步

那么接下来其实我们就要

这4个均值我们接下来就是做这个计算

我们就能够算出DID来了

大家这个表格应该印在你的脑子里了

但是这个标准误还要手动去计算就很麻烦

所以现在我们更愿意跑回归

让

让回归来帮我们算这些标准误

那么我们当然要一步一步的跑

那么第一个就是我们来算一重差分

一重差分大家来看一下第26行

26行

survey

是一个前缀

if条件也可以作为一个前缀

所以两个前缀就放在一起

然后再点这个冒号

所以说它第一个是加权了

第二个是对于 treatment

group

因为是

father deceased=1

这个地方是双等号

大家知道一个条件

那么我们跑一个简单的回归

回归就两个变量

college

一个是x，是offer

那么

因此回归的系数跟 t检验

两组人的t检验是一样的

因为我们前面加的if条件已经限定了

这个是在treatment group里面

所以说offer是个时间变量

那么

这个就是

一重差分就出来了

所以

同学们来跑一下26行

看一下这个结果

那么这个结果大家

跑出来了

我这个速度我也不知道快不快

所以说如果有同学觉得跟不上

你就一定要

在聊天区里面或者是

用弹幕要说一声

要不然的话我就一直就往前说了

我给大家看一下

的系数offer的系数0.208

t值是2.23

p值是0.027

是一个显著的差异

也就是 offer政策的年份

要比没有offer政策年份

treatment group的学生

他上大学的比例要高出20.8%来

这是一个很大的

一个政策效应

这么大个百分比是不是

大家看一下20.8%

跟我们前面算的分4组的均值

它有什么关系

是不是前面56%-35.2%

是完全相等的因为

t检验的结果

t检验就是均值差值

对于这样的一个咱们都

很熟悉的这种方法了

好

那么把对于treatment

group里面的它这种差分

我们就把它给算出来了

那么同样我们还是可以通过作图的方式

非常形象的把这个图也画出来

因为咱们讲课的时候也经常使用这个图

是不是

所以说下面29行到32行

就是画一张图

这个图首先做了一个recode

因为这个图就是这个时间顺序不要反过来

我们还是希望让自然的年份

所以他用recode把 offer

01和10

掉了个个

然后掉个之后没有存到offer里面

存在一个新变量里面叫做post

这个是

解释一下

接着用twoway命令

来做了一个拟合曲线

lfit是拟合曲线对不对

线性拟合曲线就是回归的线性拟合曲线

那么这个回归方程还是 college

和post

college是我们的y

post作为时间变量是我们的x

用到了权重

在回归里面可以用权重

用这种方式，用中括号

pw等于wt88

就把权重给用上了

By的命令就是说分两组

treatment跟control分别来画

接着又是对这个图的一些

格式图例等等的一些设定

这就是这几方面大概的意思

所以大家跑一下

从29行到第32行的命令

跑下来之后

你应该成功的画出一一张图来

因为我这个虚拟机它内存已经快不行了

所以跑的会很慢

4.16 DID workshop 2在线视频

4.16 DID workshop 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

4.16 DID workshop 2笔记与讨论

也许你还感兴趣的课程: