4.15 DID workshop 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

请大家

首先打开 stata

然后state打开哪个数据呢

还是 dynarski数据

chapter 8

开头的数据

这个是我们上课讲的这个例子

助学金的例子

把这个数据打开

do file也打开

我们有一个do file在里面

因为我们是上课专门讲的

所以说就没有把论文放里面

这个论文相信大家也都看过了

包括教科书上也都有

我们

首先一起来看一下

都有哪些变量

然后我们做对这些变量做一个熟悉

通过一些简单的操作

预分析

来熟悉一下变量

接着我们就来跑一个两期的DID来复现

咱们课上讨论的这样的一个分析

这个是大概的一个步骤

这是对第一个数据库

好

同学们是不是已经都打开了

差点忘了共享

我来共享一下屏幕

共享一下屏幕

好

大家现在应该可以看到

我的stata对不对

好

那么看一下有哪些变量

第一个是ID

这个ID就是每一个学生

个体的ID很好理解

第二个是

hhid

那么这个它其实是一个最小抽样单元

那么因为这个样本它是来自于一个大的

普查数据

普查它是否有一个抽样的框架

抽样框一个抽样策略

其中最小抽样单元它就是一个group

的概念

我最后是在哪一个

比如说是以学校为单位

还是以学区为单位

我来进行随机抽样最小的抽样单元

它就是有个ID

就是每一个学区

比如说它有一个ID

那么这个是来界定概念的

那么接下来第三个变量是1988年

的抽样的权重

因为抽样它不见得是等比抽样

我们

应该学过抽样

那么它应该是一个分层的非等比抽样

包括抽样之后

填答率也不见得都是一致

有的地方偏差率高的地方填答率低

因此我们就会算一个什么

抽样权重

来去纠正咱们样本的这样的一个情况

使得加权之后的样本

就具有代表性

那么就可以把从样本的结论推广到整体

所以说权重

是起到这样一个作用我们

对于一些

这样的一些数据

我们的分析都应该带上群众

Ok那么下一个变量是college

college显然是我们的

outcome variable

对不对

它是在23岁的时候

已经全职全时的上大学

就不是这种

兼职上大学或者还没上大学那么

一个在一定时间范围内定义的

一个是不是上大学的这么一个

一个行为变量

这是我们的outcome

因为我们想看给他提供助学金以后

他是不是就能够上大学

大概是这样的

那么下一个变量是

变量我们这个分析并没有用

但是在数据里是有的

这个是说什么是

这个是他就是完成的最高的年级

23岁的时候

他上了几年级了

因为有的人他真的没上大学

或者他上完大学了

我们用 schooling的这种概念

它一共上了几年

学，上了几年级这样的一个概念

来去刻画就是这个变量

但是我们这个里面没有用它

下一个是定义cohort

就是说

它在哪一年

是高四的学生

senior是高中四年级的学生

因为美国的高中是4年

那么这个是这样的一个变量

下一个变量

在18岁，18岁就是高中四年级

那么在18岁的父亲是不是已经去世了

那么这就是它是不是有资质

获得financial aid的条件

所以说这个是显然是来定义什么

在定义我们的treatment group

的一个变量

那么最后一个变量

是说他在他上高四的这

一年就senior

那么是不是政府提供了SSSB

这样的一个support

Support是不是

available

大家还记得一开始这个政策是有的

对不对

但过了几年联系在这

82年哪一年

还是81年政策就停了

因此offer是一个时间概念

对不对

但是offer等于1的时候

应该是政策停止之前

offer等于0

那是政策停止之后

这样的话 offer它的系数

才能够刻画出政策的效应

如果是用我们说的t就是之前和之后

按照自然年份的话

那就是反过来了符号就反了

所以我们这个是做了一个处理

所以我们现在这些变量

这些变量实际上都是提前都已经

处理好了的

我们来看一下咱们怎么样

来去熟悉这些变量

我们来怎么样开始

分析

Ok我们打开这个do file

打开do file之后

我们先看一下13行和14行的命令

那么14行

来

告诉stata我要使用抽样权重

因此它有一个survey

set这样的一个命令

它就是来设计来设置

service weight

先clear一下

因为防止内存里面已经提前

设过一些其它的权重

这是好习惯

主要是14行 service set

然后告诉stata

pw就是sampling

weight

这是命令里面自带的

要告诉stata pw等于哪一个变量

在我们这个里面刚才解释了

咱们的权重的变量是wt88

那么就在这里写上就可以了

注意这段是中括号不是小括号

逗号之后

psu就是primary

sampling unit

最小抽样单元就是最基础的抽样单元

primary sampling

unit

刚才我们解释的hhid

也告诉stata

谁是

用哪个变量来定义了最小抽样单元

这样的话

我们就把

抽样权重给定义清楚了

那么大家看17行，16行 17行

你首先我们拿到这个数据

显然我们要做一些

descriptive

statistics

咱们不要着急去马上去跑这个

跑 DID分析

我们一步步来

要对这个数据比较熟悉

这样的话才能够在解读结果

的时候不会出现偏误

或者能够及时发现一些错误的分析

好

那么17行大家看到跟我们之前用的

描述统计不一样的地方

就在于说我们前面在命是一个命令

对不对是来算

均值以及相关的一些统计量的

在命令之前我们加了 survey冒号

这个就使得说state

在计算均值的时候

它会用上抽样权重

这个就是怎么来使用抽样权重的

这个非常

方便了

所以请大家现在把13行到

17行你自己来跑一下

选中13行到

17行

然后选择运行

然后来看一下

这个结果

好

跑出来的

跑出来之后就看一下你

自己的屏幕就可以了

或者你看一下我的屏幕也是一样的

那么我们可以看到

当我们来设置 service

set的时候

它要stata要设好之后

它会报出一系列的这些量

当然我们还可以设更多的东西

那么我没有设，把最基础的设好了

因为我们抽样没有那么复杂

如果它报错的话你就没设上

那就要没有再跟我说一下

那么接下来我们就是跑了

一个最简单的计算均值

和均值的标准物以及95%的置信区间

4.15 DID workshop 1在线视频

4.15 DID workshop 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

4.15 DID workshop 1笔记与讨论

也许你还感兴趣的课程: