4.13 Q&A 4慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

有同学问说DID是否只适用于面板数据

其实我们先大概想一下的话可能是这样的

我们知道面板数据它是有两个维度

也就是在不同时间点上去调查

一个相同的研究对象

那么它之所以叫做面板的话

是因为它有两个维度

也就是这里的一个

time series

然后是一个cross

section了

它是同样的个体组成的横截面

拼在一起就形成了一个面板

那么混合截面数据的话

它其实有相似的地方

我们可以看到它的

它的名称也是叫

Pooled cross

sectional data

那么在这里我们可能要稍微往回

这是给大家提一个之前可能

大家都接触过的概念

就是我们讲什么叫TS

data

时间序列时序数据和一个截面数据

它们其实是一个是对应的时间

时间轴上的一个衡量的数据

另外一个是

对不同的统计单位或者统计对象

这样一个组成的数据链

那么在混合前面它有一个

可以说是比面板数据更为

要求更低的一个情况

就是它每条数据都是独立的观测值

每个截面的数量可以是不一样的

比如说它在不同的时间调查

的对象不一定是一样的

那么当然这两个有什么具体的区别

我们待会会在第三题给大家再进行解释

在这里的话也是提供一个比较有意思的

图片就是解释这两个

一个是

截面或者是横截面数据

另一个是序列

然后下面这个的话

这都是用了老友记friends

里面这些

人物的形象我们可以看到

它是保持了在每个时间点相同

然后对于每一个人物

不是每一个对象

都有一个相应的数据反映

那么下面第三个这个图就是我们

比较熟悉的面板数据

然后在第三题的话

是和前面是有对应的

DID是否可以理解为面板

数据的固定效应模型

是可以这样理解的因为我们在

我们一开始了解 DID

的基础模型上面

其实就是

综合了这样一个时间的固定效应

那么这里主要还要

注意的可能是一个个体的固定效应

因为我们知道在前面讲了面板数据的话

它是由同样的个体组成了横截面

那么这里的话我们就需要考虑

不同个体之间的一个

自身相关因素

比如说我们在做高校相关的

DID研究的时候可能就要

去引入一个跟高校自身的质量

或者是各种教学相关的一个

这里是用ai

来进行一个表示

那么这里就是个体的固定效应

然后我们

我们在课堂

之前课上包括刚才也讲到

的讲到个体固定效应

其实多是在

多期的DID里面会提到这么一项

那么我们这里下面还要讲一个就是

混合截面数据

因为刚才讲了它比面板数据

更要求更为低的一点

就是它的

不同时间点的调查对象不一定是一样的

所以

这里的话就可以看成是

它的一个残差和我们这里要

我们这里做出分组变量

它其实这个是不相关的

那么所以我们这里就等于

是默认了个体固定效应

在

这样的一种数据里面可能是

不需要去特殊去考虑的

那么在这里的话

我们主要是参考右下角的这两两篇论文

然后大家有想去具体了解的

可以在课后再去

进行相关的阅读

那么我这边的第二三题是

进行了这样一个解释

然后大家有什么问题的话

也可以在

下面进行一个提出

对这个地方就是一定要明晰符号的含义

比如说你引入 ai

它是一个残差

还是一个像我们刚才用的这种

省略的这种固定效应的指代要区分

因为如果是残差的话

它就是一个随机效应

随机效应

如果Dit

比较能够如果就说D, dummy

它所

去区分的这两个group

跟 ai所

所在的层级是完全一致的

它们说的是一回事的话

固定效应跟随机效应是不能

放在一个公式里来使用

我们只能取舍只能选一个

咱们在RCT里面是讲过了

大家然后

第一题

然后问题是DID除了在政策方面的应用

还在哪些领域

有应用

然后我们课本上也提到了一些

它就是一些外部的agency

假如说是自然灾害或者是地理特性

或者是出生日期

或者是长期

教育政策中的一些突发的变化

都可以作为

DID的 treatment

但

具体的应用场景还需要是你的研究问题

也就是你的outcome

是什么来决定

而它的这些外部的agency

agency只是一个

这些自然分组的手段

此外它还需要满足DID的一些基本假设

然后第4题

翻一下页好

然后第四

第4题问题是说DID中的虚拟变量

是不是可以替换成感兴趣的连续变量

然后它这边的虚拟变量

它问题中原来是分组变量

我们组的讨论是理论上应该是可以的

如果它的Di如果是

变成连续变量的话

理论上是可行

但是它的β还有它的

它的含义

就可能和原来的我们的

如果是分组变量的时候理解是不一样的

它更可能是

更可能是一种

每单位上面

的一种平均的效应

是这样的

连续变量的斜率

连续变量的系数的含义是斜率

对吧

**说的也对

单位的变一个单位的变化

带来的平均效应

也就是斜率的概念

边际效应的概念

就是两个变量的乘积交互项

它是可以用在连续变量上的

问这种情况下

这个问题就跟DID没有关系的

因为DID说的是两组人的平均差异

一个连续变量

它也有它的 effect

marginal effect

这个东西

就变成另外一个问题

也就是说两组人

可能同一个变量对两组不同的

人所产生的影响是不一样的

斜率的差值

就可以用连续变量跟dummy的交互项来去

来去刻画

或者是这两个变量是不是可以

都是连续变量也是可以的

这事就更复杂了

它对你有特殊的研究兴趣

要把它

一具体的意义把它给剖析出来

画图的话都不能画这个

不能画这二维坐标

得是画三维平三维的这种平面的

变化

好

第5题同学

好

然后第5题的问题是说为什么

covariance协变量可以用在政策

实施前，不能用在实施后

如果我们讨论它其实应该想问的是说

为什么在DID中使用的

是政策实施前的协变量

也就是

老师之前在课上讲到的问题

然后之前**也讲到了

用协变量来检验它的common

time trend 这个东西

然后首先我们

再讲一下

然后说ab两地的GDP假设为y

是由一系列的自变量

而x的线性组合来决定的

然后x是

影响GDP的一些因素

假如说可以是人口一些产业结构这些因素

但是这边假如说是xi在代表的是

所有不受政策影响的协变量

这边有一个概念就是说

是用来检验这些变量

我们的认为是它只是一些

只是一些不

受政策影响的一些关键的变量

可以用来检验

如果说是检验的结果是它

的变化趋势是相同的

也就是它的

δ它是没有显著的区别于0

我们就可以推测它的政策发生前后

它 outcome它的common time trend

它是一致的

然后这就是它的一个

它的一个检验

然后说是

DID中使用的covariance

为什么是只能用

政策实施前的协变量

然后第一个式子它讲的是没有使用

它协变量

第二个式子是使用了第0期的协变量

而为什么不使用第一期

的协变量来做DID

然后我们

首先要明确我们做DID的目的

首先是要

求它

γ还有δ这些

变化的参数

但如果使用的是第一期的协变量

它协变量已经是经过一个

common time trend和

政策影响之后变化后的

它的协变量的结果

而我们直接用这些已经变化的结果来推

推测它变化的过程

这样是不成立的

也就是老师之前课上讲到的

不能用

因果导致

不能用结果来推结果

就是这个道理

然后我的

的问题就讲到这

大家有问题

好谢谢**

好的

一下一位同学是***

是**同学

第6个问题是说多期DID

它的基本的思路是什么样的

其实刚才之前第一组同学已经说到了

就多期DID它的基本思路是因为咱们

传统的DID它在就普通的DID它在

处理

咱们这个数据的时候

认为所有个体受到政策的影响

的时间点是完全相同的

比如说我们在

2008年的时候颁布了一项政策

所以我们认为咱们处理组的所有的人

它都是在2018年的时候

接受到了这个政策

但是在实际的应用中我们

要考察很多个组的时候

或者说考察很长的时间的时候

你会发现不同的研究对象里面它的

正受到政策冲击的时间是不一样的

所以的话就是我们多期DID

一个基本的开始

为什么要采取这样一种方法

比如说修建地铁的话

我们知道它会加速经济的发展

但不同的城市比如北京就很早就

修建

但是其它地方会迟一点

所以不同的城市修建的地铁时间不一致

然后推测

放出咱们的政策在不同的地区

实行的时间也不一致

这样的话就产生了一个传统

多期DID

然后向下翻一页

然后多期DID它基本思路和

传统的DID没有什么区别

它就是以把咱们交互项

ti乘以Di里面的

交互

项的话把它换成了一个另外一个变量

这个变量的话它是

我把它写为Wit的话是指

的咱们第t期第i个个体如果

接受了咱们 treatment

然后它就是1，然后如果没有接受的话

比如说是对照组里面的那就是0

所以的话对于不同的对实验组而言的话

它的Wit在不同的时间它是不同的

所以其实多期DID的我的理解

它和传统的DID没有什么不同

只是把

就相当于引入了一个时间

t或者老师说的它

我还是按照刚才修建地铁的问题

我们可以这样来理解

所有还没有修建的地铁的城市

我们把它称作为控制组

把已经修建地铁的城市的话作为

一个处理组

然后所以的话咱们在处理的过程中

在即使最终所有的地铁

都城市都修建了地铁

我们也可以还没把

没有修建地铁支持的城市

我们就把那些作为控制住

然后

平时咱们DID的交互项的话是

两个虚拟变量乘积treated和time

咱们多期DID的话

它的交互项的时候就换成Wit之后的话

比如说某个城市北京在某年修建地铁

然后而对于在

修建地铁之前年份的话

这个城市的DID的交互项是

0，修建地铁那一期的话

咱们DID的交互项就为1了

所以我个人是这样理解的

不知道其它同学的理解是什么样的

它和本来的DID是没有什么区别的

只是把交互项变了一下

4.13 Q&A 4在线视频

4.13 Q&A 4课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

4.13 Q&A 4笔记与讨论

也许你还感兴趣的课程: