当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 4.13 Q&A 4
有同学问说DID是否只适用于面板数据
其实我们先大概想一下的话可能是这样的
我们知道面板数据它是有两个维度
也就是在不同时间点上去调查
一个相同的研究对象
那么它之所以叫做面板的话
是因为它有两个维度
也就是这里的一个
time series
然后是一个cross
section了
它是同样的个体组成的横截面
拼在一起就形成了一个面板
那么混合截面数据的话
它其实有相似的地方
我们可以看到它的
它的名称也是叫
Pooled cross
sectional data
那么在这里我们可能要稍微往回
这是给大家提一个之前可能
大家都接触过的概念
就是我们讲什么叫TS
data
时间序列 时序数据和一个截面数据
它们其实是一个是对应的时间
时间轴上的一个衡量的数据
另外一个是
对不同的统计单位或者统计对象
这样一个组成的数据链
那么在混合前面它有一个
可以说是比面板数据更为
要求更低的一个情况
就是它每条数据都是独立的观测值
每个截面的数量可以是不一样的
比如说它在不同的时间调查
的对象不一定是一样的
那么当然这两个有什么具体的区别
我们待会会在第三题给大家再进行解释
在这里的话也是提供一个比较有意思的
图片 就是解释这两个
一个是
截面或者是横截面数据
另一个是序列
然后下面这个的话
这都是用了老友记friends
里面这些
人物的形象 我们可以看到
它是保持了在每个时间点相同
然后对于每一个人物
不是每一个对象
都有一个相应的数据反映
那么下面第三个这个图就是我们
比较熟悉的面板数据
然后在第三题的话
是和前面是有对应的
DID是否可以理解为面板
数据的固定效应模型
是可以这样理解的 因为我们在
我们一开始了解 DID
的基础模型上面
其实就是
综合了这样一个时间的固定效应
那么这里主要还要
注意的可能是一个个体的固定效应
因为我们知道在前面讲了面板数据的话
它是由同样的个体组成了横截面
那么这里的话我们就需要考虑
不同个体之间的一个
自身相关因素
比如说我们在做高校相关的
DID研究的时候 可能就要
去引入一个跟高校自身的质量
或者是各种教学相关的一个
这里是用ai
来进行一个表示
那么这里就是个体的固定效应
然后我们
我们在课堂
之前课上包括刚才也讲到
的讲到个体固定效应
其实多是在
多期的DID里面会提到这么一项
那么我们这里下面还要讲一个就是
混合截面数据
因为刚才讲了它比面板数据
更要求更为低的一点
就是它的
不同时间点的调查对象不一定是一样的
所以
这里的话就可以看成是
它的一个残差和我们这里要
我们这里做出分组变量
它其实这个是不相关的
那么所以我们这里就等于
是默认了个体固定效应
在
这样的一种数据里面可能是
不需要去特殊去考虑的
那么在这里的话
我们主要是参考右下角的这两两篇论文
然后大家有想去具体了解的
可以在课后再去
进行相关的阅读
那么我这边的第二三题是
进行了这样一个解释
然后大家有什么问题的话
也可以在
下面进行一个提出
对这个地方就是一定要明晰符号的含义
比如说你引入 ai
它是一个残差
还是一个像我们刚才用的这种
省略的这种固定效应的指代要区分
因为如果是残差的话
它就是一个随机效应
随机效应
如果Dit
比较能够如果就说D, dummy
它所
去区分的这两个group
跟 ai所
所在的层级是完全一致的
它们说的是一回事的话
固定效应跟随机效应是不能
放在一个公式里来使用
我们只能取舍 只能选一个
咱们在RCT里面是讲过了
大家然后
第一题
然后问题是DID除了在政策方面的应用
还在哪些领域
有应用
然后我们课本上也提到了一些
它就是一些外部的agency
假如说是自然灾害或者是地理特性
或者是出生日期
或者是长期
教育政策中的一些突发的变化
都可以作为
DID的 treatment
但
具体的应用场景还需要是你的研究问题
也就是你的outcome
是什么来决定
而它的这些外部的agency
agency只是一个
这些自然分组的手段
此外它还需要满足DID的一些基本假设
然后第4题
**
翻一下页好
然后第四
第4题问题是说DID中的虚拟变量
是不是可以替换成感兴趣的连续变量
然后它这边的虚拟变量
它问题中原来是分组变量
我们组的讨论是理论上应该是可以的
如果它的Di如果是
变成连续变量的话
理论上是可行
但是它的β还有它的
δ
它的含义
就可能和原来的我们的
如果是分组变量的时候理解是不一样的
它更可能是
更可能是一种
每单位上面
的一种平均的效应
是这样的
连续变量的斜率
连续变量的系数的含义是斜率
对吧
**说的也对
单位的变一个单位的变化
带来的平均效应
也就是斜率的概念
边际效应的概念
就是两个变量的乘积交互项
它是可以用在连续变量上的
问这种情况下
这个问题就跟DID没有关系的
因为DID说的是两组人的平均差异
一个连续变量
它也有它的 effect
marginal effect
这个东西
就变成另外一个问题
也就是说两组人
可能同一个变量对两组不同的
人所产生的影响是不一样的
斜率的差值
就可以用连续变量跟dummy的交互项来去
来去刻画
或者是这两个变量是不是可以
都是连续变量也是可以的
这事就更复杂了
它对你有特殊的研究兴趣
要把它
一具体的意义把它给剖析出来
画图的话都不能画这个
不能画这二维坐标
得是画三维平三维的这种平面的
变化
好
第5题 同学
好
然后第5题的问题是说为什么
covariance协变量可以用在政策
实施前,不能用在实施后
如果我们讨论它其实应该想问的是说
为什么在DID中使用的
是政策实施前的协变量
也就是
老师之前在课上讲到的问题
然后之前**也讲到了
用协变量来检验它的common
time trend 这个东西
然后首先我们
再讲一下
然后说ab两地的GDP假设为y
是由一系列的自变量
而x的线性组合来决定的
然后x是
影响GDP的一些因素
假如说可以是人口一些产业结构这些因素
但是这边假如说是xi在代表的是
所有不受政策影响的协变量
这边有一个概念就是说
是用来检验这些变量
我们的认为是它只是一些
只是一些不
受政策影响的一些关键的变量
可以用来检验
如果说是检验的结果是它
的变化趋势是相同的
也就是它的
δ它是没有显著的区别于0
我们就可以推测它的政策发生前后
它 outcome它的common time trend
它是一致的
然后这就是它的一个
它的一个检验
然后说是
DID中使用的covariance
为什么是只能用
政策实施前的协变量
然后第一个式子它讲的是没有使用
它协变量
第二个式子是使用了第0期的协变量
而为什么不使用第一期
的协变量来做DID
然后我们
首先要明确我们做DID的目的
首先是要
求它
γ还有δ这些
变化的参数
但如果使用的是第一期的协变量
它协变量已经是经过一个
common time trend和
政策影响之后变化后的
它的协变量的结果
而我们直接用这些已经变化的结果来推
推测它变化的过程
这样是不成立的
也就是老师之前课上讲到的
不能用
因果导致
不能用结果来推结果
就是这个道理
然后我的
的问题就讲到这
大家有问题
好 谢谢**
好的
一下一位同学是***
是**同学
第6个问题是说多期DID
它的基本的思路是什么样的
其实刚才之前第一组同学已经说到了
就多期DID它的基本思路是因为咱们
传统的DID它在就普通的DID它在
处理
咱们这个数据的时候
认为所有个体受到政策的影响
的时间点是完全相同的
比如说我们在
2008年的时候颁布了一项政策
所以我们认为咱们处理组的所有的人
它都是在2018年的时候
接受到了这个政策
但是在实际的应用中我们
要考察很多个组的时候
或者说考察很长的时间的时候
你会发现不同的研究对象里面它的
正受到政策冲击的时间是不一样的
所以的话就是我们多期DID
一个基本的开始
为什么要采取这样一种方法
比如说修建地铁的话
我们知道它会加速经济的发展
但不同的城市比如北京就很早就
修建
但是其它地方会迟一点
所以不同的城市修建的地铁时间不一致
然后推测
放出咱们的政策在不同的地区
实行的时间也不一致
这样的话就产生了一个传统
多期DID
然后向下翻一页
然后多期DID它基本思路和
传统的DID没有什么区别
它就是以把咱们交互项
ti乘以Di里面的
交互
项的话把它换成了一个另外一个变量
这个变量的话它是
我把它写为Wit的话是指
的咱们第t期第i个个体如果
接受了咱们 treatment
然后它就是1,然后如果没有接受的话
比如说是对照组里面的那就是0
所以的话对于不同的对实验组而言的话
它的Wit在不同的时间它是不同的
所以其实多期DID的我的理解
它和传统的DID没有什么不同
只是把
就相当于引入了一个时间
t或者老师说的它
我还是按照刚才修建地铁的问题
我们可以这样来理解
所有还没有修建的地铁的城市
我们把它称作为控制组
把已经修建地铁的城市的话作为
一个处理组
然后所以的话咱们在处理的过程中
在即使最终所有的地铁
都城市都修建了地铁
我们也可以还没把
没有修建地铁支持的城市
我们就把那些作为控制住
然后
平时咱们DID的交互项的话是
两个虚拟变量乘积treated和time
咱们多期DID的话
它的交互项的时候就换成Wit之后的话
比如说某个城市北京在某年修建地铁
然后而对于在
修建地铁之前年份的话
这个城市的DID的交互项是
0,修建地铁那一期的话
咱们DID的交互项就为1了
所以我个人是这样理解的
不知道其它同学的理解是什么样的
它和本来的DID是没有什么区别的
只是把交互项变了一下
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM