当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 4.9 Synthetic control methods
这是跟刚才就是说的
这4个
我们原始的,也不叫原始的
如果直接定义的
这4个值
它已经是一重差分了,这4个值
刚才解释过了
那么它的
不是我们直接
把3个哑变量的赋值带到回归方程里面跑
这个得到的结果,它已经是这8
个结果里面的一重差分了
那么时间关系我们就不一个一个推
大家自己下课以后还会再接着推
那么
这是一重差分的值
那么给定这个值
我们在算二重差分就比较容易了
那么分别是β4+β7
还有这边小DID是β4
那么这两个再做差三种差别就是β7
β7就是什么
三个哑变量
乘积的系数就是β7
那么这个就是DDD
好 大家回去可以自己来推一下
我们课上就
不再一个一个推了
那么当然这里
把这个例子说完
它是一样的
我们就不再解释了
当然跟我们的刚才的公式
β的含义不一样了
因为什么 因为它
它把β1定义为控制变量的系数了
所以它有β8
那么β8在这里就是我们
要的DDD
那么这个是结果 这个是
不同的方程的结果
Ok这个
三重差分的一个思想
这个思想
应该是比较清楚的
系数的关系和演算
大家自己在下面再练习一下
那么我们接着
简单的介绍一下
另外一种来解决
time trend不一致的
这个情况
这个方法
就是synthetic control
method
综合控制法
那么它是一个什么思想
就是说确实 treatment
跟其它所有可能的 control
它都没有一个共同的时间趋势
那么怎么办 我们来
看这样的一个例子
这个例子
它是研究了
恐怖袭击
对于经济的
经济增长的影响这样的一个例子
那么这个是在用的
西班牙的数据
巴斯克
那么这个巴斯克它是一个
比较特殊的一个州
那么在这个州也发生了在
某一年发生了恐怖袭击
那么希望就把作为一个
treatment
来去看恐怖袭击
对于经济的影响
但是因为巴斯克州本来就很特殊
使得
其它的那些省份都不能
构成巴斯克的一个control
group
因为它们的time trend
太不一样了
这时候怎么办
我们是不是放弃
我们不放弃
用这样的一个
方法
就是我找一组权重
我来虚拟一个control
group
使得虚拟的control
跟treatment group
它的
时间趋势
是一致的
我们来做这样的一个事情
那么大家来看这个例子
一个是人均GDP
pre
pre-terrorism在恐怖袭击之前的情况
巴斯科地区的人均GDP显然
高于全国的平均水平
那么它在很多影响
人均GDP的一些
协变量上
比如说我们可以看到比如说投资率
human
capital等等这些东西
它这些重要的协变量
它跟全国平均水平
也都不一样
明显是这不一样
很多是不一样的
它是不一样的
所以说我们在整个的西班牙的其它
的这些州省份就找不到一个合适
的control group给它
那么我们如果能用一组权重,找到一组权重
使得其它省份的一个加权平均之后
所构成的一个虚拟的州
它具备跟巴斯科地区同样的初始值的话
那么我们就预期它们就会share共同
的一个时间趋势,我们虚拟的这样一个东西
synthetic Basque
country
大家可以看到这个是虚拟的结果
确实
看上去不错
比全国的一个普通的平均水平要强很多
那么这个就是一个思路 就是这个思路
那么这个
是我们的怎么虚拟
找到这种权重来虚拟它就可以了
那么我们怎么虚拟
这个是我们这个目标,目标要达到跟巴斯
克一样的这样的一个经济结构
那么
其它的region在
这张表里没有列出来
我们有很多其它的地region
有其它的州
那么我们要找到一组权重
使得
x
值
这个是一个矩阵乘法的顺序
那么
就是这样的一个乘积
它跟x1怎么样
非常像
也就是说我们要最小化
X1-X0*W
那么我们虚拟出来的 x0乘以w
就是一个非常完美的control
group
这个思路
那么
当然直接去minimize
这个是不太好做的
所以我们就可以来去
最小化它的平方和矩阵的乘积
跟最小二乘法的思路是很像的
我们找到w
能够最小化差值就可以了
那么在这个里面有很多变量
因为这些变量我们都让它
找到一组权重 使得
这些所有的包括Y包括x
都
都达到非常相似
这也是很难的一个事情
它可能是
按下去葫芦漂起了瓢是吧
相似的另外一个变量就不相似了
这时候怎么办呢
这时候我们就找到一个v
V是什么
V是对于变量的一个权重
就是我们优先希望最小化
哪一个变量的差值
那么就是变量的权重
那么比如说我们优最优先的
是最小化 GDP的差值
么GDP对应的权重就给它1
有些变量我们觉得不是很care
比如说做茶叶比例什么的
我们就把变量的权重
定义为很低
甚至是0,就不考虑简化的这样
的一个最优化的问题
细节我们就不讲了
整体是做了这样的一些处理
如果我们找到这样一组w
是不是我们就完成了刚才说的任务
在 w有解的情况下
我们是可以做出来的
这个是刚才我们已经看过的结果
它确实做出来了 让作者
大家可以看到
虚拟的 control group
它的人均GDP
是跟巴斯克在恐怖袭击之前是非常一致的
这就是
比较理想的一个结果
那么
我们来看这个效果
这些细节我们不讲了
大家感兴趣的话可以看这篇论文
这个思想是
很重要的
这张图
就给出了一个它最终的虚拟效果
实线
实线是
巴斯克地区的
历年的人均GDP的变化的曲线
这个虚线
我们虚拟出来的 control
group
它历年的人均GDP的变化的情况
那么恐怖袭击是在75年发生的
这样的话大家可以看到
在75年之前
拟合的效果是非常好的
这两个州推特曼跟虚拟的
control group
它们的GDP
好 因为我们还剩10分钟 我们就
不再下课了
那么大家可以看到
在恐怖袭击之前
这两组的时间趋势是不是非常一致
它不仅一致 它还是重合的
它不光是斜率一致
那么在恐怖袭击之后
确实巴斯科地区的 GDP下降的速度
包括它的绝对值之差
它确实都要低于
低于我们虚拟的 control group
这也就是非常直观的一张图
这是多期的一个模型
来看到确实恐怖袭击对于 GDP
对于经济增长是由
负面的影响的
那么这个是刚才差值
就是说 treatment
减去control差值
75年大家看到0在哪
虚线
这个虚线是GDP的差值
它的坐标轴
是左边的坐标轴
实现是恐怖活动的频率
它的坐标轴是在
这个右边
就是恐怖袭击导致的人数死亡人数
我们是右边
所以大家要对应的两个坐标轴来看
可以看到说在75年之前
Y1跟Y1*它的
差值是在零附近波动的
是非常的相似的
那么在75年以后
第一个恐怖袭击的人
导致死亡的人数是一个急剧上升
那么之后确实我们可以看到
treatment跟control的
差值是负的
也就是说它对经济
是有一个
是有一个显著的伤害的
那么
综合控制法的一个思路
就是说我确实
找不到合适的
看中国我可以虚拟一个
那么用这样的一个拟合的值
能够充分证明它们具有
common time trend之后
我们也可以认为它
后面的分析
能够代表
事件本身带来的影响
但是这种情况
例子比较少
说实话
但这个思想还是
很有意思的
好
那么今天就是带大家读一下
我们基本上不会拖堂了
下面布置一个思考题
大家学DID
DID的思想
可以在很多时候用
我们同学也发现近年DID
的方法是越来越多
我们近期也确实就发生了这样的一个事件
是因为疫情的原因
大家
都在整体的进行在线的学习
那么你们觉得有没有可能
构建一个自然实验来去
分析一些重要的问题
刚**也说到了高考也因此推迟了
高考推迟
那么你觉得它会
导致哪些重要的我们教育
研究感兴趣的一些变量的变化
使得我们过去一些内生
的因素就变成外生了
因为冲击
也可以不一定是在线教育
也可以是其它的
那么你们去怎么样去构造这样的一个
自然实验
这个里面就要把一些重要
的概念要界定清楚
influence到底是什么
政策变迁是我们看得见的
它影响的是什么以及影响又带来对
outcome的影响是什么
这个要界定清楚
第二个就是说
DID的这几
你们要考虑
第三个
你们的要选取的样本是什么
谁是treatment
谁是control
谁是unaffected group
谁是 affected group
等等
那么这些可能都是你们需要去探讨的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM