当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.8 PSM 3
好 第二个
common support
check
也就是说
咱们 matching的思想就是说
如果
它们的倾向分数是一样的
在同样的一个
比如说很小的一个层级里面
那么我们认为这两个人群是相似的
那么我就认为他们俩是可比的
说白了就是这样子
所以 common support
什么意思
就是说在同样一个
倾向分数的分数段里面
如果有
treatment group的人
我就希望也会有control
group的人
那么这两张图咱们先看左边这张图
红色的是
红色的柱状图是treatment
group
的倾向分数的分布图
蓝色的柱状图是
untreated人群
它们的倾向分数分布图
大家可以看确实
就是说treatment group它的
倾向分数整体上会偏高
对不对 因为
这个右边是更高的倾向分数值
它整体会偏高
那么在untreated group整体会偏低
这个是非常符合常识的
符合我们的感觉的
但是也非常可喜的发现
哪怕是在最高的倾向分数
这些等级里面
我们依然可以看到有蓝色的样本
也就是说
它们在每一段都有人
这个叫common support
在它们有共同的这样的
一个overlap
共同的这样的一个
都有人 两边都有人
那么像这种情况
大家看右边这张图出现了一个绿色的柱状
叫of support 也就是说
当然样本量非常小
所以不是很明显
在倾向分数这个位置
我们只在
treatment group
看到了
样本量
但是
untreated group没有人在
它的倾向分数达到这样的一个程度
所以我们叫它off support
当然像左边这些像这些它
都是这些红色的柱子
它下面都是有蓝色的柱子的
所以我们叫做on support
所以说这个时候就出现了off
support情况
也就是说我们高分数的高倾向
分数的这一部分这个人
t他找不到跟它匹配的人
就是这种情况
所以这就叫common
support
我们当然希望是左边的情况
但是出来右边的情况也没什么大不了的
大不了我们就是说我们放弃
off support
这一部分样本的分析
我们的分析结论
只是在
更小的这样的一个人群里面试用
说白了就是把这个结论
的适用范围把它缩小
就可以了
也不用特别的担心 但是
作为研究者你要搞得很清楚
你的结论到底适用范围是什么
是整个样本
还是一个on support的样本
要说清楚
好 这个也是类似一张图
只不过这张图它是把它
都画成向上的方向了
我们来看它的overlap
的情况是一样的
第三个就是balance check
balance下就是说什么呢
既然这两组人在匹配之前是那么的不一样
那么它们的这些
斜变量
肯定是有很大的差异的
这是第一点
第二点我当然希望说匹配之后
匹配完之后
无论它是加权之后也好
还是它真的是
匹配之后也好
那么
匹配之后
它们应该是非常类似的
要的这样的一个结果
所以大家可以看
这张图左边看左边
左边这张图
这个点是匹配之前的
它是差值 treatment
跟untreated的差值
中间这条竖线是0
显然如果它都在0的附近的话
那就是没有什么差别
如果离零非常远的话
差别就很大
所以大家看这些
这些点是匹配之前的差值
很多自变量它的一个差值就离得非常远
尤其是第一个就是p school就是
present school
那么它离0是非常远的
所以这两组人的差别是非常大的
但是匹配之后就小叉号小搀好
大家可以看到它都是在零附近的
那么这个效果
比较好的
那么我们看
右边这张图
右边这张图的图例是一样的
但是大家发现
匹配之后
这些小叉号
离零这条线还是很远
也就是说
它匹配之后
这些重要的协变量
包括p score
它们依然有很大的差异
这就说明什么问题
这就说明
这个匹配效果不好
对不对
它匹配之后还是有很大差异
就是匹配效果不好
那就说明 p score算得有问题
一般不是匹配的问题
一般是算这个问题
比如说像刚才模型
如果是它这个考清华北大
咱那个模型没选好
里面的变量没有你们认为特别重要的变量
我们没有这个数据
p score算的就是没有什么价值
那就是match之后就是这种效果
就可以从这里检查出来
就叫做 balance
check它是不是平衡了
平衡就是说它都是一样的
就应该在0附近差值在0的附近
这是
好
那么这个是表
刚才那个是图非常形象
这个是表它就比较精确
我来看比如随便举个例子
年龄 match之前
treated 跟control的差值
是非常大的
它的t检验是显著的
也就是这两组人是有显著的差异的
但是match之后
它差值就不显著了
这就是一个非常好的match
所以我们就去来看所有的自变量
它match之后
我们来看它的 p值
t检验的p值
是不是都不显着
这个就是很重要的一点
那么这个也是 balance
check的一部分
好
那么这个整个就是我们对于PSM的
分析和讨论
我们就讨论两部分
第一部分它的理念是什么
它是怎么做的
第二部分我们怎么样对psm进行检验
怎么样是一个好的match
它的结果什么时候可信
什么时候不可信
那么关于psm有很多
论文才讨论
大家可能也都看到这篇论文了
这个也是我们课本里引的论文
你如果对这些技术细节
很有兴趣的话
包括它的limitation
你可以去看这些文章
来做更多的讨论
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM