6.6 PSM 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

我们来讨论 PSM

PSM的我相信大家

对它的 intuition

已经掌握了我们在一个观测样本里面

我们根据学生的特点对它们进行匹配

使得能够进行匹配的这些人

它们其实是可比的

说白了非常形象可比的

就像这张图画的一样

那么这样的话它们的差值就

应该是treatment带来的差值

而不是它们自己其它的一些

特质所带来的这样的一个影响是吧

那么这个就是PSM的一个整体的思路

其实不同的文章是谈的技术问题比较多

所以对这个定义并没有做

太多的讨论

那么

PSM它说白了

在一个观测数据里面

去虚构了

或者是构造了一个

实验设计

那么它用到的技术统计的

匹配这样的一些技术

它的目的是为了减少观测数据中的

自选择偏误

那么这个就是它的主要的特点

估算

怎么去来用 PSM

它去分两步

第一步其实最重要就是来去做一个

倾向分数的一个估算

给每一个样本点

计算一下它选择treatment

的概率是多少

这个概率

就被定义为倾向分数

这个概率当然很好算

我们去跑一个

logistic

regression或者

probit regression

就可以了

y就是我们的treatment

如果你

去了私立学校就是1

如果没有去私立学校就是0

那么

用一组协变量

来去估算它去私立学校的概率

这个模型建好之后

它估算完之后

是不是我们就可以为每一个样本点去

算一个拟合值

拟合值就是它的概率

因为01是他的行为结果拟和

值，是一个0~1之间的值

是他的选择

去私立学校的概率

那么这个概率就被定义为

propensity score

那么这个是

简单的模型的set up

我们就不做讨论了

第二步

matching

第一步我们给每一个人算了

一个p score

propensity score

它不是 t检验的p score

那么

matching就是形象的来说

把这个分数非常接近的人

进行匹配也就是说我对于

treatment组的每一个样本

我都在contron group 找一个人

这个人他的倾向分数

跟 treatment的是非常接近的

最好相等不相等的也要接近

这样的话它就可以被定义为被选为

control group的人

那么最后界定出来的找到了这样

的一个control

它跟我们的treated group

就是可以

去比较的

那么再做一下比较就可以了

所以这就是第二步matching

这是一个非常形象的描述

所以

我觉得还是很有必要

在这个学期过半的时候

请大家做一个这样的

reflection

来记录一下

来去反思一下你的

合作式学习能力和在线学习的体验

有什么样的一些

体验想法 reflection

把它写下来好不好

次数没有限制

五一之后

提交到网络学堂

好吧

这个人

怎么样才能进步

要会反思

会反思的人就会总结

然后就会进步

不论做什么事情

所以反思的能力

是加德纳的多元智能理论里面

就是很重要的一种能力

所以我们也是非常希望大家有意识

的去提高自己的这种

反省反思能力

所以就给大家布置这么一个小任务

好不好

好咱们接着讨论 matching

Matching without

replacement

和with replacement

它有什么区别

我们来看

红色的三角是treatment

group的样本

竖轴就是它的 p

propensity

score

蓝色方块

untreated

并不等于

说它就control 对不对

因为control这个概念是control

group是在

实验设计里面就是一个实验你才会有的

untreated的人它要被经过选择之后

才可以进入我们的control group

所以大家在PSM的用语里面要注意

这个地方是用nontreated

non treatment

或者untreated

那么所谓 without

replacement就是说

蓝色的方块

如果它跟红色的三角

某一个红色三角它匹配

因为它们是具有它差不多的倾向分数

它被用过之后

它就不能再被重复使用

再去跟另外一个

样本进行匹配

如果它被重复使用的话

相当于它就相当于被复制两遍对不对

相当于它的权重就比较大

说白了就这个意思

那么

这个就会出现什么问题呢

这个也会比较明显

像

像蓝色方块

蓝色方块所处的位置

它跟红色三角匹配以后

它就不能再被使用了

这么说蓝色方块看上去更近一点

蓝色方块跟红色三角

匹配之后

它就不能再被使用了

但实际上它旁边红三角

就是左边这个红三角

也是跟蓝色方块

是离得最近的

但是它就不能再用蓝色方块了

它就只能找更远一点的蓝色方块了

那么其实大家可以明显看到

匹配的效果就不是那么好

因为我们说了

我们要找

在倾向分数上离它最近的这个人

所以这个是without

replacement的问题

那么with replacement

就是说

只要你离得最近的我就可以使用

不论它是不是已经被使用过了

所以在这里它可以看到这个蓝色方块

它就被用两次

这两个红三角都是跟同一个

蓝色方块匹配

也就是它就被用两次

也就是它的权重是2

其它的是1

有的像蓝色方块没有被用过的

它的权重可能就是0

做了这样的一个处理

而后者

with replacement

它其实是我们

主要来用的第一种其实我们是不用的

因为它有这样的一个匹配不好的问题

那么具体的匹配它的算法

我们常常见的有4种

一个促进相邻法

第二和第三个比较类似

第4个

我们也接触过

我们一个一个来看

最近相邻法就跟刚才画张图很像

我来找最近的就可以了

它是以个体为视角

那么在整个样本里面去寻找最近相邻的

无论它是不是

这个就重复使用

像这个点就被重复使用没关系

它就是去找

那么这里有一个问题就是说

如果某一个点比如说这个点

它的附近

在control里面没有合适的点

它就会跑到很远的地方去找一个

相对来说比较近的样本点

这样的一个匹配其实也不是一个

特别好的匹配

那么

因此我们就会想到

第二种方法就是 radius

这种matching

那么它是首先

先给了一个

比较小的范围

先给范围

大家看这些椭圆的这些圈圈先给一个范围

给了范围之后

在这个范围内部

如果有特别近的

这个点

我就匹配

如果没有的话

我干脆就不匹配了

它就是避免了

bad match

这个不好的匹配

那么这个是

在最近相邻的前提下

加了一个限制条件

大概是这样子

Matching里面的这种分层

我们叫做interval

它是什么

它说我就不去做这种个体的一个匹配了

我从就看 propensity

score对吧

它从0~1这里画就0.01~0.99

我把它细分成很多层

我分的足够细的话

其实每一层内部的它的倾向

分数是非常接近的

我就认为这两组人是差不多的

我就直接就算层内部的这两组人的

差值就可以了

算完之后

我还是用刚才咱们说的

这种加权平均的方法

我就可以算出总的样本上

的 ATT和ATE

都可以算出来了

这个就是跟刚才分层的很类似

只不过是刚才那个分层我们用的是

单独的变量

一个变量加一个变量加一个变量

这个时候我们用的是一个综合的分数

综合的分数就是倾向分数

用一个倾向分数

就代表了之前说的所有的会

影响到它择校的这些因素

但是后面的算法都是完全一致的一个思想

分层的这样的一种

匹配的方法

这个是比刚才那种分层要进步的

因为刚才那种分层

它会分出非常多的单元

有的单元可能就会没有样本点

那么

但是在这种情况下

我们只有一个综合分数用它来去

去分层

那么其实就不太可能会出现那种情况

而且综合分数也非常的有说服力

因为它是整体的倾向分数

说到底倾向分数是一个拟合值

拟合值就类似于是一组

自变量的加权平均值

对不对

所以说它也是有道理的

那么

分层

那么这个是咱们书上接着

刚才那个例子给的表格

那么在这里它的分层的依据

大家可以看到分成6个blog

分层的依据

它就是 propensity

score

因为样本里面也没有太高

可能最高就到0.2

所以它就把分成6层

那么这边就会计算每一层内部的

比如说样本量各种

这个值

比如说purpose school

income等等是baseline数学成绩

最后就算出每一层的

差值

对于差值

我们根据样本量

每一层的样本量

做加权平均

求出来的就是一个

一个matching的

这样的一个无偏估计吧

那么这个就是分层的一个

一个做法

6.6 PSM 1在线视频

6.6 PSM 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.6 PSM 1笔记与讨论

也许你还感兴趣的课程: