6.18 PSM workshop 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

这个例子

大家看一下

它的讨论什么问题

就是母亲在

母亲是否抽烟

对于它的

婴儿的出生时的体重的影响

是这么一个问题

那么这是一个散点图

绿点儿 non smokers

它是不抽烟的

蓝点是

抽烟的 smokers

横轴

是母亲的年龄

纵轴是婴儿出生的体重

那么这个就是一个散点图

它其实是标了

它把颜色也算到一个维度

相当于是三个维度的特征

那么大家可以看到它明显

确实就是non smokers

它的婴儿的体重是要高一些的

我们当然认为婴儿体

婴儿体重高一点是

更好的

如果生下来体重特别低的话

可能也不是很健康

那么这是一个观察

那么第二个观察就发现母亲的

年龄就是它婴儿的年龄

那么这两个人群也不是完全一样的

那么smoker的年龄会

会偏大一点

也就是说就这两个样本

它其实是不一样的

那么这个里面当然就是母亲抽烟是

有一个自选择性的问题在里面

那么大家可以看到这张图

就跟上一张图的区别就在于

加了很多空心的圆圈

那么这个圆圈

其实就是我们补的

圆点的另外一种对应的

potential outcome

也就是说在现实中我们只能看到

potential outcome

的一种就是要么它是smoker的

时候

它的婴儿体重

要么是它non smoker

的时候的婴儿体重

但是另外一种情况我们是观测不到的

那么第二张图是给了一个理想

状态就是说用圆圈来代表

我们观测不到的

另外一种不代表outcome

的值是多少

假设我们如果能观测到的话

是不是我们就能够像刚才那张表格

一样简单的去求均值之差

或者差的均值

那么我们就可以把 a

p p给算出来了

是不是

这个就是我们想来尝试的

好这是这个故事

好大家现在

来到赛特

大家你们打开赛特

打开do file

打开

哪个数据呢

Cat打头的数据

这个数据在网上也可以下载

但是我们都给大家放到软件

包放到文件夹里面了

所以打开这个

c a t开头的数据

ps match two

研究者自己写的软件包

这个软件包其实是蛮好用的

所以我是昨天让大家提前下载安装

大家是不是都已经安装好这个软件包

并且打开了这个数据

准备好了

好非常棒

好我们来看一下

我们现在前面都不用跑了

我们从第10行help开始

help

大家可以看到 ps match2

软件包它的命令的格式是什么

样子

你们可以看一下

时间关系

就不给你们自己探索的时间了

我们一起来看一下

那么你们可以自己来看一下自己的屏幕

不一定看我的屏幕

因为我的屏幕可能会比较小

psmatch2

它的格式就是要先把

dependent

variable写出来

那么dependent的variable是谁的

dependent variable呢

分组变量就是treatment

也就是这里的 smoking

smoking也就是说分组变量就是

前面的 probit

model或者 logit

model

它是第一步

那么

它的

dependent

variable就是

smoking

然后independent

variable所有的就是决定了它

是否抽烟的

也就是说是否

接受treatment

是的这样的一个

这些协变量把它放在这里

后面可以加一些option

逗号之后outcome

Outcome

这个是我们就是婴儿体重

在这里我们要的outcome

它是最终我们要比较的变量

当然这个括号里它可以不止一个outcome

它可以同时比较多个outcome

所以这个是一个最基本的格式

其它不是我们

先不去深究

我们就可以慢慢再看

好那么我们来看第11行

大家看11行

根据这样的一个命令格式

mb smoke

Treatment母亲是不是

抽烟

后面是有几个

协变量

那么

协变量 label都在数据里面都有

时间关系

我们不去讨论它是不是合理

我们假设它是合理的

这个不是我们练习的重点

逗号

之后

outcome就是 birth

weight就是婴儿的出生体重

那么默认它用的是 nearest

neighbor

最近相邻法默认是用这种识别方法

当然你可以换方法

方法就用option就可以了

我们来跑一下第11行

大家都跑一下

跑下第11行

跑完之后

大家可以看下你的屏幕

你也可以看看我的屏幕

我们一起来看一下这个结果的解读

那么首先它这里报告的样本量包括样本量

包括了卡方检验和 placebo

R方都报告了

当然显著性是通过了

这个是第一阶段的方程

它用的是probit

默认是probit

当然你如果加logit

option的话

它跑就不logit

那么这个是所有的这些控制变量协变量

它的预测的效果整体是显著的

那么这个是第一步

那么我们看二第二个表格

是比较重要的表格

这个表格

它报告了

weight

Birth weight

在匹配前

和匹配之后

当然它默认求的是ATT但是你加

option之后它就会报ATE

ATE那么现在出的是ATT

那么

它的值 treated group

control group 均值

均值的差值

以及它的 standard error

都报告出来了

以及t检验的结果

那么这个是这么报告的

所以大家可以看到

在匹配之前

difference

它是负的275

也就是抽烟的

它的婴儿出生率

而且出婴儿出生的体重

要比不抽烟的母亲

它的婴儿的出生体重要低

275个单位

我们

而不去关心它的单位是多少

那么匹配之后值有所减小是241

那么

它依然是显著体检的结果

所以大家可以通过这个表格来去判断

那么 PSM的它的估算值的情况

那么这里

同时还用表格的形式报告了

common support

大家可以看到 common

support

这个位置

common support呢

报告了

on support的样本

Treated group里面

on support是多少人

untreated group里面囊括了多少人

总样本多少人

那么显然总样本所有的人它都是on support

所以说这个结果是比较好的

这是一个最基本的一些信息

就给我们报告出来了

好我们再回到do file

那么

这个很重要的一点就是我们要来看

ps match

之后它的效果好不好

我们刚才反复讨论了一个common

support

一个是 balance check

所以我们先看一下 balance

check

我们看一下第12行

12行它是在psm之后马上接

的一个命令叫ps test

ps test它就是你想来看哪些协变量

包括 publicity

school

这些协变量

它们在匹配前后

它们是不是

从一个ubbalanced的情况

变成了balanced的情况

这个就是第12行

给我们的

同时说明一下跑了第11行之后

这个stata会自动生成一个新的变量叫

p score

它就会把每一个样本的倾向分数给算出来

所以这个变量可以直接使用

所以大家把12行

跑一下

把12行跑一下

跑出来了

好我们先来看

我们先来看

output

那么它就报告了刚才我们

指定的这些协变量

包括p score

它们 balance的情况

U就是match之前

的 M就是麦式之后的

也是同样报告的treated的跟control的值

bias它们差值所占的比例

以及整个 match之后

它减少了多少bias

报告了一个百分比

以及后面就报告了 t t检验均

值比较以及 t检验的 p值

但是报告的它的方差的

比例我们就很少看了

所以大家来看前面的这一部分

比如说 p score我们就看这一个

它8月份是个百分比

就相当于差值

再做一次比跟均在做一次比

我们直接看 t检验的结果

在match之前

treatment

跟control它们的

倾向分数的均值之差是有显著的差异

但是在match之后

它的差异就非常小了

t统计量几乎等于0了

那么对应的 p t检验的 p值

是0.999

也就是很不显著了

那么同样大家来看其它的协变量

这个bias reduce是100%

那么看比如说 m married

age

parentall

等等这样的一些变量

那么

它们在匹配之前

可以看到

都是两组人是有显著差异的

就像我们刚才看散点图一样

这两群人确实非常不一样

但是在匹配之后

匹配之后

它的均值比较

就没有显著差异了

没有任何显著差异

所以匹配的效果是

是比较好的

同时stata还

还做了一张图出来

你们窗口可能也都看到这张图来了

这个就是我们在课上使用

的例子都是一样的图

那么可以看到

这张图

好够大了

在match之前

这些协变量包括

propensity score

它们在两组人之间的均值的差值

它是都是离0比较远的

离0比较远

这都是标准化之后的值

但在匹配之后

这小叉号基本上都在0的附近

这是一种非常形象直观的方法

来去考察的

好

这个就是对于balance的检验

好我们再回来do file

do file我们来看 common

support

common support检验刚才其实已经报了

对不对

在主结果里面已经报告出来了

common support所有

的样本都是on support

但是我们还可以看更详细的

我们来考察第13行

往13行跑一下

那么大家跑13行会看到这样的一个结果

这个也是我们

在讲课的时候使用的

但是数据不一样

它的形状也会不太一样

也就是说

在整个样本

所能够取到的 propensity

score的值的范围内

把它按照一定的小的区间分开

在每一个小的区间

我们来看它的频数分布

上面红色的是treated

下面蓝色是untreated

那么所有的

区间是既有红色的

也有蓝色的

那么也就说是它的on support

我们可以

来说common support是检验的是

通过的

当然前面最大的

propensity score它的样本量非常少

所以这个是这么来去做的

大家可以看到这个是非常好用很方便

所以

我们刚才其实是很快的

讨论了尝试了用 PSMatch

这样的一个软件包

怎么来去做一个

propensity score

matching

当然我们用的是最简单的方法

如果你要换方法的话

就是按照help文件里面来讲的

去换方法就可以了

换 match的方法

那么这个结果里面它其实把

matching的结果我们再来回顾

一下

把 matching的结果

以及把第一步probit

model它的性

但是 model的性能

都报告出来了

以及

common support

结果也都报告出来了

那么我们在estimation

之后的检验

我们可以用表的形式

用图的形式都分别可以呈现出来

那么这个就是一个最

标准

简洁的一个psm的分析

6.18 PSM workshop 2在线视频

6.18 PSM workshop 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.18 PSM workshop 2笔记与讨论

也许你还感兴趣的课程: