当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.18 PSM workshop 2
好
这个例子
大家看一下
它的讨论什么问题
就是母亲在
母亲是否抽烟
对于它的
婴儿的出生时的体重的影响
是这么一个问题
那么这是一个散点图
绿点儿 non smokers
它是不抽烟的
蓝点是
抽烟的 smokers
横轴
是母亲的年龄
纵轴是婴儿出生的体重
那么这个就是一个散点图
它其实是标了
它把颜色也算到一个维度
相当于是三个维度的特征
那么大家可以看到它明显
确实就是non smokers
它的婴儿的体重是要高一些的
我们当然认为婴儿体
婴儿体重高一点是
更好的
如果生下来体重特别低的话
可能也不是很健康
那么这是一个观察
那么第二个观察就发现母亲的
年龄就是它婴儿的年龄
那么这两个人群也不是完全一样的
那么smoker的年龄会
会偏大一点
也就是说就这两个样本
它其实是不一样的
那么这个里面当然就是母亲抽烟是
有一个自选择性的问题在里面
那么大家可以看到这张图
就跟上一张图的区别就在于
加了很多空心的圆圈
那么这个圆圈
其实就是我们补的
圆点的另外一种对应的
potential outcome
也就是说在现实中我们只能看到
potential outcome
的一种就是要么它是smoker的
时候
它的婴儿体重
要么是它non smoker
的时候的婴儿体重
但是另外一种情况我们是观测不到的
那么第二张图是给了一个理想
状态就是说用圆圈来代表
我们观测不到的
另外一种不代表outcome
的值是多少
假设我们如果能观测到的话
是不是我们就能够像刚才那张表格
一样简单的去求均值之差
或者差的均值
那么我们就可以把 a
p p给算出来了
是不是
这个就是我们想来尝试的
好 这是这个故事
好 大家现在
来到赛特
大家你们打开赛特
打开do file
打开do file
打开
哪个数据呢
Cat打头的数据
这个数据在网上也可以下载
但是我们都给大家放到软件
包放到文件夹里面了
所以打开这个
c a t开头的数据
ps match two
研究者自己写的软件包
这个软件包其实是蛮好用的
所以我是昨天让大家提前下载安装
大家是不是都已经安装好这个软件包
并且打开了这个数据
准备好了
好 非常棒
好 我们来看一下
我们现在前面都不用跑了
我们从第10行help开始
help
大家可以看到 ps match2
软件包它的命令的格式是什么
样子
你们可以看一下
时间关系
就不给你们自己探索的时间了
我们一起来看一下
那么你们可以自己来看一下自己的屏幕
不一定看我的屏幕
因为我的屏幕可能会比较小
psmatch2
它的格式就是要先把
dependent
variable写出来
那么dependent的variable是谁的
dependent variable呢
分组变量就是treatment
也就是这里的 smoking
smoking也就是说分组变量就是
前面的 probit
model或者 logit
model
它是第一步
那么
它的
dependent
variable就是
smoking
然后independent
variable所有的就是决定了它
是否抽烟的
也就是说是否
接受treatment
是的 这样的一个
这些协变量把它放在这里
后面可以加一些option
逗号之后outcome
Outcome
这个是我们就是婴儿体重
在这里我们要的outcome
它是最终我们要比较的变量
当然这个括号里它可以不止一个outcome
它可以同时比较多个outcome
所以这个是一个最基本的格式
其它不是我们
先不去深究
我们就可以慢慢再看
好 那么我们来看第11行
大家看11行
根据这样的一个命令格式
mb smoke
Treatment母亲是不是
抽烟
后面是有几个
协变量
那么
协变量 label都在数据里面都有
时间关系
我们不去讨论它是不是合理
我们假设它是合理的
这个不是我们练习的重点
逗号
之后
outcome就是 birth
weight就是婴儿的出生体重
那么默认它用的是 nearest
neighbor
最近相邻法默认是用这种识别方法
当然你可以换方法
方法就用option就可以了
我们来跑一下第11行
大家都跑一下
跑下第11行
跑完之后
大家可以看下你的屏幕
你也可以看看我的屏幕
我们一起来看一下这个结果的解读
那么首先它这里报告的样本量包括样本量
包括了卡方检验和 placebo
R方都报告了
当然显著性是通过了
这个是第一阶段的方程
它用的是probit
默认是probit
当然你如果加logit
option的话
它跑就不logit
那么这个是所有的这些控制变量协变量
它的预测的效果整体是显著的
那么这个是第一步
那么我们看二第二个表格
是比较重要的表格
这个表格
它报告了
weight
Birth weight
在匹配前
和匹配之后
当然它默认求的是ATT但是你加
option之后它就会报ATE
ATE那么现在出的是ATT
那么
它的值 treated group
control group 均值
均值的差值
以及它的 standard error
都报告出来了
以及t检验的结果
那么这个是这么报告的
所以大家可以看到
在匹配之前
difference
它是负的275
也就是抽烟的
它的婴儿出生率
而且出婴儿出生的体重
要比不抽烟的母亲
它的婴儿的出生体重要低
275个单位
我们
而不去关心它的单位是多少
那么匹配之后值有所减小是241
那么
它依然是显著体检的结果
所以大家可以通过这个表格来去判断
那么 PSM的它的估算值的情况
那么这里
同时还用表格的形式报告了
common support
大家可以看到 common
support
这个位置
common support呢
报告了
on support的样本
Treated group里面
on support是多少人
untreated group里面囊括了多少人
总样本多少人
那么显然总样本所有的人它都是on support
所以说这个结果是比较好的
这是一个最基本的一些信息
就给我们报告出来了
好 我们再回到do file
那么
这个很重要的一点就是我们要来看
ps match
之后它的效果好不好
我们刚才反复讨论了一个common
support
一个是 balance check
所以我们先看一下 balance
check
我们看一下第12行
12行它是在psm之后马上接
的一个命令叫ps test
ps test它就是你想来看哪些协变量
包括 publicity
school
这些协变量
它们在匹配前后
它们是不是
从一个ubbalanced的情况
变成了balanced的情况
这个就是第12行
给我们的
同时说明一下跑了第11行之后
这个stata会自动生成一个新的变量叫
p score
它就会把每一个样本的倾向分数给算出来
所以这个变量可以直接使用
所以大家把12行
跑一下
把12行跑一下
跑出来了
好 我们先来看
我们先来看
output
那么它就报告了刚才我们
指定的这些协变量
包括p score
它们 balance的情况
U就是match之前
的 M就是麦式之后的
也是同样报告的treated的跟control的值
bias它们差值所占的比例
以及整个 match之后
它减少了多少bias
报告了一个百分比
以及后面就报告了 t t检验均
值比较以及 t检验的 p值
但是报告的它的方差的
比例我们就很少看了
所以大家来看前面的这一部分
比如说 p score我们就看这一个
它8月份是个百分比
就相当于差值
再做一次比跟均在做一次比
我们直接看 t检验的结果
在match之前
treatment
跟control它们的
倾向分数的均值之差是有显著的差异
但是在match之后
它的差异就非常小了
t统计量几乎等于0了
那么对应的 p t检验的 p值
是0.999
也就是很不显著了
那么同样大家来看其它的协变量
这个bias reduce是100%
那么看比如说 m married
age
parentall
等等这样的一些变量
那么
它们在匹配之前
可以看到
都是两组人是有显著差异的
就像我们刚才看散点图一样
这两群人确实非常不一样
但是在匹配之后
匹配之后
它的均值比较
就没有显著差异了
没有任何显著差异
所以匹配的效果是
是比较好的
同时stata还
还做了一张图出来
你们窗口可能也都看到这张图来了
这个就是我们在课上使用
的例子都是一样的图
那么可以看到
这张图
好 够大了
在match之前
这些协变量包括
propensity score
它们在两组人之间的均值的差值
它是都是离0比较远的
离0比较远
这都是标准化之后的值
但在匹配之后
这小叉号基本上都在0的附近
这是一种非常形象直观的方法
来去考察的
好
这个就是对于balance的检验
好 我们再回来do file
do file我们来看 common
support
common support检验刚才其实已经报了
对不对
在主结果里面已经报告出来了
common support所有
的样本都是on support
但是我们还可以看更详细的
我们来考察第13行
往13行跑一下
那么大家跑13行会看到这样的一个结果
这个也是我们
在讲课的时候使用的
但是数据不一样
它的形状也会不太一样
也就是说
在整个样本
所能够取到的 propensity
score的值的范围内
把它按照一定的小的区间分开
在每一个小的区间
我们来看它的频数分布
上面红色的是treated
下面蓝色是untreated
那么所有的
区间是既有红色的
也有蓝色的
那么也就说是它的on support
我们可以
来说common support是检验的是
通过的
当然前面最大的
propensity score它的样本量非常少
所以这个是这么来去做的
大家可以看到这个是非常好用很方便
所以
我们刚才其实是很快的
讨论了尝试了用 PSMatch
这样的一个软件包
怎么来去做一个
propensity score
matching
当然我们用的是最简单的方法
如果你要换方法的话
就是按照help文件里面来讲的
去换方法就可以了
换 match的方法
那么这个结果里面它其实把
matching的结果我们再来回顾
一下
把 matching的结果
以及把第一步probit
model它的性
但是 model的性能
都报告出来了
以及
common support
结果也都报告出来了
那么我们在estimation
之后的检验
我们可以用表的形式
用图的形式都分别可以呈现出来
那么这个就是一个最
标准
简洁的一个psm的分析
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM