6.20 PSM workshop 4慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

Ok这个是我们刚才已经讨论过了

这是第一种思路

大家已经很清楚了

那么大家想一下

这个思路听上去很完美

就跑两个回归曲线对不对

然后就可以完成这件事情了

那么

这件事情要做成

就是这个模型要有效

这里面最关键的一点是什么

最关键一点是什么

是不是这两条拟合曲线要算对

大家想如果我们怎么去估算的

potential outcome

就是靠这两条拟合曲线来就不算的

对不对

如果这个拟合曲线估算错了

我们

基于它在算 potential

outcome这个值也是有偏的

对不对

我们在后面再去做做对比的话

就没有什么意义了

所以拟合曲线

怎么才能算对

也就是说我们 outcome

model

我们叫做outcome model

因为baby birth weight是outcome

Smoker

smoking它是

treatment

所以说这里面 outcome

model

要对也就是说我们拟合的

到底哪些因素影响baby birth

weight

这个方程我们要建模建成功要对

也就是说这里面的变量使用上是对的

当然一般我们假设是线性

如果是非线性也是可以

你非线性的话假设更强也要有相应的一些

依据

所以

如果

这个方程形式估算对了

那么这个方法还是蛮

简单明了的

但是如果这个方程形式没有估算

对

这个结果它就有问题

那么这是这个方法后面的假设

那么你要问说

我怎么知道它估算对了还是没有估算

对

这个就是一个我们一直在探讨的问题

对不对

你要从

各方面从理论上

从现实的这些经验上

以及从这些方程的形态散点图

和方程的

主要的一些统计量的这样的一个

评估上来去判断

好

这个是ra这种方法

我们再来看第二种方法

这个叫Ipw其实我们

之前接触过这种思想

inverse

probability

weighting

也就是说

我们不再去企图估算potential

outcome

因为它依赖于 outcome

model的方程形态

第二个我们估算的值是个拟合值

拟合值都在拟合曲线上

它也就是

也不全都是

非常真实它有一个离差

我们那块是估算不了的

那么我们还有一种思路

并不是说这个就比那个更好

而是说这是换一种思路来想这个问题

也就是说既然我们有一些点是永远

观测不到的，missing data的问题

那么我们就姑且认为它就是

missing的

我们不再去

企图去估算它了

但是我可以通过调整

能够观测到的数据的权重

那么把这样的一个可能的偏误

把它给纠正过来

IPW的思想

那么这张图就是非常形象了

这个propensity就是

咱们之前说的我们的倾向分数

probability

我们显然

可以做一个

logit或者是probit

model

来去估算每一个样本

每一个个体

它们吸烟的概率对不对

那么这个概率

它的倒数

就可以被我们当作权重来使用

那么

那么在这张图里面大家可以很明显的看到

这个显然

有 overlap这些

地方在比较中部的地方

它们的权重就会大一点

因为它们有overlap

它们能够

有相当于找到比较相似的

对照的

那么离得比较远的这些点

那么它们的权重就会小一点

因为它们其实在另外一侧是找不到

对照组

用给它太高的权重的偏物就会比较大

所以基本上就是一个这样的非常

straightforward的这样的一个想法

IPW

那么我们要做的工作

这个地方就说建模就不是建一个

outcome model了

这个地方建模是建一个

treatment model

也就是说刚才说的

probit model

或者logit model

那么我们是来估算它的每一个样本点

吸烟的概率

估算出这个来之后

那么对于所有的样本点

它的outcome baby

birth weight

我用这个概率的倒数

作为权重

我来求加权平均值

然后来看这两组人它的加权平均值的差值

这个就应该是一个纠正之后的

确认一下

认为应该是无偏的

如果这个方法是

没有问题的话

好

IPW的这样的一个思想

大家也没有问题

没有问题我们接着问

它有什么局限吗

或者说它

当然了你可以说它的适用的条件

就是说我们的 treatment

model要估算对不对

如果 treatment model

估算错了

就跟咱们上节课讨论的 p s m一样

如果第一步的算

probability的这样的

一个方程都是错的

没有找到最关键的变量来去预测它的

probability

那么显然这个方法还是没有办法用的

这是第一点

那么还有一点

还有一点也很重要大家想一下

凡是遇到倒数的时候你都要非常警觉

当我们做倒数的时候

最不喜欢的是分母趋向于什么

我们最不喜欢的是分母趋向于0

对不对

因为

当一个分数分母趋向于0的时候

整个分数的值就会趋向于无穷大

它就会变得非常的不稳定

所以如果我们算出来的

probability

0.01或者是0.001

这样的一个级别的

或者它是99.9%

因为

如果它是在untreated group

我们要算的时候可能要用到的是它的

一减去 p那么

所以说在两个极端如果估算出来的

probability在两个极端

要么就特别的倾向于0

要么就特别的趋向于1

这个时候都会导致

我们算的 inverse

Inverse

probability

它就说趋向于无穷大

使得这个权重变得非常的

震荡不稳定

那么在这种情况下

我们其实就

不太倾向于使用 IPW的方法

这个就是跟数据是有关的

数据里面样本它是什么情况

好

就这两点是 IPW要注意的

有没有问题

这个权重是没有办法验证怎么正确的

刚才说了

权重它的倾向分数的倒数

所以说倾向分数是不是对

就取决于这个方程对不对

是不是这个方程对不对

我们

就又回到对于方程的基本的判断了

就是说

它是不是符合这个理论

以及现实的经验是吧

然后这个方程整体上不是显着

等等

就一系列咱们上节课讨论过的那些问题

这么来决定

好

那么

上述的方法

它很重要的一个假设

就是assumption就是

iid假设独立重分布

那么

但实际上独立同分布

假设

在教育数据里面

比如说它是分层的

我们后面就会讲到分层

在分层的数据里面

或者说是在追踪数据里面

它是不能满足的

因为这些数据之间它是

correlated

这个是我们现在经常会遇到

的这样的一种情况

所以 iid假设往往是不能满足

那么它如果能够满足

条件独立可以

也就是说

我们穷举了

所有重要的变量

给定这些变量

我们能够观测到给定这些变量作为条件

那么这个outcome就独立了

如果是能够满足 c I这个条件

那也是可以的

所以这里关键前两个方程的关键

前两个方法的关键

都是要满足CI假设就是条件独立

也就是说我们确实能够观测到所有

能够决定它的outcome

和 treatment这样

的一些变量主要变量

那么给定这些变量作为条件

那么这个outcome

它是独立的

满足假设

那么其实假设也蛮强的

大家想一下

如果你遗漏了一些非常重要的变量

而移动变量之后

它们 outcome是

不是条件独立的

上面这样的方法也是不能使用的

所以这两个假设是

是很重要的

好

咱们先不接着讲了

我们先看一下数据

我们先动手

做一做

然后我们再回到PPT

请大家打开数据

打开data

还是我们上一次用过的数据

看头牛这个数据以及

把这个都非要打开

打开了吗

打开了可以再录入

或者是雨课堂里告诉我一声

好谢谢**

好

我们来看

我们现在看第16行

我们现在就不再去讨论 ps

match2软件包了

我们已经讨论过了

我们来看一下

首先我们先做一个简单的练习

大家看17行

17行就是一个逻辑回归

那么这个里面因变量

母亲是否吸烟

变量

那么自变量就是这4个变量

那么我们显然的去跑一个逻辑回归

我们就能够建模

当然你可以去评估模型好不好

等等我们讨论过了

接着我们用predict

命令 predict

我们新建一个变量叫ps

这个就是propensity

score

Predict的命令

我们来去算每一个样本

它吸烟的泥和纸

然后就把它算出来了

这是第二步

那么接着我们来算它的倾向分数

分别就是在它吸烟的情况下

它的气象分数是它的倒数

如果它不吸烟的话

它的气象分数一减是ps的倒数

所以大家把跑一下这个是个练习

其实我们真正做分析的时候

命令里面都已经把这些步骤

都已经包括在里面了

我们不用手动算这个东西

我们只是做这样的一个练习

大家可以跑一下

那么我们来看就是这个方程

整体上还是显著的

这个卡方是

显著度还是可以的

但是R方它其实没有那么高

这个也是很常见的

我们很多模型都是这个情况

这说明我们确实还有很多东西没有解释

大家对这个也要有敏感

那么具体的这些变量大部分都是显著的

我们放了4个变量

都是显著只有一个不显著

就是

h这个是

不显著的

那么这个是这个方程的情况

那么后面我们确实可以predict

probability

那么并且把它的

权重就算出来了

p s就可以当权重来使用

好

那么这是小练习

那么我们来看第23行

23行就是 t effects命令

treatment effects

命令

那么我们先来看 r a

大家想 regression

adjustment方法

它其实主要是估算了 outcome

model

对不对

那两条拟合曲线不是treatment

model

是outcome model

所以我们可以看到

就是

t effects它会有不同的估算方法

首先我们来定义告诉大家我用ra的方法

今天我specify

outcome

Model的形式是什么

也就是它的因变量和自变量分别是什么

这就是一个

跟这个很简单的一个回归

的这样的一个平台

第一个变量

因变量

后面变量都是自变量

当然我们现在选取的这些变量

我们不去做过多的解释它

是理论上是什么东西

这个并不是我们练习的关注点

你自己的研究的时候

你要好好想这些变量到底应该是什么

然后我们要告诉stata谁是

treatment

treatment的还是 MB smoke

但是这个我们并没有建模去model它

我们不需要建模model它对不对

我们只要告诉它就是一个

分组变量就可以了

因为我们只需要

去model拟合曲线

所以这个就是ra的方法

它的整个命令是这样来写的

那么大家把第23号命令

跑一下

6.20 PSM workshop 4在线视频

6.20 PSM workshop 4课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.20 PSM workshop 4笔记与讨论

也许你还感兴趣的课程: