当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.20 PSM workshop 4
Ok这个是我们刚才已经讨论过了
这是第一种思路
大家已经很清楚了
那么大家想一下
这个思路听上去很完美
就跑两个回归曲线对不对
然后就可以完成这件事情了
那么
这件事情要做成
就是这个模型要有效
这里面最关键的一点是什么
最关键一点是什么
是不是这两条拟合曲线要算对
大家想如果我们怎么去估算的
potential outcome
就是靠这两条拟合曲线来就不算的
对不对
如果这个拟合曲线估算错了
我们
基于它在算 potential
outcome这个值也是有偏的
对不对
我们在后面再去做做对比的话
就没有什么意义了
所以拟合曲线
怎么才能算 对
也就是说我们 outcome
model
我们叫做outcome model
因为baby birth weight是outcome
Smoker
smoking它是
treatment
所以说这里面 outcome
model
要对也就是说我们拟合的
到底哪些因素影响baby birth
weight
这个方程我们要建模建成功要对
也就是说这里面的变量使用上是对的
当然一般我们假设是线性
如果是非线性也是可以
你非线性的话假设更强也要有相应的一些
依据
所以
如果
这个方程形式估算对了
那么这个方法还是蛮
简单明了的
但是如果这个方程形式没有估算
对
这个结果它就有问题
那么这是这个方法后面的假设
那么你要问说
我怎么知道它估算对了还是没有估算
对
这个就是一个我们一直在探讨的问题
对不对
你要从
各方面从理论上
从现实的这些经验上
以及从这些方程的形态散点图
和方程的
主要的一些统计量的这样的一个
评估上来去判断
好
这个是ra这种方法
我们再来看第二种方法
这个叫Ipw其实我们
之前接触过这种思想
inverse
probability
weighting
也就是说
我们不再去企图估算potential
outcome
因为它依赖于 outcome
model的方程形态
第二个我们估算的值是个拟合值
拟合值都在拟合曲线上
它也就是
也不全都是
非常真实 它有一个离差
我们那块是估算不了的
那么我们还有一种思路
并不是说这个就比那个更好
而是说这是换一种思路来想这个问题
也就是说既然我们有一些点是永远
观测不到的,missing data的问题
那么我们就姑且认为它就是
missing的
我们不再去
企图去估算它了
但是我可以通过调整
能够观测到的数据的权重
那么把这样的一个可能的偏误
把它给纠正过来
IPW的思想
那么这张图就是非常形象了
这个propensity就是
咱们之前说的我们的倾向分数
probability
我们显然
可以做一个
logit或者是probit
model
来去估算每一个样本
每一个个体
它们吸烟的概率 对不对
那么这个概率
它的倒数
就可以被我们当作权重来使用
那么
那么在这张图里面大家可以很明显的看到
这个显然
有 overlap这些
地方在比较中部的地方
它们的权重就会大一点
因为它们有overlap
它们能够
有相当于找到比较相似的
对照的
那么离得比较远的这些点
那么它们的权重就会小一点
因为它们其实在另外一侧是找不到
对照组
用给它太高的权重的偏物就会比较大
所以基本上就是一个这样的非常
straightforward的这样的一个想法
IPW
那么我们要做的工作
这个地方就说建模就不是建一个
outcome model了
这个地方建模是建一个
treatment model
也就是说刚才说的
probit model
或者logit model
那么我们是来估算它的每一个样本点
吸烟的概率
估算出这个来之后
那么对于所有的样本点
它的outcome baby
birth weight
我用这个概率的倒数
作为权重
我来求加权平均值
然后来看这两组人它的加权平均值的差值
这个就应该是一个纠正之后的
确认一下
认为应该是无偏的
如果这个方法是
没有问题的话
好
IPW的这样的一个思想
大家也没有问题
没有问题我们接着问
它有什么局限吗
或者说它
当然了你可以说它的适用的条件
就是说我们的 treatment
model要估算对不对
如果 treatment model
估算错了
就跟咱们上节课讨论的 p s m一样
如果第一步的算
probability的这样的
一个方程都是错的
没有找到最关键的变量来去预测它的
probability
那么显然这个方法还是没有办法用的
这是第一点
那么还有一点
还有一点也很重要 大家想一下
凡是遇到倒数的时候你都要非常警觉
当我们做倒数的时候
最不喜欢的是分母趋向于什么
我们最不喜欢的是分母趋向于0
对不对
因为
当一个分数分母趋向于0的时候
整个分数的值就会趋向于无穷大
它就会变得非常的不稳定
所以如果我们算出来的
probability
0.01或者是0.001
这样的一个级别的
或者它是99.9%
因为
如果它是在untreated group
我们要算的时候可能要用到的是它的
一减去 p那么
所以说在两个极端如果估算出来的
probability在两个极端
要么就特别的倾向于0
要么就特别的趋向于1
这个时候都会导致
我们算的 inverse
Inverse
probability
它就说趋向于无穷大
使得这个权重变得非常的
震荡不稳定
那么在这种情况下
我们其实就
不太倾向于使用 IPW的方法
这个就是跟数据是有关的
数据里面样本它是什么情况
好
就这两点是 IPW要注意的
有没有问题
这个权重是没有办法验证怎么正确的
刚才说了
权重它的倾向分数的倒数
所以说倾向分数是不是对
就取决于这个方程对不对
是不是 这个方程对不对
我们
就又回到对于方程的基本的判断了
就是说
它是不是符合这个理论
以及现实的经验是吧
然后这个方程整体上不是显着
等等
就一系列咱们上节课讨论过的那些问题
这么来决定
好
那么
上述的方法
它很重要的一个假设
就是assumption就是
iid假设独立重分布
那么
但实际上独立同分布
假设
在教育数据里面
比如说它是分层的
我们后面就会讲到分层
在分层的数据里面
或者说是在追踪数据里面
它是不能满足的
因为这些数据之间它是
correlated
这个是我们现在经常会遇到
的这样的一种情况
所以 iid假设往往是不能满足
那么它如果能够满足
条件独立可以
也就是说
我们穷举了
所有重要的变量
给定这些变量
我们能够观测到给定这些变量作为条件
那么这个outcome就独立了
如果是能够满足 c I这个条件
那也是可以的
所以这里关键前两个方程的关键
前两个方法的关键
都是要满足CI假设就是条件独立
也就是说我们确实能够观测到所有
能够决定它的outcome
和 treatment这样
的一些变量主要变量
那么给定这些变量作为条件
那么这个outcome
它是独立的
满足假设
那么其实假设也蛮强的
大家想一下
如果你遗漏了一些非常重要的变量
而移动变量之后
它们 outcome是
不是条件独立的
上面这样的方法也是不能使用的
所以这两个假设是
是很重要的
好
咱们先不接着讲了
我们先看一下数据
我们先动手
做一做
然后我们再回到PPT
请大家打开数据
打开data
还是我们上一次用过的数据
看头牛这个数据以及
把这个都非要打开
打开了吗
打开了可以再录入
或者是雨课堂里告诉我一声
好 谢谢**
好
我们来看
我们现在看第16行
我们现在就不再去讨论 ps
match2软件包了
我们已经讨论过了
我们来看一下
首先我们先做一个简单的练习
大家看17行
17行就是一个逻辑回归
那么这个里面因变量
母亲是否吸烟
变量
那么自变量就是这4个变量
那么我们显然的去跑一个逻辑回归
我们就能够建模
当然你可以去评估模型好不好
等等我们讨论过了
接着我们用predict
命令 predict
我们新建一个变量叫ps
这个就是propensity
score
Predict的命令
我们来去算每一个样本
它吸烟的泥和纸
然后就把它算出来了
这是第二步
那么接着我们来算它的倾向分数
分别就是在它吸烟的情况下
它的气象分数是它的倒数
如果它不吸烟的话
它的气象分数一减是ps的倒数
所以大家把跑一下这个是个练习
其实我们真正做分析的时候
命令里面都已经把这些步骤
都已经包括在里面了
我们不用手动算这个东西
我们只是做这样的一个练习
大家可以跑一下
那么我们来看就是这个方程
整体上还是显著的
这个卡方是
显著度还是可以的
但是R方它其实没有那么高
这个也是很常见的
我们很多模型都是这个情况
这说明我们确实还有很多东西没有解释
大家对这个也要有敏感
那么具体的这些变量大部分都是显著的
我们放了4个变量
都是显著 只有一个不显著
就是
h这个是
不显著的
那么这个是这个方程的情况
那么后面我们确实可以predict
probability
那么并且把它的
权重就算出来了
p s就可以当权重来使用
好
那么这是小练习
那么我们来看第23行
23行就是 t effects命令
treatment effects
命令
那么我们先来看 r a
大家想 regression
adjustment方法
它其实主要是估算了 outcome
model
对不对
那两条拟合曲线不是treatment
model
是outcome model
所以我们可以看到
就是
t effects它会有不同的估算方法
首先我们来定义告诉大家我用ra的方法
今天我specify
outcome
Model的形式是什么
也就是它的因变量和自变量分别是什么
这就是一个
跟这个很简单的一个回归
的这样的一个平台
第一个变量
因变量
后面变量都是自变量
当然我们现在选取的这些变量
我们不去做过多的解释它
是理论上是什么东西
这个并不是我们练习的关注点
你自己的研究的时候
你要好好想这些变量到底应该是什么
然后我们要告诉stata谁是
treatment
treatment的还是 MB smoke
但是这个我们并没有建模去model它
我们不需要建模model它对不对
我们只要告诉它就是一个
分组变量就可以了
因为我们只需要
去model拟合曲线
所以这个就是ra的方法
它的整个命令是这样来写的
那么大家把第23号命令
跑一下
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM