当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.19 PSM workshop 3
好同学们大家
上午好
我们今天先把
咱们上一周没有做完的关于PSM
的相关的workshop
我们先把它练习完
然后再开始讨论HLM的问题
我们先回顾一下咱们上节课讨论
的一个最基本的观察机制
也就是说
potential outcome
的问题
Potential outcome
我们都知道是在
individuals
接受
不同的treatment或者
是control的状态下
它的 outcome的值是多少
但是因为在观测数据里面
individuals它们
只能处于一种状态
要么就是看control group
要不就是在
treatment group
那么如果有多种treatment的话
它也只能选择一种treatment
所以虽然这个人它的特征就
决定了它在不同的状态下
不同的条件下
我们它会产生不同的outcome
但实际上在现实中我们只能观察到它
在一种条件下
以及它在这一种条件下的outcome
那么这个就是我们很早就讨论过
的 fundamental
problem
这个就是一个missing
data的问题
那么所以上节课我们
讨论了
假设我们能够观测到所有的
potential outcome
y0 y1 y2
我们就可以来算 y1跟y0的差值对吧
te1
还有y2
跟y0的差值
te2
那么这两列
across
individuals
那么这两列它的均值
分别是 treatment one
跟treatment2
ATE对不对
average treatment effect
这个是
我们上次讨论过的
那么ATT上节课我们也讨论了
ATT
ATT就是以
已经现实中接受了treatment
这一组
或者比如说treatment one
或者treatment two
那么在这样的一个基础上
我们以它为中心来看它
接受treatment
跟不接受treatment
它的差值是多少
那么这个叫ATT对不对
咱们上节课讨论过了
有没有问题大家
大家有问题就可以随时解开麦克说
那么
我们 workshop
要主要的讨论的是
ps match
还有更广义的这样的一些
利用观测数据来去做
准实验的这样的一些设计的方法
我们今天把它都过完
我们上节课已经讨论了
ps match的单独的
一个软件包还是非常好用的
那么我们今天主要是来了解
teffect命令
好
这个是咱们上节课用的例子
大家应该还有印象
我们来看
母亲她是否吸烟
对于它的婴儿出生体重
的影响
那么我们看到在这样的一个
二维图二维的图里面
散点又加了颜色来区分smoker
跟non smoker
这样的话相当于是个三维的图
我们可以看到它是明显的是分成两个
群体的 non smoker
它的
baby birth weight
是要明显的偏高一些
smoker它的 baby
birth weight要偏低一些
这是第一个观察
第二个观察就会发现
smoker跟nonsmoker
本身这两个人群
它也是有一些差异的
smoker
它的年龄是偏大的
Non smoker
年龄要偏小一些
那么这个是
这个是我们上节课观察到
也就是说 smoker跟non
smoker就是
它们选择是否抽烟
这个事情
它是有一个自选择性在里面的
并不是很随机的
那么我们简单的去比较smoker
跟non smoker
这两个人群它们的baby birth
weight
的均值之差
不见得都是跟smoking
有关的 对不对
因为可能它也跟生育年龄是有关的
那么
这两个因素就会混在一起
使得我们的估算
有偏差的
本质问题就是因为
我们观测不到
所有的 potential
outcome
大家看这张图
上节课我们也讨论过这张图
这个时点所有的实心的这些
圈是我们能够观测到的
那么虚空心的这些圈
我们观测不到的另外一种potential outcome
大家可以对应一下来看
这个是一一对应的
比如说我们随便说一下
换个颜色
比如说像来做的点
蓝色
它就是一个年龄偏大的生育是
年龄偏大的这么一个母亲
然后她是一个smoker
那么她在其实
在绿色的实心的圈的样本里面
找不到对应的跟她年龄非常一致的
这样的样本
那么而她自己本身如果她是一个
non smoker
如果她是non smoker
那么她的婴儿出生体重
应该是绿圈
就是这个圈
但是绿色的空心的圈我们是观测不到的
所以说如实心的圈加这些
空心的圈合在一起
才使我们的整个样本
它在两种
条件下 一个是smoker
一个是non smoker
它的婴儿出生体重分别是多少
就是两种potential
outcome我们都能观测到的
话
才能画出这张图来
大家这个是可以理解的吧
等会然后忘了开弹幕
好
有问题你就解开说
当然你也可以用弹幕或者是
ZOOM来提问都是可以的
Ok
那么大家想一下
如果我们能够有一个办法
虽然我们观测不到这些空心的这些圈
但是如果我们有一个办法
可以让我们估算出
这些空心的圈
是不是也非常好
这样的话我们就可以来进一步的来
去直接做这样的一个均值的对比
就可以了
不是因为直接做均值对比
我们刚才说了它是因为有选择的问题
有自选择的问题 所以
这个结果才是有偏的
但是如果我们能够把这些空心
的这些圈都估算出来
那么两这两组数据
蓝色的跟绿色的这两组数据
它的均值之差
它就应该很好的能够刻画出
吸烟对于
婴儿出生体重的影响
是不是
也就是说
如果能够实现这样的一种条件
大家来看
那么
我们就可以分别来去做这样的一个计算
那么这个就是我们要讨论的第一种方法叫
regression
adjustment method
r a method就是说
我们来做一个回归
这个理念是这样子的
我再把
注释打开
这个理念是这样子的
用绿色的
实心的
这些圈
做一个回归
得出绿色的拟合曲线
那么
这些蓝色的
这些实这些实心的这些圈这些样本
那么我已知它的年龄
我在这条绿色的泥河曲线上去
对应找到它的泥河池
这个是可以做的 是不是
那么我们就可以
算出估算出每一个蓝色的实心的这些圈
在如果她们是non smoker
她们的 baby birthday
是多少
对吧
比如说我们有这条绿色银行曲线了
那么比如说开始刚才那个圈
那么我知道它的年龄
我就套用绿色的这条拟合曲线
来去算它的拟合纸
当然实际上拟合值是在这个位置上
那么我们就
其实是在估算值
当然之间的
距离就是残差了
这个好不好理解
同样
我们用蓝色的这条实心的这些圈
我们也可以估算一条回归拟
合曲线蓝色的这条线视线
那么对于这些绿色的这些实心的圈
比如说这个圈
那么这个圈
那么
它的另外一种potential
outcome
我们就用蓝色的一个拟合曲线来去估算
它本来就对应在这个位置
但在如果用拟合曲线算的话就会落到这里
这个就是 r a的这样的一个基本思路
我们分别把这两条拟合曲线把它先做出来
然后再把另外一组
这一些样本的
它们的
观测不到的 output
outcome
把它给估算出来
这样的话我们再用
原始数据加上估算出来的另外
一种不再是阿特康合在一起
就构成了我们的新的样本
那么我们就用绿色的圈
所有的不用空心还是实心
因为它们就构成了整个的
potential outcome
这样的一个变量
用绿色的跟蓝色的均值来求差
这个就是我们
想要的 treatment
effect
这个思路大家这个清楚吧
好
那么如果没有人提问
我就来问
显然如果我们估算出这些
绿色的这些空心的圈和蓝色的空心圈之后
所有蓝色的这些样本跟绿色
的样本的均值之差
ATE average
treatment effect
因为它是在整个样本上
进行的这样的一个
估算
那么我想问大家
如果我想算 a t t every
treatment
effect on the
treaty
如果我想算ATT我怎么来算
有同学愿意回答吗
还是点名
还有几位同学在与课堂没有签到
咱们先随机点名
然后待会下一次咱就直接点没签到的名
我们来个随机点名
兴奋一下
**
来** 来
分享一下你的想法
如果我要求ATT你认为是哪些样本的差
是ATT
刚才咱们说了
所有的这些蓝色的样本点
实心的是观测到的虚心
空心的是我们估算出来的
这是一个样
就是一个群体
那么绿色的也是
那么这两个
两两这两个变量的均值之差
它们
它们就是我们的ATE
因为我们之前已经成功的把
project outcome给
估算出来了
并且我们在整个样本上做的均值之差
这个是ate
那么如果我们想要的是ATT
专门针对 treatment
group
就是现实中接受吹本这群人
在这里实际上就是smoker
蓝色的这群人
10点这群人
那么如果我想算它的 ATT
我应该用
哪些数据来计算呢
老师我确实是不太清楚
你来想 ATT的定义是什么
咱们讨论一学期了
Average
a treatment
on the
average
a treatment effect
on the treated
对
么on the treaty的
也就是说最后中界定界定就落在
了 on the treaty
也就是说是
针对已经接受treatment的这群人
我来算
treatment本身
对它带来的影响是吧
在这张图里面刚才已经有两个弹幕出来了
有同学把这个答案说出来了
说的很对
在这个图里面哪些
圈圈是代表的是
现实中接受treatment的人群
蓝色的实点
蓝色的实点对不对 Ok
如果我想算它的ATT的话
我还需要哪些数据才能够跟它作对照呢
应该是绿色的空心的部分
为什么是绿色空心呢
它从分布从
分数上来说
其实跟它们是类似的
但是是没有接受
具体
因为这些绿色的空心的这些圈
就是我们
拟合出来的这些蓝色实点的另外
一种不太是outcome
对不对
我们观测到的蓝色时点是它就是抽烟
那么它的potential outcome是多少
我们观测到了
那么她不抽烟
那么她的 baby birth
weight
另外一种potential outcome
是多少我们观测不到
但是我们把它给估算出来了
那么就是这些绿色的这些空心对不对
那么按照定义的话
就应该是这两种potential
outcome的差值
就应该是
针对这一个人群界定好的这样的一个
蓝色10点人群
它的 treatment
effect
对不对
这个就叫average
treatment effect
On the treated
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM