当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.17 PSM workshop 1
我们先
简单的再讨论
关于 average treatment
effect, potential
outcome的几个概念
然后我们开始讨论 PSM的
上机的分析操作
那么这个之后
本来我们还有很大的一块是讨论
inverse
probability
waiting
还有 adjustment
regression也是
基于PSM不断衍生出来
的两种匹配的方法
但是显然这堂课是不能讨论的时间不够了
所以我们会放到下堂课接着讲
这个是这样的一个安排
因为前面 Q&A
我认为非常重要
这个时间不能省
因为这里面很多问题是
跟大家更多的这种
之前学过的知识
或者说是
接触过的一些对于观测数据的分析都
把知识连成一片了
讨论非常有价值
所以前面我们的时间花的多一点
我们就往后延一下就可以了
Ok
那么这个我们再回顾一下
我们最重要的概念
一个是 potential
outcome
一个是ATE还有是ATT
大家来看一下
在这样的一个表格里面
我们来看一下
这个y是我们观测到的值
y是观测到的值
t是treatment
t=0就是control
t=1是treatment one
t=2是他参加了
treatment two
他一共是两种treatment
那么y0是说如果它在control
group
他的 outcome是多少
y1是如果他接受了
第一种treatment
它的 outcome是多少
y2是他如果接受了
第二种treatment 它的outcome是多少
就是这样的一个表格
那么这里一共有5个样本点
就是5个个体的数据
这个
大家搞清楚了
就是这个表格
那么问题是我们的问题是
我们的问题是
请大家回答一下
在这样的一张表格里面
谁是
第一个treatment的ATE
我们怎么计算
第一个treatment的ATE
我们怎么计算
第二个treatment
的ATE平均处理效应
我们
请一位同学来回答 好不好
就刚才我解释了这三列
当然这里多了两列
这一点
te1
te1
他
大家可以看到是y1减去y0
然后 te2
它就是y2-y0
它就是差值
现在请大家来说一下
我们怎么来去计算
treatment one跟
treatment two的
平均处理效应
哪位同学愿意主动说一下
还是要靠点名
同学们
那就随机点个名
我们如果点到一组二组就跳过
**刚才是讲过了对吧
咱们继续点
我们点3组4组
来 **说一下
**你认为在这个表里面
刚才给了这么多列
谁是
我们怎么来算treatment1
treatment2的ATE
老师我觉得应该是
t等于1的时候
y1-y0
y1-y0
t等于1的时候就先给定t等于1是吧
然后用它的 y1-y0就是这个值
是吗
你是这意思吗
对
Treatment two
Treatment two的ATE
t=2的时候的y2-y0
也就是说是你的意思是
我们换个颜色说是这两个样本
它对应的y2-y0这两个值的均值是吗
对
很有意思 好
好 谢谢**
大家来看一下
对于y1和y2来讲
大家注意
y是我们观测到的值
对不对
Y0
和y2这三列是我们理论上真实的值
有一些是不可观测的
比如说
当对于第一个样本点
它t等于0的
对吧
它就是现实中它是t等于0的
那么这个时候我们就只能观测到它的y0
对不对
那么它的y1和y2我们就观测不到
那么对于第二个样本点
它是t等于1
那么这个时候现实中其实我们
只能关注到它的y1
对吧
就放在这儿就是y它就等于y1
第一个 y就等于y0
然后第三个
它是t2 t=2的话
我们就只能观测到y2
我们观测不到它的y0和y1对不对
因为这个就属于potential
outcome
但是
可能被观测到的
但是实际上因为它的现实中它的 t=2
所以我们最后观测到的y
y2
大家注意这一点
但是我们观测到这个人
他比如说接受了treatment1
那么基于他算的差值的平均值
它是不是ATE这个是
一个非常重要的问题
有没有同学
有其他想法的
我们有
5位同学没有签到
去掉一组二组
邀请**同学
来说一下你的想法是跟**是一样吗
老师
我是感觉
一开始我跟她的想法差不多
后来我觉得
但其他的潜在产出竟然有一个潜在那种
潜在的产出结果是不是也可以利用一下
然后
我可能会取一个加权值
就把所有的卡丢进去
加权
加权
但这里大家注意
**你的加权确实跟我们上节课讲的
包括刚才同学们分享的
这个思路是一致的
但是表格里面他是给的本来
就是各个组的均值了
他本来就是给了不同的子样本的均值
当我们重新求一个
population的均值的时候
我们说要加权
但是这里我们给的不是均值
就是每一个就是样本点的具体的值
就是说其实所谓加权
也就是说要回归到样本的原始的值来看
我到底用哪些人的数值
来去算均值
就是加权的本意 对不对
所以你在提到加权的时候
你的意思是什么呢
你要用哪些人
我其实就是问你要用哪些人的值
哪些人的哪些值来去算ATE
如果是处理结果一的话
就用 te1
然后
treatment2呢?
用te2。你就跟建华寺都是一样的是吗
对思路是一样的 对
但是它这不是有5个数吗
各有
对
我的意思是你这里没有权重的概念
权重是在
我对已经
to aggregate
的数据
把它重新回到样本
重新定义群体的时候
才会用到加权的概念
这里就是一个的个体
所以他没有权重可加
当时建华说如果算就算他只
考虑 t等于1的时候
比如说只有一个数
但是其他 te1的
比如说它有5个数
对 1个除了5个数
你想用你用哪1个
你想用1个数还是有5个数
这我是倾向于用5个数
1个数的话是不是感觉有点太单一了
是因为一个数单一是吧
我没列全
我再给你多列几个t等于1的
你会选择哪一个
老师我没有太细想过
好
谢谢**
谢谢你的
贡献
我们一再请一位同学再分享
一下想法
如果你现在也有不同的意见
你就直接写开麦克讲
因为我觉得点名是一个非常
浪费时间的事情
哪位同学有不同的想法
你现在就解开麦克说就可以了 好不好
如果你不说的话
我就只能点名
**刚才讲过了
**
我没有打开麦克
发现了这个问题
我在想既然都已经给出了
t等于0,t等于1这些情况
各种情况的一个预测的y1的值
为什么不能直接把t11从1.
56+0.29+~0.23
然后除以5
做ATE的treatment
one的
**你的建议就是说
t e1
只有这所有的这些样本
他的均值就是 treatment
one的ATE对不对
然后当然这一列就是它的均值就是
treatment two
的ATE是不是
对
好 谢谢**
那么但大家仔细想想
这是两个不同的方案
那么如果你现在还没有想清楚的话
我再给你抛一个问题
你怎么样去算 treatment
one的 ATT
还有treatment two
的 ATT
对不对
就这两个方案都会算出一个
均值
这个均值都是
这个y1跟y0的差值的均值
只不过是选择的样本不一样
一个是选择现实中接受了
1或者接受了2的样本
一个是我不管你现实中接受的是1还是2
我就算一个
总的
那么
他们的含义到底是什么
想想大家就是慢慢有答案了
**刚才说的
其实就是ATE
ATE它是对整个
population
的平均处理效益
那么刚才**和**说的
其实是ATT
我先
在样本中锁定
他已经接受了 treatment
那么我对于这个人群我来算
如果他没有接受treatment
它的值是多少
那么这两个值的差值
我们叫average treatment
effect on the
treatment
对不对
但是如果不考虑在现实中接受没接受
我只是看效应
treatment的平均处理效应
应该是**说的
那么应该是ATE的平均值
ATE
好
这个概念的讨论看来是很重要
大家对这个还是
不见得都是非常仔细的考虑过
那么这些概念
PSM都可以算
我们就要去看
我们要的是什么东西
当然这个里面是不是有一些是不可观测的
这个也是可能一开始建华
和张俊纠结的
比如说现实中我只能观测到y1的时候
我怎么能够算出来它的y0
对不对
因为我得知道她的外伶
我才知道Y1-Y0
包括它的外二是什么 我也不知道
这个时候我怎么能够
去算treatment2的ATE
这个是观测的机制问题
那么这个也是因为自选择的问题
导致的都是我们
要用PSM来去处理的
那么我们用一个例子
来很快的看一下
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM