6.7 PSM 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

最后还是kernel咱们之前在

RD的时候已经遇到过了

那么它也是一个加权的思想

kernel的思想是这样说

我这个也不用分层了

反正样本量

我也不去减少

我就怎么来讲

我就用这个

untreated group里面的人

我去给它虚拟一个加权的

这么一个人

使得这个人加权之后

形成的值

跟我们treatment group里面的人

它是相当的是可以匹配的

那么这个权重

我们算的 propensity

score的

倒数

也就是说

它的 score的差值

越近我给它权重就越大

它的差值的越大

离得越远

我给的权重越小

说白了就是这样的一个思想

那么

用kernel加权之后 treatment

跟untreated这两个group的人

它们的分布

大家可以看到

这个左边是

八年级数学成绩

这个是它拟合的数学成绩

这个是

matching之前

这两个私立跟公立学校的学生

它们分布显然是不太一样的

但是大家看右边

matching之后

这两个分布就非常相似的

这个是基线成绩

八八年级的数学成绩是一个基线成绩

我们要看的是大家十二年级的成绩

那是outcome

所以就经过kernel的 match

也就是说白了就是一个加权

处理之后

它们的

比较可比了

因为它们的数学的成绩的分布

是非常一致的

那么这个时候它们唯一的差异就是

一个是去了

私立一个是去了

公立那么我们

去做这样的一个均值比较

加权之后的均值比较还是用这kernel

就可以了

这个就是加权的这样的一个思想

那么上面就是这4种

具体的matching的方法

都是可行的

而且如果说白了

如果

数据比较稳健的话

这4种方法的结果应该也是非常的一致的

如果出现非常大的不一致

你要仔细来看

这个数据具有到底是什么问题

什么特点

为什么某一种方法

它这个结论差异非常大

是这个方法错了

还是这个数据有问题

好

那么这个是关于它的估算

看上去

PSM是不是特别好

它就可以用观测数据给我们

得出一个无偏的估计

对不对

我们就不用去费劲去做RCT了

对不对

我们就用观测数据

然后我们只要去跑PSM就可以了

对不对同学们

是不是感到非常的

开心

那么事实上

其实我们说没有一个模型

它是assumption

free

那么

PSM它是有它的假设的

下面我们来看

PSM在什么时候下它才是有效的

它的假设是什么

这个是很重要的

如果这些不满足的话

我们前面的分析就算是按照

这个流程跑下来了

它这个结果也是不可信的

其中最重要的一步

其实是 first stage

大家看这是整个的 matching

的流程

首先我们要

去跑一个logistic

regression或者是

probit

regression

来去计算每一个个体的

propensity score

传出这个东西之后

我们去做一个正确的matching

然后我们才能够通过compare

matching之后的

outcome

的均值差异

来去估算unbiased

estimation

所以说一切源于什么

源于 propesity

score的计算

那么什么才能够保证我们

的倾向分数算对的呢

我们要两点算倾向分数的模型是正确的

我们用了

非常合适的正确的协变量

这个是

非常重要的

如果第一步的模型是错的

后面算的分数就不可信

就没有什么意义

你后面再怎么去match那个

都没有什么意义了

所以第一步是

是非常关键的

那么我们怎么来考察

第一步的模型是不是一个

valid model

最重要的一点就是它

covaries

因为这个模型的形态不太可能变

就是一个

选择模型

我们这里讲的是二元选择01的选择

当然现在也是可以做多元选择的

比如说我有5种选择

你也照样可以用PSM

只要选择选好你是

你的极限

跟哪一组去比就可以了

总而言之它就是选择模型

这个模型的形态基本上

是不会有太大的变化

那么这里面最关键的就是斜变量的选择

你这些协变量

它是不是能够很好地来去刻画

它的选择的概率

也就是说这些协变量

我们怎么判断它是好的协变量至少有两点

第一点是according

to theory

就是说根据理论

根据大家的观察或者根据实际的情况

这些变量确实是影响了

它的选择

这个是很重要的

第二点就是你来看数据的结果

就是跑完这个模型以后

这些形变量的系数

是不是显著

如果都不显著那

说明就算理论上它是有影响的

但是在你的样本里面

这些

变量都没有影响到

这些个体的选择

这个也不行

所以这个就是covarious

的选择是非常重要的

第二个就是接着第一步

我们怎么来判断整个模型它是不是显著的

大大家都学过了

包括我们的卡方检验

对不对

那么还有

伪R方等等

那么我们要把这些

方程整体的统计性质

我们要看一下

如果所有的协变量都不显著

方程整体上往往也是不显著的

如果整个方程

它都不显著

那么你这个方程说白了

它连最基本的假设检验都没有通过

它这个方程是没有办法去解释

这个样本里面个体的选择的

这个时候你再去估算这些拟合值

propensity

score

都没有意义

这个是很重要的

听上去好像

大家有没有想到这样的例子

比如说我给你举个例子

假设

清华有一项改革

北大没有进行这样的一个改革

假设

那么

这是指我们只能观测到这样的数据

我们不可能做RCT

这个时候你回过头来想去说

用观测数据来去分析

改革的效果的时候

大家想一下

如果你用PSM你来去对比

你看清华跟北大的生源差不多

那么你想用一个PSM来去判断说

比如说通识教育改革是不是

那么你想判断下来去估算改革的效果

你想用北大样本作为它的一个

control group的话

是不是可行

以及你觉得哪些因素

导致了学生选择

去考清华还是考北大

说白了第一步的模型

因为通识教育它里面培养

了很多的通识的素养

那么

是不是在学生在择校的时候

就有一个自选择偏误

使得说就是选择清华和选择北大的学生

本来在这些同时教育的目标上

有一些差异

假设

如果有的话

我们希望控制住差异

那么就考虑到PSM模型

对不对

那么考虑到PSM模型

那么

我们就要去刻画它去选择

清华和北大的概率

对不对

作为倾向分数的计算的基础

你们觉得哪些因素

影响

决定一个学生是考清华还是考北大

来找个同学回答一下

其实特别希望你们就打开麦克直接说

老师

好 **说

虽然我不是负责过招生工作的同学

但是我对这个问题有一点想法

我觉得如果是我的话

我可能首先会做一个李克特量表

来衡量一下这个学生对

集体主义的接受程度

可能是它对于比如说

像是清华的精神和北大精神的这种区别

因为我跟学弟学妹们聊的时候

我发现其实它们对清华和北大

第一个认识是它自己是想学

工科还是想学文科这样的

但我觉得这个其实不是

不是重点要考虑的问题

我觉得更重要的是它对于学校文化的认识

因为对于一个高中生来说

它其实对大学也没有什么了解

它能够接受到的也就是这种

直观性上的认识了

这是我想说的

这个建议非常好

但是大家想一下作为研究者

当你回过头来拿着观测数据

想去做研究的时候

你手头有没有这个变量

也就是说在新生入学前

它的李克特量表

它就是对比如说集体主义

或者说它对文化校园文化的认同

这个数据你有没有

谁觉得自己手里现在有这个数据

也就是说这个地方有这样的数据困难

是不是我们手头会有什么数据

我们手头一般会有什么样

会有高考成绩对不对

会有生源地

我觉得都不一定会有父母的家庭背景

这些信息可能都不一定会有

也许没有

可能

就这些信息

大家觉得刚才我们说的这些

管理数据库里面有的信息

就在新生入学前

我们不可能给它

尤其它在择校前

我们不可不太可能给它发问卷

那么这些信息是否能够

帮我们去判断它选择

清华还是北大

老师我可以补充一下吗

**你招生过吗

来说说我招过生

其实从现实的角度来讲

影响最大的因素是哪边

招生办下手比较快

当然撇开的话

其实

可能最重要的一个

我们现有的数据里边最重要的一个是

考生所在的高中

它们前面两三年是来清华

的多还是去北大的

这个是一个非常重要的数据

对

这就是一个是因为它们

可能比如说很多去北大

然后它们就会有很多学长学姐

北大的学长学姐来向它们

进行一些正面的宣传

这个是一个

另外一个就是

对于它喜欢的专业

哪个学校能够

在口头上有更大的概率让它上这个专业

打个比方

假如我想上经管

清华的经管还是北大的

光华和经院能够承诺

我说我能够更

更有可能上到理想的专业

但是这个也是我们现有的数据量表里

不是特别好去

预测的

我感觉如果要去设计这个模型的话

其实最合理的

看它所就读高中前几年

前几年来清华的还是去北大的

然后它们去了哪几个

专业

好谢谢**

这些内幕我也不太清楚

因为我没有招过生

所以大家可以看到说刚才也有同学打弹幕

入学以后就能够有家庭背景和基本信息

那么我们如果能够拿到清华和

北大的数据库放在一起来看

就是说这个时候你要去挑

到底哪些变量

决定了它去选择清华还是北大

那么还有赵鑫建华都在

群里面说了很多因素

也就说大家想一下

这个时候

因为两个学校的竞争力是差不多的

那么生源质量也是差不多的

这个时候我们之前考虑的这种

影响择校的这些因素

比如家庭这个背景

高考成绩

这种可能让你去来去判断它是

上了一本还是二本这种因素

是不是在我们去这样的一个判断

它是上清华北大的时候

这些因素都不管用了

它可能就不是一个很好的模型

那么同学们建立一些建议的很好的变量

那么这些病是不是可获得

那么这个就是一个问题

如果这些变量能够获得是

我们就可以来看它是不是

能够显著的去预测学生

它到底是报考哪里

那么如果这些变量不可获得的话

大家想这个模型是不是做不下去了

因为这个模型它没有一个合适的变量

去保证我们能够去很好地估算它的概率

所以大家可以看到我用了一个极端的例子

用极端的例子就让大家看到

PSM的第一步

的模型是非常重要的

希望你们对此有一个非常深刻的印象

这是这个问题我们探讨到这里

6.7 PSM 2在线视频

6.7 PSM 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.7 PSM 2笔记与讨论

也许你还感兴趣的课程: