当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.7 PSM 2
最后还是kernel咱们之前在
RD的时候已经遇到过了
那么它也是一个加权的思想
kernel的思想是这样说
我这个也不用分层了
反正样本量
我也不去减少
我就怎么来讲
我就用这个
untreated group里面的人
我去给它虚拟一个加权的
这么一个人
使得这个人加权之后
形成的值
跟我们treatment group里面的人
它是相当的是可以匹配的
那么这个权重
我们算的 propensity
score的
倒数
也就是说
它的 score的差值
越近 我给它权重就越大
它的差值的越大
离得越远
我给的权重越小
说白了就是这样的一个思想
那么
用kernel加权之后 treatment
跟untreated这两个group的人
它们的分布
大家可以看到
这个左边是
八年级数学成绩
这个是它拟合的数学成绩
这个是
matching之前
这两个私立跟公立学校的学生
它们分布显然是不太一样的
但是大家看右边
matching之后
这两个分布就非常相似的
这个是基线成绩
八八年级的数学成绩是一个基线成绩
我们要看的是大家十二年级的成绩
那是outcome
所以就经过kernel的 match
也就是说白了就是一个加权
处理之后
它们的
比较可比了
因为它们的数学的成绩的分布
是非常一致的
那么这个时候它们唯一的差异就是
一个是去了
私立 一个是去了
公立 那么我们
去做这样的一个均值比较
加权之后的均值比较 还是用这kernel
就可以了
这个就是加权的这样的一个思想
那么上面就是这4种
具体的matching的方法
都是可行的
而且如果说白了
如果
数据比较稳健的话
这4种方法的结果应该也是非常的一致的
如果出现非常大的不一致
你要仔细来看
这个数据具有到底是什么问题
什么特点
为什么某一种方法
它这个结论差异非常大
是这个方法错了
还是这个数据有问题
好
那么这个是关于它的估算
看上去
PSM是不是特别好
它就可以用观测数据给我们
得出一个无偏的估计
对不对
我们就不用去费劲去做RCT了
对不对
我们就用观测数据
然后我们只要去跑PSM就可以了
对不对 同学们
是不是感到非常的
开心
那么事实上
其实我们说没有一个模型
它是assumption
free
那么
PSM它是有它的假设的
下面我们来看
PSM在什么时候下它才是有效的
它的假设是什么
这个是很重要的
如果这些不满足的话
我们前面的分析就算是按照
这个流程跑下来了
它这个结果也是不可信的
其中最重要的一步
其实是 first stage
大家看这是整个的 matching
的流程
首先我们要
去跑一个logistic
regression或者是
probit
regression
来去计算每一个个体的
propensity score
传出这个东西之后
我们去做一个正确的matching
然后我们才能够通过compare
matching之后的
outcome
的均值差异
来去估算unbiased
estimation
所以说一切源于什么
源于 propesity
score的计算
那么什么才能够保证我们
的倾向分数算对的呢
我们要两点算倾向分数的模型是正确的
我们用了
非常合适的正确的协变量
这个是
非常重要的
如果第一步的模型是错的
后面算的分数就不可信
就没有什么意义
你后面再怎么去match那个
都没有什么意义了
所以第一步是
是非常关键的
那么我们怎么来考察
第一步的模型是不是一个
valid model
最重要的一点就是它
covaries
因为这个模型的形态不太可能变
就是一个
选择模型
我们这里讲的是二元选择01的选择
当然现在也是可以做多元选择的
比如说我有5种选择
你也照样可以用PSM
只要选择选好你是
你的极限
跟哪一组去比就可以了
总而言之它就是选择模型
这个模型的形态基本上
是不会有太大的变化
那么这里面最关键的就是斜变量的选择
你这些协变量
它是不是能够很好地来去刻画
它的选择的概率
也就是说这些协变量
我们怎么判断它是好的协变量至少有两点
第一点是according
to theory
就是说根据理论
根据大家的观察或者根据实际的情况
这些变量确实是影响了
它的选择
这个是很重要的
第二点就是你来看数据的结果
就是跑完这个模型以后
这些形变量的系数
是不是显著
如果都不显著 那
说明就算理论上它是有影响的
但是在你的样本里面
这些
变量都没有影响到
这些个体的选择
这个也不行
所以这个就是covarious
的选择是非常重要的
第二个就是接着第一步
我们怎么来判断整个模型它是不是显著的
大大家都学过了
包括我们的卡方检验
对不对
那么还有
伪R方等等
那么我们要把这些
方程整体的统计性质
我们要看一下
如果所有的协变量都不显著
方程整体上往往也是不显著的
如果整个方程
它都不显著
那么你这个方程说白了
它连最基本的假设检验都没有通过
它这个方程是没有办法去解释
这个样本里面个体的选择的
这个时候你再去估算这些拟合值
propensity
score
都没有意义
这个是很重要的
听上去好像
大家有没有想到这样的例子
比如说我给你举个例子
假设
清华有一项改革
北大没有进行这样的一个改革
假设
那么
这是指我们只能观测到这样的数据
我们不可能做RCT
这个时候你回过头来想去说
用观测数据来去分析
改革的效果的时候
大家想一下
如果你用PSM你来去对比
你看清华跟北大的生源差不多
那么你想用一个PSM来去判断说
比如说通识教育改革是不是
那么你想判断下来去估算改革的效果
你想用北大样本作为它的一个
control group的话
是不是可行
以及你觉得哪些因素
导致了学生选择
去考清华还是考北大
说白了第一步的模型
因为通识教育它里面培养
了很多的通识的素养
那么
是不是在学生在择校的时候
就有一个自选择偏误
使得说就是选择清华和选择北大的学生
本来在这些同时教育的目标上
有一些差异
假设
如果有的话
我们希望控制住差异
那么就考虑到PSM模型
对不对
那么考虑到PSM模型
那么
我们就要去刻画它去选择
清华和北大的概率
对不对
作为倾向分数的计算的基础
你们觉得哪些因素
影响
决定一个学生是考清华还是考北大
来找个同学回答一下
其实特别希望你们就打开麦克直接说
老师
好 **说
虽然我不是负责过招生工作的同学
但是我对这个问题有一点想法
我觉得如果是我的话
我可能首先会做一个李克特量表
来衡量一下这个学生对
集体主义的接受程度
可能是它对于比如说
像是清华的精神和北大精神的这种区别
因为我跟学弟学妹们聊的时候
我发现其实它们对清华和北大
第一个认识是它自己是想学
工科还是想学文科这样的
但我觉得这个其实不是
不是重点要考虑的问题
我觉得更重要的是它对于学校文化的认识
因为对于一个高中生来说
它其实对大学也没有什么了解
它能够接受到的也就是这种
直观性上的认识了
这是我想说的
这个建议非常好
但是大家想一下作为研究者
当你回过头来拿着观测数据
想去做研究的时候
你手头有没有这个变量
也就是说在新生入学前
它的李克特量表
它就是对比如说集体主义
或者说它对文化校园文化的认同
这个数据你有没有
谁觉得自己手里现在有这个数据
也就是说这个地方有这样的数据困难
是不是我们手头会有什么数据
我们手头一般会有什么样
会有高考成绩 对不对
会有生源地
我觉得都不一定会有父母的家庭背景
这些信息可能都不一定会有
也许没有
可能
就这些信息
大家觉得刚才我们说的这些
管理数据库里面有的信息
就在新生入学前
我们不可能给它
尤其它在择校前
我们不可不太可能给它发问卷
那么这些信息是否能够
帮我们去判断它选择
清华还是北大
老师我可以补充一下吗
**你招生过吗
来说说我招过生
其实从现实的角度来讲
影响最大的因素是哪边
招生办下手比较快
当然撇开的话
其实
可能最重要的一个
我们现有的数据里边最重要的一个是
考生所在的高中
它们前面两三年是来清华
的多还是去北大的
这个是一个非常重要的数据
对
这就是一个是因为它们
可能比如说很多去北大
然后它们就会有很多学长学姐
北大的学长学姐来向它们
进行一些正面的宣传
这个是一个
另外一个就是
对于它喜欢的专业
哪个学校能够
在口头上有更大的概率让它上这个专业
打个比方
假如我想上经管
清华的经管还是北大的
光华和经院能够承诺
我说我能够更
更有可能上到理想的专业
但是这个也是我们现有的数据量表里
不是特别好去
预测的
我感觉如果要去设计这个模型的话
其实最合理的
看它所就读高中前几年
前几年来清华的还是去北大的
然后它们去了哪几个
专业
好 谢谢**
这些内幕我也不太清楚
因为我没有招过生
所以大家可以看到说刚才也有同学打弹幕
入学以后就能够有家庭背景和基本信息
那么我们如果能够拿到清华和
北大的数据库放在一起来看
就是说这个时候你要去挑
到底哪些变量
决定了它去选择清华还是北大
那么还有赵鑫建华都在
群里面说了很多因素
也就说大家想一下
这个时候
因为两个学校的竞争力是差不多的
那么生源质量也是差不多的
这个时候我们之前考虑的这种
影响择校的这些因素
比如家庭这个背景
高考成绩
这种可能让你去来去判断它是
上了一本还是二本这种因素
是不是在我们去这样的一个判断
它是上清华北大的时候
这些因素都不管用了
它可能就不是一个很好的模型
那么同学们建立一些建议的很好的变量
那么这些病是不是可获得
那么这个就是一个问题
如果这些变量能够获得是
我们就可以来看它是不是
能够显著的去预测学生
它到底是报考哪里
那么如果这些变量不可获得的话
大家想这个模型是不是做不下去了
因为这个模型它没有一个合适的变量
去保证我们能够去很好地估算它的概率
所以大家可以看到我用了一个极端的例子
用极端的例子就让大家看到
PSM的第一步
的模型是非常重要的
希望你们对此有一个非常深刻的印象
这是这个问题我们探讨到这里
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM