当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.14 Q&A 4
**把它翻到下一页
好
第11题中同学们问的是
psm中匹配变量情况
筛选
然后匹配的方法有哪一些
不同的解决方法的话怎么取舍
然后这个题的话我们组参照了一个
别人写的一个就是关于
psm的一些处理方法
还有一些它的主要的综述
然后在这里面的话
我来总结一下
首先在咱们匹配变量里面
我们在这里面做一个非常重要的讲
非常重要的前提就是咱们条件独立假设
然后所以的话咱们再匹配选择这样的匹配
变量的过程中还是要尽可能的满足
但是他选择的方法的话还是
非常不同的
在首先在这文我们看到一个综述里面的话
以前第一个学者他
在1996年的时候
他
说到我们千万不要吝啬在这整个
选取匹配变量的过程中
他说
咱们
只有
和结果完全不相关
或者说你觉得咱们它是没有意义
的一些变量的时候的话
你才可以大胆的把它舍掉
但是对于一些变量的话
你还是尽可能的把它包含进去
然后这样的话如果你包含的变量太少
它可能会影响你的结果
然后这是第一个学者他的
然后第二个学者
第二个选择他也提到
他说如果我们遗漏掉一些
重要的变量之后的话
可能会影响我们最终结果的一个偏误
然后但是的话他说如果你的太多的结果
如果你把太多的变量包含进去之后
太多的变量包含进去之后
整个结果也会把它
方差增大
所以的话咱们这种选取方法
的话还是要依赖你
还是要根据你的
实验的数据来进行再进行取舍
然后下一页
然后接下来的话2012
年的另外一个学者
然后他又说
还有说
如果咱们在选择的过程中
如果你的参数过多的话
这种情况应该是要避免的
如果你的参数过多的话
它可能不会
如果你的参数过多
它可能不会对你的最终的结果造成偏误
但是它可能会增加你最终的方差
所以的话根据上面几个学者
然后他的一些文章里面他采取的数据以及
它使用了一些方法之后
我们得到结论
咱们目前你要选择具体的变量的话
具体的协变量直接的话
首先我们应该找一些重要的变量
比如说我们
根据生活常识或一些常见的结论
我们就可以得到这样的肯定是不能遗漏的
但是的话很多是要根据前人的一些理论
你看一下以前有没有做过相似的一些实验
或者说
多参考一些文献
同时的话也要根据以前
一是根据一些实际的理论
二的话是根据一些咱们之前
的经验来进行选取
所以的话匹配变量的选取没有
一个特别统一的方法
只能说
我们有一些标准去把它进行选择
然后翻到下一页
然后在这本书里面的话
有一个
学者的话给我们提供了
好几种方法
在这里面的话我找了两种我比较
理解的 然后
方法第一种还是说我们可以
在选取变量的过程中
我们可以
进行这种选种
第一种是利用一种选中或不选种的方法
然后也就是说
我们这些变量的话去选择的过程中
我们可以选
李姨你的声音没有了
老师
你有什么话吗
好的
你知道为什么一下黑屏了
好好 可能是网络问题
第一种的话是我们对于咱们
整个数据进行分析
然后分析的过程中
在分析的过程中采取一种
选中或不选种的方法
也就是说我们对于咱们所有的
数据进行分析的过程
分析的过程中
对于某些
能够选择的
变量
李烨
又听不到了
老师要不我讲先讲下面的
这还是第一次出现这种情况的
你们里发一个消息
他要是上线了
让他在聊天具体说一下
我就接着讲我这部分
然后是14题
然后他第一问是问说这两
种方法的区别是什么
然后首先 caliper
and redius的
matching
它其实是可以分为是
两个小的方法
一种就是caliper matching
然后另一种就是radius
matching
然后 caliber
matching他说是要找一个
开口
就是一个
在容差范围内
找他最近邻的就是
nontreated的
individual
然后作为它的一个match
而 radius match它就是说
在它半径范围内
的所有的他的nontreated
individual的一个加权平均
作为他的一个match
而第二种方法就是
stratification
and in interval
Matching
他这种方法其实就是说
在 common support的
前提下
然后将他的
将他所有的treated
group分为多少层
然后在层内
nontreated的是作为一个
a match
两种方法的主要的区别就是说
第一种方法它其实的一个
对象是一个individual
它 match的时候
它是对一个treated individual作为
进行match
而第二种方法
他的match对象
其实它是一个group的对象
然后
第一种方法它需要做的
就是你要确定它容差
的大小
而第二种方法它其实
确定的应该是你的层数
具体是这样
第二小问他问的说是
在这个方法里面怎么确定
它的分层的间隔呢
还是刚刚**说的那本小册子
小册子上面有提及
然后首先是1965年学者
他说是
如果是你的协变量
只是关联一个协变量
那么5个
层就基本上可以去掉95%的偏差
还有04年学学者说是
如果说是你的
propensity score已经是基本上
囊括了
基本上穷尽了所有的
协变量
并且所有的偏差都已经是相互关联的了
那么正常情况下
5个层基本上可以去掉大部分的偏差
然后还有学者说是
怎么来选择层
要检查两个balance
一个是
propensity score
on the balance
然后第二个
covariates
协变量变量的balance
然后第一步可以做先做一个
propennsity score
balance
然后如果 balance是符合的
那么接着要做的就是它协变量
的一个balance
然后协变量如果是
它是不平衡的话
那么要做的就是说你 propensity
score计算方法
计算的模型是有问题的
那么你就要重新来确定
这个模型是怎么样的
他说这边提到说是可以加一些
高阶项或者是交互项
刚刚**师姐也有提到
然后15题说是用什么方法
来评价psm的结果
是否可靠
PSM的结果它其实
分为两个方面来看
一个方面就是说他是否是无偏的
另一个方面是说它是否是有效的
无偏就是说他直接
有什么决定由他的匹配质量
他应该去
质量
这边就是他这本书上他
有提及到如何来评价
匹配质量有4种方法
一种就是一个标准化的偏差
就是说在匹配前和匹配后做一些变量的
一个差异
做了一个标准化的处理
然后来比较匹配前和匹配后的
差异大小的变化
从而来决定你这匹配质量是否是
好的
然后第二种办法就是一个t检验
它其实就是一个协变量
的 balance
看这个时间量
比如说前后
背后是否它差异是显著的
然后第三种方法就是一个
R方的一个方法
他说是如在匹配之后的样本
里面来重新进行计算它的
propensity score
然后通过这个方法计算
然后看他
两次的阿尔法
他的结果是怎么样的
然后第4种方法就是一个分层的检验
其实它就是在层内进行一个体检验
而第二个要点就是它的有效性检验
它其实是直接和它的
估计量的方差是有关系的
然后它的方差如果是越小
它的有效性其实是越高的
假如说是靶的话
它其实是
所有的靶的点是越集中的
就是它的有效性会很更高
而这个有效性它其实就是和
你的就是用的信息
的多少
其实有关的这些信息其实就是说你的
样本大小
还有你匹配量的多少是有关的
就这样
好
我看**是不是回来了
是的 老师我回来了
**讲完了吗 还没讲完是吧
是我讲
你讲完了就你一再去再翻回来
再让一你一讲
好 你讲
你可以讲吗
是的
好 老师我忘了看
好 讲的
刚才的时候说到了第一种方法的话
是学者为我们提供了一种
变量筛选方法
叫做遗漏或者是选择方法
它的意思就是说
咱们
这个变量它来选择它的选
咱们怎么选择匹配变量
选择匹配变量的话 它是
用来最大化样本类的正确预测率
然后这种方法的话它将一个
观察他如果咱们倾向得分大于样本的比例
然后咱们就把这种
就将观察者的话视为比如说
是唯一
然后如果他的
倾向性得分大于咱们小于样本的比例
我们就把它设为0
然后进行这样一种预测
然后把它归分类了之后的话
咱们
来利用这些变量
使得咱们样本内的
正确的预测率的话是最大
但是这种方法的话
咱们其他倾向性评分它估计的话主要不是
它的目的并不是尽可能的预测
预测咱们整个预测选择而
是平衡所有的协变量
这是第一种方法
第二种方法的话是利用
统计显著性
这种方法的话
在我们一般的任何的计量经济学
包括很多
很多的书里面都比较常见
它就是
他就是不断的在咱们整个模型
中添加一些变量来进行测试
如果新的变量在常规的水平之下
如果它具有显著的
统计的显著性的话
我们就把变量给保留
如果
它在常规视频上去不具有显著
的统计的显著性的话
我们就把变量给遗漏
在书上的话
这篇文章上作者提到的我
比较理解的两种方法
然后当然他还提到了其他的一些方法
我把这篇文章
这篇文章后面我把它贴上来了
如果大家有兴趣的话
我待会把它发到群里面
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM