当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.15 Q&A 5
然后下面一个的话他说匹配的方法有哪些
不同的匹配方法怎么取舍
常见的匹配方法的话
其实那天老师的PPT上说的比较清楚
比如最邻近
包括半径匹配
包括分层匹配以及咱们的权重匹配
也就是利用和匹配这样一些常见的方法
这有
4种常见的方法
然后不同的匹配方法的话怎么取舍
麻烦**翻到下一页
然后首先的话我们要明确一点
如果我们的样本量足够大的情况下的话
我们
不同的匹配方法应该能够产生
一个几乎相同的结果
也就是说只要我们的样本量足够大
你使用
哪种方法的话并不会影响你最终的结果
但是其实我们在做实验的过程中
样本量通常是不足
不会足够的
所以的话
咱们在一些小样本的是在一些
想要你的实验中的话
可能选取匹配方法的话就会
显得比较重要
我们明确一点就是没有一种方法是通吃的
就是没有一种方法他能够把所有的
咱们的问题都能够解决
所以的话
所以的话比如说我们如果咱们
只有非常少的几个样本
我们这时候如果你想用
你想不用代换的就
replacement
如果你想用
如果你想采取
不采用那种
代替的替换的方法的话
可能这样的话就是没有意义的
因为你的样本量太少了
如果你的样本量比较多的情况下的话
可能你才去咱们这种有替换
的方法的话也是可以的
所以的话我
我的想法就是我们可以采取
因为很多时候我们都是用代码去跑
你可以采取不同的方法多去试探一下
可能有时我们可以把两种或三种方法
都尝试一下之后的话是最好的
当然其实我们在做的过程中
就整个在选取方法的过程中
可能还是要有一个trade off 就是
在信度和效度方面的话
我们需要有一个平衡
就像后面这张图一样
好 这是第11题
11题的话
基本上这么多
好 然后是第13题
第13题的话
这个题刚才应该吴涵同学
里面讲的时候好像
有一部分重复
这个题相当于是他当时讲的一个小问题
他问的是在咱们匹配方法中
在这种安静匹配的方法中
如果范围内没有
可以匹配的点
那么个体的话就会从样本中去掉吗
还是有其他的
处理方法
这也就是我们刚才说的
其实我们可以尝试不同的
匹配方法
如果在范围内没有可以匹配的点的话
咱们个体的话他就不会参与
匹配在这种方法中
因此的话我们可以我的理解是我们
可以尝试一下其他的方法
比如说咱们这种方法不行的话
比如说分成方法
包括最邻近方法 还有一些
和密度的方法的话来进行匹配也是可以的
这是第13题
它和刚才**同学应该讲的
里面有大部分是重合的
然后这是我讲的部分
我刚才把我们主参考的文献
的话发到了群里面
然后里面同学们的问题的话都
应该大部分都被标出来了
同学们可以看一下
然后谢谢**同学
然后我回过头把12题然后再讲一下
然后12题他是问的说是
科诺尔迈趁他和密度匹配的具体
操作计算流程是怎么样
然后和密度图怎么样调整到最优
然后如何服务于群众
然后首先是它核密度
他的
方法其实就是先是标准化
然后标准化的操作其实
离你现在要吹要匹配的垂体的硬地为轴
距离最远的
给他付的是最小的一个权重
然后距离最近的其实是越来越大的权重
然后首先就是一个这样
对它和密度的一个
接着说是要对
你的最后的垂体的一般可进行计算的话
对用这个和密度再乘以
你的
不同
不同的匹配的
Non treated
individual的
我就靠乘以它的话
最后得出来的就是一个虚拟的
其实是一个反现实的
方式 反事实的一个
输出 就是outcome
然后用 outcome和treated
individual的 outcome进行一个
差值
差值的比较这个得出来的其实就是
一个个体下它的一个treated
treatment effect
它的一个计算的基本流程
那么和密度图怎么样调整到最优
其实就是一个和密度函数的选择和一个
带宽的选择问题
然后同步可以不停的使用不同的
密度函数和
它的带宽
然而后来调整它的
最优对
然后老师 PPT上面之前
那张图
他的核密度和
他八年级的
输出的那张图
它其实
我的理解是它其实是一个
covariance
就是写变量的 balance
然后通过对八年级成绩进行
了一个和密度的权重
加了一权重众之后
然后对他进行了一个调整
最后调整完之后他是
treat前和treat之后
它其实
treated和 nontreated的它其实是
形成了一个类似的
它的分布图
是这样的 好
12题是这样
接下来由**给大家讲
好的
我这边的话是从16题开始
其实之后的几题
这个解答一个主要的思路的话
在之前包括上一次同学其实都已经讲到了
然后我这边也是在做一个
回顾或者说是整理
比如说第16题同学问的
在我们完成匹配之后用什么
方法比较outcome
那么我们这里讨论同学
想问的这个东西可能
可能是我们在课上
比如说刚才小测里面也有做了
ATE和ATT的计算思路的问题
那么其实这里也是
在小测里面老师用的是1个
5个block的图
那么我这里刚好放的是
也是教材里面的同样一个
研究里面的图版
我们这里其实也就是
用什么方法来得出我们最后
effect的话
也就是用一个
因为分成了不同的block
那么block里面它会有一个
小的difference
然后我们为每个difference在
乘以它的一个
权重
然后再去进行一个
这个累加
就可以得出我们要做的treatment
那么ATT的话它其实就是一个
对于
treated就是
就是treatment group
这一部分的一个effect
那么它这里有一个区别
就是它的
争取的权重的问题
如果是算一级的话
那么它这里算的权重就是
每一组里面的 treatment
group它所占的比重
那么如果这里还有
对于思路方面不太清晰的
可以再往回看我们之前的一个课好像是
DID还是哪节课上讲的
选择性偏误
里面有详细的讲到
ATT的思路问题
然后麻烦**翻到下一页
在17题
PSM
的检验问题
其实在前面的几位同学也有反复提到
我这里再做一个梳理的话
其实这三个检验对应的是我们
psm里面前两个大的步骤
第一个因为我们要做匹配的话
我们就要得出他的一个
得分
也就是 p school
这里涉及的就是他的得出分数的模型
first stage
model里面
那么具体来讲这一步的检验
其实关系到两个层面
一个是选取哪些的协变量
它是否有理论依据以及在实证的
检验当中
它是不是有一个比较显著的
结果
然后第二个就是模型本身
他选我们选择的用不同协变量
然后再算出得分
它的模型是否实际
以及在实际的
计算当中它是否显著
那么第二
也就是在做match当中
这里就会涉及到
后面两个比较主要的检验
第一个就是common support这些
这也是前面包括我们下一期可能都要
重复讲到一个common support
那么我们在课上的话用两
个方式去进行的呈现
一个是横向的
一个是纵向图示
overlap
那么这里我们要做检验
其实也就是
让每一个treatment group里面的个体
他是否有对可配
这里要检验的是这么一个问题
那么在往上讲一点
我们为什么要做这
就要做检验
因为我们可能遇到的是
他某些个体
或者说我们再用分层的
PSM的去做的话
可能会某些层
他可能没有那些个体
那么这个时候我们会碰到一个问题
就是他
我们的做这estimation
它适用的范围是怎么样
那么如果他有缺失或者说
overlap上面检验
出来它确实有些问题的话
那么这个时候我们就要回过头去
再去看我们研究
研究的适用范围
那么第二 match里面涉及到第二大
块检验就是平衡性检验balance
那么这里的话也是我们有用两种方式
一个是直观的就下面放这个小的图
我们在做理想状态下
在做matching之前的话
那么两组之间它的
在各个协变量
包括最后取的 p score上面
它其实是差异
应该会有一定的差异
我们在
做了一个比较理想的match之后
那么也就是左边小图
他们之间的各项得分应该是
一个比较均衡的状态
那么如果说变成了右边这个小图的话
那么这个时候我们就要再回头看
我们前一步可能会是
模型的问题
那么我们这里就是一个balance
check
然后这就是psm的三个检验的问题
然后我们看18题
对
然后这里的话同学也是截了一个
刚好是common support里面这个图
那么同学问的是
我们在untreated里面个体数量不一样
是不是因为用了with
replacement的方法以及说
这样的不相等
是否
是否会产生偏误
那么这里的话我们要
要搞清楚的一个
我们做的匹斯克罗马琴 它
并不一定意味着两组的个体数量是
一样的
那么
关于这个是不是使用了 with
replacement
包括它是否偏物的话
其实是跟
完成别后我们
的方法匹配的方法
是根据这个方法而异的
然后这里我们可以
举两个小的例子
好 麻烦小心再点一下
对
然后我们如果是用最常用的
nearest neighbor
这个方法来看的话
如果说我们采取replacement
也就是小图上面放的
我们在一个treatment group里面
我们去把它
可能会对应到同一个
之前已经使用过的
control的个体的话
那么这个时候我们其实是通过这样
一个replacement去
提升了它的配对的一个质量
那么这个时候我们的偏差
或者说是偏误其实是变小了的
那么另一方面我们同时提高了
也是在我们刚前两题方面
bias和efficiency的图上
我们这个时候它的variance
就是它方差其实是提升的
那么这个方差对应的其实是一个
不是一个效率
而是一个信度的这样一个问题
那么如果说我们是在
certification用这样
另一种matching的方法来看
我们可能会面临的一个就是数量
相两组的数量相差比较大
这个情况的话
他是因为我们所采用的研究本身的性质
包括数据的问题
我们可能会在某一个分区
某一个分层之内可能就是找不到它对照体
那么这个时候的话他
它带来的一个后果是这层严重
就是严重来讲这一层可能会去缺失
那么它带来问题就是我们刚才
所讲的适用范围可能会
有所就是被限制到
那么这个时候我们可以说
他会
导致我们的偏差会有
会一定程度的影响
那么这里的话就是对于18题的一个解答
然后接下来的话是
请刘建我们解答最后两张图
这张图其实是没有加权之前的
就是样本本身的 common
support情况
他这个东西还没有匹配
他只是把这些事都算出来了
对不对
然后画了个频数分布图
对
这里其实也就是要分成两个来看
因为
我们说数量不相等
就是要一个是匹配过程中
当中
然后一个是完成匹配之后
那么这个图如果是匹配过程当中来看的话
刚才也是讲了
我们做卖身材并不意味着
两个数量是均等的
我们要匹配的是它的分数
有差别 然后
但是我们之间讨论的觉得这里他
要问的可能主要是在完成matching
之后
这样的不相等会不会产生一个偏误
对
这是一个两个
两个阶段不同
差异
数量不相等 倒是不会
产生偏误对吧
就是不需要
对跟不同匹配方法
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM