6.15 Q&A 5慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

然后下面一个的话他说匹配的方法有哪些

不同的匹配方法怎么取舍

常见的匹配方法的话

其实那天老师的PPT上说的比较清楚

比如最邻近

包括半径匹配

包括分层匹配以及咱们的权重匹配

也就是利用和匹配这样一些常见的方法

这有

4种常见的方法

然后不同的匹配方法的话怎么取舍

麻烦**翻到下一页

然后首先的话我们要明确一点

如果我们的样本量足够大的情况下的话

我们

不同的匹配方法应该能够产生

一个几乎相同的结果

也就是说只要我们的样本量足够大

你使用

哪种方法的话并不会影响你最终的结果

但是其实我们在做实验的过程中

样本量通常是不足

不会足够的

所以的话

咱们在一些小样本的是在一些

想要你的实验中的话

可能选取匹配方法的话就会

显得比较重要

我们明确一点就是没有一种方法是通吃的

就是没有一种方法他能够把所有的

咱们的问题都能够解决

所以的话

所以的话比如说我们如果咱们

只有非常少的几个样本

我们这时候如果你想用

你想不用代换的就

replacement

如果你想用

如果你想采取

不采用那种

代替的替换的方法的话

可能这样的话就是没有意义的

因为你的样本量太少了

如果你的样本量比较多的情况下的话

可能你才去咱们这种有替换

的方法的话也是可以的

所以的话我

我的想法就是我们可以采取

因为很多时候我们都是用代码去跑

你可以采取不同的方法多去试探一下

可能有时我们可以把两种或三种方法

都尝试一下之后的话是最好的

当然其实我们在做的过程中

就整个在选取方法的过程中

可能还是要有一个trade off 就是

在信度和效度方面的话

我们需要有一个平衡

就像后面这张图一样

好这是第11题

11题的话

基本上这么多

好然后是第13题

第13题的话

这个题刚才应该吴涵同学

里面讲的时候好像

有一部分重复

这个题相当于是他当时讲的一个小问题

他问的是在咱们匹配方法中

在这种安静匹配的方法中

如果范围内没有

可以匹配的点

那么个体的话就会从样本中去掉吗

还是有其他的

处理方法

这也就是我们刚才说的

其实我们可以尝试不同的

匹配方法

如果在范围内没有可以匹配的点的话

咱们个体的话他就不会参与

匹配在这种方法中

因此的话我们可以我的理解是我们

可以尝试一下其他的方法

比如说咱们这种方法不行的话

比如说分成方法

包括最邻近方法还有一些

和密度的方法的话来进行匹配也是可以的

这是第13题

它和刚才**同学应该讲的

里面有大部分是重合的

然后这是我讲的部分

我刚才把我们主参考的文献

的话发到了群里面

然后里面同学们的问题的话都

应该大部分都被标出来了

同学们可以看一下

然后谢谢**同学

然后我回过头把12题然后再讲一下

然后12题他是问的说是

科诺尔迈趁他和密度匹配的具体

操作计算流程是怎么样

然后和密度图怎么样调整到最优

然后如何服务于群众

然后首先是它核密度

他的

方法其实就是先是标准化

然后标准化的操作其实

离你现在要吹要匹配的垂体的硬地为轴

距离最远的

给他付的是最小的一个权重

然后距离最近的其实是越来越大的权重

然后首先就是一个这样

对它和密度的一个

接着说是要对

你的最后的垂体的一般可进行计算的话

对用这个和密度再乘以

你的

不同

不同的匹配的

Non treated

individual的

我就靠乘以它的话

最后得出来的就是一个虚拟的

其实是一个反现实的

方式反事实的一个

输出就是outcome

然后用 outcome和treated

individual的 outcome进行一个

差值

差值的比较这个得出来的其实就是

一个个体下它的一个treated

treatment effect

它的一个计算的基本流程

那么和密度图怎么样调整到最优

其实就是一个和密度函数的选择和一个

带宽的选择问题

然后同步可以不停的使用不同的

密度函数和

它的带宽

然而后来调整它的

最优对

然后老师 PPT上面之前

那张图

他的核密度和

他八年级的

输出的那张图

它其实

我的理解是它其实是一个

covariance

就是写变量的 balance

然后通过对八年级成绩进行

了一个和密度的权重

加了一权重众之后

然后对他进行了一个调整

最后调整完之后他是

treat前和treat之后

它其实

treated和 nontreated的它其实是

形成了一个类似的

它的分布图

是这样的好

12题是这样

接下来由**给大家讲

好的

我这边的话是从16题开始

其实之后的几题

这个解答一个主要的思路的话

在之前包括上一次同学其实都已经讲到了

然后我这边也是在做一个

回顾或者说是整理

比如说第16题同学问的

在我们完成匹配之后用什么

方法比较outcome

那么我们这里讨论同学

想问的这个东西可能

可能是我们在课上

比如说刚才小测里面也有做了

ATE和ATT的计算思路的问题

那么其实这里也是

在小测里面老师用的是1个

5个block的图

那么我这里刚好放的是

也是教材里面的同样一个

研究里面的图版

我们这里其实也就是

用什么方法来得出我们最后

effect的话

也就是用一个

因为分成了不同的block

那么block里面它会有一个

小的difference

然后我们为每个difference在

乘以它的一个

权重

然后再去进行一个

这个累加

就可以得出我们要做的treatment

那么ATT的话它其实就是一个

对于

treated就是

就是treatment group

这一部分的一个effect

那么它这里有一个区别

就是它的

争取的权重的问题

如果是算一级的话

那么它这里算的权重就是

每一组里面的 treatment

group它所占的比重

那么如果这里还有

对于思路方面不太清晰的

可以再往回看我们之前的一个课好像是

DID还是哪节课上讲的

选择性偏误

里面有详细的讲到

ATT的思路问题

然后麻烦**翻到下一页

在17题

PSM

的检验问题

其实在前面的几位同学也有反复提到

我这里再做一个梳理的话

其实这三个检验对应的是我们

psm里面前两个大的步骤

第一个因为我们要做匹配的话

我们就要得出他的一个

得分

也就是 p school

这里涉及的就是他的得出分数的模型

first stage

model里面

那么具体来讲这一步的检验

其实关系到两个层面

一个是选取哪些的协变量

它是否有理论依据以及在实证的

检验当中

它是不是有一个比较显著的

结果

然后第二个就是模型本身

他选我们选择的用不同协变量

然后再算出得分

它的模型是否实际

以及在实际的

计算当中它是否显著

那么第二

也就是在做match当中

这里就会涉及到

后面两个比较主要的检验

第一个就是common support这些

这也是前面包括我们下一期可能都要

重复讲到一个common support

那么我们在课上的话用两

个方式去进行的呈现

一个是横向的

一个是纵向图示

overlap

那么这里我们要做检验

其实也就是

让每一个treatment group里面的个体

他是否有对可配

这里要检验的是这么一个问题

那么在往上讲一点

我们为什么要做这

就要做检验

因为我们可能遇到的是

他某些个体

或者说我们再用分层的

PSM的去做的话

可能会某些层

他可能没有那些个体

那么这个时候我们会碰到一个问题

就是他

我们的做这estimation

它适用的范围是怎么样

那么如果他有缺失或者说

overlap上面检验

出来它确实有些问题的话

那么这个时候我们就要回过头去

再去看我们研究

研究的适用范围

那么第二 match里面涉及到第二大

块检验就是平衡性检验balance

那么这里的话也是我们有用两种方式

一个是直观的就下面放这个小的图

我们在做理想状态下

在做matching之前的话

那么两组之间它的

在各个协变量

包括最后取的 p score上面

它其实是差异

应该会有一定的差异

我们在

做了一个比较理想的match之后

那么也就是左边小图

他们之间的各项得分应该是

一个比较均衡的状态

那么如果说变成了右边这个小图的话

那么这个时候我们就要再回头看

我们前一步可能会是

模型的问题

那么我们这里就是一个balance

check

然后这就是psm的三个检验的问题

然后我们看18题

对

然后这里的话同学也是截了一个

刚好是common support里面这个图

那么同学问的是

我们在untreated里面个体数量不一样

是不是因为用了with

replacement的方法以及说

这样的不相等

是否

是否会产生偏误

那么这里的话我们要

要搞清楚的一个

我们做的匹斯克罗马琴它

并不一定意味着两组的个体数量是

一样的

那么

关于这个是不是使用了 with

replacement

包括它是否偏物的话

其实是跟

完成别后我们

的方法匹配的方法

是根据这个方法而异的

然后这里我们可以

举两个小的例子

好麻烦小心再点一下

对

然后我们如果是用最常用的

nearest neighbor

这个方法来看的话

如果说我们采取replacement

也就是小图上面放的

我们在一个treatment group里面

我们去把它

可能会对应到同一个

之前已经使用过的

control的个体的话

那么这个时候我们其实是通过这样

一个replacement去

提升了它的配对的一个质量

那么这个时候我们的偏差

或者说是偏误其实是变小了的

那么另一方面我们同时提高了

也是在我们刚前两题方面

bias和efficiency的图上

我们这个时候它的variance

就是它方差其实是提升的

那么这个方差对应的其实是一个

不是一个效率

而是一个信度的这样一个问题

那么如果说我们是在

certification用这样

另一种matching的方法来看

我们可能会面临的一个就是数量

相两组的数量相差比较大

这个情况的话

他是因为我们所采用的研究本身的性质

包括数据的问题

我们可能会在某一个分区

某一个分层之内可能就是找不到它对照体

那么这个时候的话他

它带来的一个后果是这层严重

就是严重来讲这一层可能会去缺失

那么它带来问题就是我们刚才

所讲的适用范围可能会

有所就是被限制到

那么这个时候我们可以说

他会

导致我们的偏差会有

会一定程度的影响

那么这里的话就是对于18题的一个解答

然后接下来的话是

请刘建我们解答最后两张图

这张图其实是没有加权之前的

就是样本本身的 common

support情况

他这个东西还没有匹配

他只是把这些事都算出来了

对不对

然后画了个频数分布图

对

这里其实也就是要分成两个来看

因为

我们说数量不相等

就是要一个是匹配过程中

当中

然后一个是完成匹配之后

那么这个图如果是匹配过程当中来看的话

刚才也是讲了

我们做卖身材并不意味着

两个数量是均等的

我们要匹配的是它的分数

有差别然后

但是我们之间讨论的觉得这里他

要问的可能主要是在完成matching

之后

这样的不相等会不会产生一个偏误

对

这是一个两个

两个阶段不同

差异

数量不相等倒是不会

产生偏误对吧

就是不需要

对跟不同匹配方法

6.15 Q&A 5在线视频

6.15 Q&A 5课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.15 Q&A 5笔记与讨论

也许你还感兴趣的课程: