6.13 Q&A 3慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

我们来看一下第7题和第8题

然后

这两个题就是我们作业里面的两道题

然后可能大家也比较

熟悉了

我就简单的给大家讲一下

第7题问的就是说

有没有必要去检查这个样本它

在倾向分数上面的分布

然后为原因是什么

然后刚才**也提到了

有一个情况就是总样本

量

其实它对应的样本量可能会出现

总样本量很大

它是共同取值范围很小的情况

所以我们要关注一下 overlap

的问题

Overlap of the

distribution意思就是说

实验组和非实验组在

每个倾向分数上都是有人群分布的

就是说两组共同受到了

共同的协变量的影响

这两组的人是相似并且可比的

这样的话我们才能

得出这两组人在不同层级上面的差异

进而得出总体的差异

其实右边这张图的右边这部分

老师上课也提到过

其实就是没有满足

这样的一个情况

我们其实是不希望出现这种情况的

但如果说出现了的话

我们就缩小我们要说明的

对象的范围

对最后这个结论进行一个修正

然后是第8第8题问的是

倾向评分的加权分析法

它

的基本思想是什么

然后我们为什么要用它

然后如何去计算我们权重

倾向评分的加权方法其实是将

倾向评分与传统的标准化的方法

结合的一种新型的分析方法

它的原理其实就是

我们知道倾向评分的加权法

首先是将

多个

混杂变量的信息

综合成一个

一个变量

然后来进行评分

然后将

倾向评分作为需要平衡的一个很大因素

通过标准化的原理去加权

然后使每个对比组的倾向

评分的分布是一致的

然后接下来达到各个混杂的因素在

各个组的分布也是一致的目的

具体的话其实就是把将每一个

每一个观察的单位看作是一层

然后不同的倾向评分预示着在这一

观察单位两组的概率是不同的

在假定

不存在

是未识别的混杂因素的条件下

加权的方法是基于

在一定条件下两种相反时间

的对比来进行调整的

利用倾向评分估计的权重

对各个

观察单位的加权产生了

一个虚拟的标准人群

在虚拟的人群当中

两组的混杂因素是趋于一致的

接近于我们预先选定的

一个标准的人口分布

然后根据我们选定的标准人群的不同

调整的方法也有所不同

具体来说的话

可以分为两

一个是逆概率加权法

一个是标准化死亡比加权法

这两种方法的话

第一种方法它是

以所有观察对象为标准人群去进行调整

然后对实验组和观察组进行加权

第二种方法是以

处理组的对象作为

标准人群去进行调整

然后具体

这两种方法的计算的

步骤都放在了上面

然后大家也可以去看

我们教材上面也有很详细的介绍

通过这样的一个计算之后

我们

在加权之后

就每一个观察单位的权数就可以计算出来

这样就可以

每个观察单位进行加权之后

用传统的方法来进行效应估计

这种方法的优点主要是和传统

传统的方法去对比来看的

因为传统的方法它

要求的我们存在的核心因素不能太多

并且混杂因素不能是连续变量

否则

在分层的时候会

很麻烦没有办法实现

但是

倾向评分是由

由于将许多的变量综合成一个变量

因此即使是同时分析比较多的混杂

变量或者是连续性变量的话

也不会增加分析的难度

而克服了原有的这种方法的局限性

通常情况下

这两种方法估计出来的结果应该是一致的

但如果说

比如说处理有影响处理因素

分配的重要混杂变量

或者说

交互项没有纳入到模型

当中或者说混杂因素

对处理效应具有比较强的修饰作用的时候

这两种方法的结果会存在差异

这种时候我们就要具体去分析

我们这个结果应该是怎么去调整

大家有没有问题

第9题的话其实它是一个

关于倾向分数

配的问题

我理解的这位同学的问题主要

是做层内同质性以及

城层内不平衡应该怎么办

我觉得回答这个问题可能是要先明确

一下倾向共同体应该怎么做

在这个过程中可能就会

自然的会回答到这两个问题

那么首先

根据

我们会根据协变量和旧处理分组计算

就是倾向分

或倾向

然后将分值进行一个

排序

按照他的百分位数或者是其他的方法

然后将全部的研究的对象划分为就若干的

一般情况下书上有提到

说5组以上5组左右应该就

可以解决90%的一个

就是偏差问题

一般情况下应该在5~10层之内

可能然后研究者会根据

两组人的倾向评分

或者是其中一组人的倾向评分

然后来确定每组的一个

临界值

比如说为了直观一点

我们可以看一下左边的这张

图

然后有研究者可能就确定

了6个层就这样子

然后每个层它会有

就一个临界值

然后在每一层中

然后我们要对两组的就是鞋变那样

和倾向分数进行一个均衡性的分析

就看它是否达到了一个

首先第一个是要看他们是否符合共同支撑

也就是说比如说以左边这张图为例的话

就看每个

城里面是不是都有样本落入到

这个里面

就是每一组里面

然后再看一下它的平衡

假设比如说匹配之后可以

先看一下它的匹配分数

二者之间

比如说这一张天主教

和公立学校的学生

然后他们在倾向分数上面是不是

有那种显著性的差异

然后我们

需要就对比如说连续性协变量

做方差分析或者是t检验

然后对分类的协变量也要

做一下卡方检验等等

他如果说是均衡性比较差

没有达到那种均衡差异比较显着的话

那么我们需要做什么考虑重新分层

就是说我们这个层可能

我们现在分的是不好的

或者是修改原来的模型

然后重新计算

他的一个倾向分数

比如说可以通过在模型中

增加或者减少某些协变量或者交互项

以我们书中的一个例子来看

麻烦翻一下下一页

好谢谢

可以看一下左边的这张图

然后以我们梳妆的例子来看的话

就是研究者他本来假定的一个模型是a

然后可以看见它其实是把家庭收入和她

八年级的成绩以及交互二者的交互项

纳入到了里面

这是他原始的一个模型设定

但是他后来在这个模型上面它是把

组分为5组

但是后来他发现这里面

就始终有那么一组到两组

在家庭收入的那一个协变量

上面没有办法达到平衡

所以他就回来修改了他的一个原始的模型

然后他把我

标红色框框的这一部分

它是把家庭收入的平方又

纳入到了这个模型当中

然后重新计算了一下它的一个

倾向分数

然后再重新把它分为了6组

其实

分完的时候也就是刚才我们

看到的那张图就是6组

然后每一组都已经达到了一个平衡

这就是我们发现如果说我们

各层因素不平衡之后

我们应该就是如何处理的一个

方法这个样子

对

然后对于他第一个问题就是

层内同质性比较低的话

我们小组是这样觉得

在满足了它既满足共同支撑

共同支持又有满足平衡

假设之后

组内的同志就组内的所有样本

他可能都已经限制在了一定

的倾向分数范围之内

其一般情况下可能不太会出现

抑制性特别强的情况

但是我在网上看到了一个

帖子

他说如果真的出现了组内

它实在是找不到匹配的一个样本

那么这个样本的话可能就会被抛弃掉

就不把它纳入到分析里面

我不太确定就是他说的是不是很科学

我们上节课讨论过

相当于他找不到common support对不对

找不到common support的样本

我们就把它扔掉了

对

所以主要如果要是实在没有的话

然后你就把它给抛弃掉

然后下面是第10题

第10题它问的是 logistics

和

probit的模型

我们应该怎么选这样的一个问题

我想首先先

说一下这两个模型的区别

然后再说一下

然后倾向分

去得分配配对当中我们应该选择哪一种

这两个模型它是有什么关系

他们是离散选择模型里面

比较常用的两个模型

主要是针对的是因变量是01变量

当然如果我们因变量是那种比较多的

比如012就分了几类的那种

我们可以选择 logic

或者是其他的一些模型来做

但是它二者之间其实是

没有本质的区别的

然后但如果一定要说区别的话

可能还是主要是有两个

第一个就是二者的一个分布函数

它是不同的

然后

logic的模型它是假设

函数是符合一个逻辑分布的

累计分布函数就是

而probit它是假设函数是符合

一个标准正态的累计分布函数

这里的p就是p是我们

核心就是

我在这边列的式子当中的 p

是我们核心关注的一个结果

也就是结局发生的概率

然后因为

logistics它是一个

log of it的函数

然后y它是

log

然后括号p然后除以1-p这么一个

式子

然后因此我们最后求出来的P的话

我在这边列出来的

不知道能不能

看好像

有用

好像选择不了可以画的笔

可以你选择 PPT的右下角

因为我在这

这边好像不是我在

我在共享

好好

这个是输入的屏幕输入就帮你操作

你想画哪

其实你可以你不用这个你用

你看你点一下上面共享屏幕有个查看选项

查看选项你点开它有个注释

你选的注释就可以选一支笔

你就可以在别人的屏幕上画东西了

这是ZOOM很好的一个功能

可以试一下

输入可以把你的激光笔去掉

然后让这谁在发言是我吴涵

不含你鼠标悬浮到 ROM的屏幕上

你看有个查看选项看到了吗

然后点开查看学校有一个注释

看到了吧

看见了

然后你就选择画图

然后你就可以画了

好谢谢老师

你试试

我可以了

p其实是我们比较关心的一个核心变量

是因为

它的模型它就是log of

it的一个模型

其实就是y等于

y等于

log

P就是这个东西

P÷(1-p)

然后它最后计算出来就是这么一个式子

然后probit的模型它是一个

这是一个这样的一个东西

它正态分布的一个函数

然后最后反正通过运算

然后最后算出来就是这么一个式子

这就是它的分布的函数

然后它们的系数解释其实也是不一样的

因为

对于 logistic而言

系数解释就是x对 log

就是p

除以1-p这么一个

然后 p除以1-p就是我们通常所说的

几率

然后如果两个几率相除的话

就是几率比就是 o2

然后我们好像

计算的时候会报出来的一个

那个数值

然后它的计算其实是比较简单

然后也特别容易解释

因为 x对于

我们几率比的对数对吧

这个就是我们在理解上面是比较

能理解的

但是prohibit的函数就是

它计算出来其实是一个

我们如果解释它的系数的话

就是x对累积标准正态分布函数的力作用

我们就很难去直观的

明白他到底想表达的是什么这样子

对

所以就在这种情况下

他们俩其实没有本质的区别

但是为了说我们可能解释

起来或理解起来更

直观更方便一点

然后大家很多研究者会去选择使用

就logit的函数

然后那么在data当中

我在看一个视频就是

教学视频

然后他就提到说塞塔中一些大神

他可能

比如说在用LV工具变量的时候

然后他开发了一些软件包

然后它是只有profit的软件包

没有logistic的软件包

所以在这种情况下

比如说我们做工具变量的那个时候的话

可能如果二者都可以

二者都可以选用的时候

我们如果用state还可能还是要

选用 private的那种模型

然后他们俩之间也是有联系的

就是说通常情况下

probability的回归

系数计算出来的参数值乘以

1.814

左右

logistic的函数的参数值

他们俩之间的联系总结起来就是说

他们俩之间其实在01的一个变

模型里面它没有本质的区别

但是

它们分布函数不同

系数解释也不同

在一般情况下

为了我们理解起来更加方便一点

很多研究者会去选择用logistic

的一个模型

然后在倾向得分匹配当中

我们应该选择用哪种呢

我们一般情况下这两种用的都是比较多的

然后其中最常用的是logistic

的模型

中山大学连玉军老师的视频

也是在b站上面的

就我觉得他视频

还挺多的

然后也说的挺好的

然后

推荐的人也很多

大家感兴趣的话可以去看一下

他在这个视频里面就提到说在

计算倾向得分的时候

二者之间其实是不存在明显的区别的

然后你可以根据自己的习惯

去选用就是你想用的一个模型这样子对

6.13 Q&A 3在线视频

6.13 Q&A 3课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.13 Q&A 3笔记与讨论

也许你还感兴趣的课程: