5.10 Validity and assumption test 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

我们来讨论

大家也是非常关心的

也是非常模型非常重要的一些问题

关于它的效度以及假设检验的问题

我听大家讨论

发现大家都很关心这一块

说明你们现在

学定量模型已经非常上道了

知道

要关心的重点在哪里

Ok首先

我们可以看到

RD它的内部效度还是很高的

因为它

用了一个非常严格的规则

规则规定

来去制造了这样的一个

利用了这样的一个external

variation来去帮我们解决

内生性的问题

内部效度是没有问题的

是不错的

这也是大家蛮认可它的一点

但是外部效度其实我们讨论过了

因为这个断点它是在一个连续的

forcing variable上

的点

而我们整个RD的分析是不是

都是围绕断点附近来开展的

所以说我们的结论也只能下载

断点附近这样的一个子群体上

但是我们显然知道同样一个

treatment

比如说是不是上大学

同样这样的一个treatment

它对于

不同位置的就是在forcing variable

上不同取值的学生

它的效应可能是不一样的

我们之前也讨论过

所以当我们给定一个断点之后

我们得出的结论

就是一个local的 average

treatment effect

它的外部的效度

是比较有限的

我们只能就着断点来说事

断点是谁规定的

是规则定的

那么如果规则没有在其它地方

产生断点供我们研究的话

我们的结论就不能下到

x的其它位置上去

这个是

第一个大家心里要清楚的

第二个最重要的就是说我们整个当然

它 internal

validity成立的关键

就是假设要成立

RD的假设就是连续x就是连续的

x的分布是连续的

然后 y关于x的条件

期望函数在断点附近

也要是连续的

而且其实应该是光滑可导的

那么这个就是一个非常重要的假设

那么因此我们就要对假设

要进行检验

分析完之后要检验

画图是一个方法

那么

我们还有哪些方法是非常重要的

也就是说

当然不光是y关于x的方程

在x0附近是

连续的

我们前面也讨论了

就是其它的一些控制变量

协变量它在x0的附近

也都不能跳跃

就是唯一的跳跃就是规则分组

规则分组跳跃

其它的都不能跳

因此

就有两个非常重要的假设检验

一个是对于forcing

variable的

分布

分布情况我们要去了解

第二个就是我们要对协变量

它在 cut up point

附近是不是跳跃呢

我们要进行了解

进行检验

为什么我们特别关心 forcing

variable的概率密度函数

或者说它的分布函数呢

也就是说这个里面可能会有这种人为的

manipulation

这个怎么理解

我们来举这样的一个例子

这是一个非常经典的例子

也就是说

我们换一个例子比较好好理解的

因为分数这事都考出来的也不太

好 manipulate

但是有的情况下

就比较容易manipulate

比如

申报的收入

比如说

我们知道

很多国家有这样的政策

低保

就是说当你的收入

低于多少元的时候

那么政府会给你提供政府救济金

比如说收入低于1000块钱

政府提供500块钱的救济金

这时候大家想

只要是低于1000块钱月收入

他就能拿到500块钱的救济金

对于月收入是1000

100块钱的人来讲

他是不是就不划算

他多挣了1100块钱

他多挣了100块钱之后

他反而失去了500块钱的政府救济金

是不是

那么这个时候怎么办

他就宁可让自己的收入再低点

正好低于1000块钱的线

然后他再领500块钱救济金

他的总收入就是将近

1500块钱

就比他

实际挣个1100块钱

要好一些是不是

所以大家看这张图就很有意思了

这张图

红线是一个正常的红色的这条曲线

是一个正常的正态分布

按说

人们的工资就应该是

它的分布函数应该是红色

的曲线这样的一个形态

但是因为出现了这样的一个游戏规则

这种规则

救济金的规则

这个规则确实是在一个连续的月

收入变量上制定了一个断点

比如1000块钱

那么1000块钱以下可以拿交易金

这样子的它就

这个规则是强制执行的

人们也确实按执行了

但是人们这个时候如果能够去操纵

forcing variable

的值的话

它就会出现灰色的频数分布图

也就是说很多人他本来应该是

刚刚

就这块空白的这一块

他本来应该是刚刚略高于

最低收入的这一块的

他宁可拿一个更低点的工资

正好是cut up point的下面

这样他就可以领救济金了

所以就会出现在 cut up point

这个点这儿

有一个非常高的频数分布

这部分高出来这一块，这一块

都是从白色空缺这挪过来的

人们

迎合某一些游戏规则

故意操纵了自己的forcing

variable的取值

他也不是

他也不是虚报数字

他就是故意让自己的收入低于这个值

因为这个值他应该是有政府有记录的

所以如果出现这种情况

大家想

我们的forcing

variable的分布

它其实是

不再连续了

这个时候

我们算出来的这些值它跳跃

它就不简单的是 treatment

带来的效果

还包括人们的自选择了

那么所以说我们要注意要避免这种情况

那么

至少如果出现这种情况

我们要能够发现它意识到它

对给我们带来的这种威胁

对我们估算的值得威胁

很简单就是画图对不对

把 forcing variable

的分布图

把它给画出来

就能够看出来了

好这是

这是第一种情况就是

forcing variable的

density function我们把它画出来

第二种情况就是其它变量

除了xi之外

其它变量它也不能在x0的位置跳

这个也很重要

比如说像

刚才说了小班额的例子

如果除了小班额之外

还有其它的影响学生成绩的变量

也在跳动的话

这就有问题比如说

它除了被分到小班

它还会分到一个

比较好的

比如说新装修的教室

或者说是它会分到一个更有经验的老师

如果还配套有这样的一些

这些变量的跳跃的话

这个时候

我们估算的跳跃就不再是

小班

本身的 treatment

effect

还包括一些其它的协变量的跳跃

带来的影响

这就有问题了

估算就不准了

我们要检查

**问刚才那种情况

manipulation是不是就不能

用RD了

对这种情况其实就是很难用

我们可以看到你们可以去查论文

有些论文它可能会用一些数字

上的这种弥补的方法

但是整体上

它是违背了我们的重要的假设

我们来说第二种

我们要检查其它的协变量

在x0这也不能跳跃

以及

如果我们大家想整体来讲

如果我们的整个RD的研究是基于

一个连续光滑的这样的一种假设的话

函数形态的假设

是不是在一些没有断点的位置

按说它也不应该乱跳

如果本来就没有这个断点

就是政策没有在这个位置

设定什么游戏规则

我们在这发现了跳跃

是不是整个数据它可能会很有问题

所以说这也是一个辅助性的佐证

性质的一些检验

我们怎么做呢

我们就是做 placebo

咱们说了 placebo test

就是跟我们 DID里面

placebo test是

一样的

就是说我们把y

换成其它的协变量

然后在x0的位置跑断点回归

如果我们发现 D的系数不显著

我们就认为这些covariance在x0

的位置它是连续的

它不是跳跃的

是不是

或者说我们像第二种情况

我们在一些其它的一些点

我们不在x0

我们在x1，x2其它的一些点

把它假装当作断点

然后在这个位置

用y或者是用其它的系列量

来去跑回归

它们这儿也应该没有任何跳跃

也就是说d的系数

应该没有显著的区别于0

这个都会给我们提供非常好的一些

佐证

就是这些地方都是连续的

这个就是placebo test

好有没有问题

没问题

那么第三个当然是我们非常咱们之间讨论

过的就是，方程形态的问题

就是说我们这个方程形态的设定

如果是一个参数估计

它是非常重要的

到底是选几节多项式

这个要非常的严谨

要充分考虑

那么如果能采用这个非参估计

也是非常好的

但是如果是

用到的工具变量法

我们就不得不用参数

估计这个时候就不能回避这个问题

再就是我们要识别出来

我们分析的到底是sharp RD

还是fuzzy RD

那么显然如果是fuzzy RD我们没有发现

我们当做sharp RD去估算了

这是肯定有问题的

怎么样识别

画图

第一个就是画图

我们

把这个规则画出来

把实际的数据也描出来

如果发现它们不一致

那就一定是个fuzzy RD

第二个当然我们

可以不去考虑

我们就把它当作fuzzy RD来处理

处理完之后我们回过来再

去跑一个豪斯曼检验

看看我们

之前的变量它到底是不是内生的

也就是说它是不是

有自己的问题

这个也是可以的

最后就说带宽这个事同学们

都在讨论到底带宽怎么选

显然带宽的选择它是一个

trade off

我们带宽选的大了

它就不符合我们RD的这些

限制条件这些假设了

对不对

比如方程形态就不再是一个

线性的了

或者说它就

没有极限的概念

那么我们方程两边的均值也不可比了等等

就是一系列的问题

带宽不能选择太大

但是带宽选的太小

显然这个样本量会迅速降低

样本量太低

大家知道

就会怎么样

增加我们的标准误对不对

减少我们的statistical

power

那么这个也是有问题的

所以说带宽的选择

是非常重要的

5.10 Validity and assumption test 1在线视频

5.10 Validity and assumption test 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

5.10 Validity and assumption test 1笔记与讨论

也许你还感兴趣的课程: