当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 5.10 Validity and assumption test 1
我们来讨论
大家也是非常关心的
也是非常模型非常重要的一些问题
关于它的效度以及假设检验的问题
我听大家讨论
发现大家都很关心这一块
说明你们现在
学定量模型已经非常上道了
知道
要关心的重点在哪里
Ok首先
我们可以看到
RD它的内部效度还是很高的
因为它
用了一个非常严格的规则
规则规定
来去制造了这样的一个
利用了这样的一个external
variation来去帮我们解决
内生性的问题
内部效度是没有问题的
是不错的
这也是大家蛮认可它的一点
但是外部效度其实我们讨论过了
因为这个断点它是在一个连续的
forcing variable上
的点
而我们整个RD的分析是不是
都是围绕断点附近来开展的
所以说我们的结论也只能下载
断点附近这样的一个子群体上
但是我们显然知道同样一个
treatment
比如说是不是上大学
同样这样的一个treatment
它对于
不同位置的就是在forcing variable
上不同取值的学生
它的效应可能是不一样的
我们之前也讨论过
所以当我们给定一个断点之后
我们得出的结论
就是一个local的 average
treatment effect
它的外部的效度
是比较有限的
我们只能就着断点来说事
断点是谁规定的
是规则定的
那么如果规则没有在其它地方
产生断点供我们研究的话
我们的结论就不能下到
x的其它位置上去
这个是
第一个大家心里要清楚的
第二个最重要的就是说我们整个当然
它 internal
validity成立的关键
就是假设要成立
RD的假设就是连续x就是连续的
x的分布是连续的
然后 y关于x的条件
期望函数在断点附近
也要是连续的
而且其实应该是光滑可导的
那么这个就是一个非常重要的假设
那么因此我们就要对假设
要进行检验
分析完之后要检验
画图是一个方法
那么
我们还有哪些方法是非常重要的
也就是说
当然不光是y关于x的方程
在x0附近是
连续的
我们前面也讨论了
就是其它的一些控制变量
协变量 它在x0的附近
也都不能跳跃
就是唯一的跳跃就是规则分组
规则分组跳跃
其它的都不能跳
因此
就有两个非常重要的假设检验
一个是对于forcing
variable的
分布
分布情况我们要去了解
第二个就是我们要对协变量
它在 cut up point
附近是不是跳跃呢
我们要进行了解
进行检验
为什么我们特别关心 forcing
variable的概率密度函数
或者说它的分布函数呢
也就是说这个里面可能会有这种人为的
manipulation
这个怎么理解
我们来举这样的一个例子
这是一个非常经典的例子
也就是说
我们换一个例子比较好好理解的
因为分数这事都考出来的也不太
好 manipulate
但是有的情况下
就比较容易manipulate
比如
申报的收入
比如说
我们知道
很多国家有这样的政策
低保
就是说当你的收入
低于多少元的时候
那么政府会给你提供政府救济金
比如说收入低于1000块钱
政府提供500块钱的救济金
这时候大家想
只要是低于1000块钱月收入
他就能拿到500块钱的救济金
对于月收入是1000
100块钱的人来讲
他是不是就不划算
他多挣了1100块钱
他多挣了100块钱之后
他反而失去了500块钱的政府救济金
是不是
那么这个时候怎么办
他就宁可让自己的收入再低点
正好低于1000块钱的线
然后他再领500块钱救济金
他的总收入就是将近
1500块钱
就比他
实际挣个1100块钱
要好一些 是不是
所以大家看这张图就很有意思了
这张图
红线是一个正常的红色的这条曲线
是一个正常的正态分布
按说
人们的工资就应该是
它的分布函数应该是红色
的曲线这样的一个形态
但是因为出现了这样的一个游戏规则
这种规则
救济金的规则
这个规则确实是在一个连续的月
收入变量上制定了一个断点
比如1000块钱
那么1000块钱以下可以拿交易金
这样子的它就
这个规则是强制执行的
人们也确实按执行了
但是人们这个时候如果能够去操纵
forcing variable
的值的话
它就会出现灰色的频数分布图
也就是说很多人他本来应该是
刚刚
就这块空白的这一块
他本来应该是刚刚略高于
最低收入的这一块的
他宁可拿一个更低点的工资
正好是cut up point的下面
这样他就可以领救济金了
所以就会出现在 cut up point
这个点这儿
有一个非常高的频数分布
这部分高出来这一块,这一块
都是从白色空缺这挪过来的
人们
迎合某一些游戏规则
故意操纵了自己的forcing
variable的取值
他也不是
他也不是虚报数字
他就是故意让自己的收入低于这个值
因为这个值他应该是有政府有记录的
所以如果出现这种情况
大家想
我们的forcing
variable的分布
它其实是
不再连续了
这个时候
我们算出来的这些值它跳跃
它就不简单的是 treatment
带来的效果
还包括人们的自选择了
那么所以说我们要注意要避免这种情况
那么
至少如果出现这种情况
我们要能够发现它意识到它
对给我们带来的这种威胁
对我们估算的值得威胁
很简单就是画图对不对
把 forcing variable
的分布图
把它给画出来
就能够看出来了
好 这是
这是第一种情况 就是
forcing variable的
density function我们把它画出来
第二种情况就是其它变量
除了xi之外
其它变量它也不能在x0的位置跳
这个也很重要
比如说像
刚才说了小班额的例子
如果除了小班额之外
还有其它的影响学生成绩的变量
也在跳动的话
这就有问题 比如说
它除了被分到小班
它还会分到一个
比较好的
比如说新装修的教室
或者说是它会分到一个更有经验的老师
如果还配套有这样的一些
这些变量的跳跃的话
这个时候
我们估算的跳跃就不再是
小班
本身的 treatment
effect
还包括一些其它的协变量的跳跃
带来的影响
这就有问题了
估算就不准了
我们要检查
**问刚才那种情况
manipulation是不是就不能
用RD了
对这种情况其实就是很难用
我们可以看到你们可以去查论文
有些论文它可能会用一些数字
上的这种弥补的方法
但是整体上
它是违背了我们的重要的假设
我们来说第二种
我们要检查其它的协变量
在x0这也不能跳跃
以及
如果我们大家想整体来讲
如果我们的整个RD的研究是基于
一个连续光滑的这样的一种假设的话
函数形态的假设
是不是在一些没有断点的位置
按说它也不应该乱跳
如果本来就没有这个断点
就是政策没有在这个位置
设定什么游戏规则
我们在这发现了跳跃
是不是整个数据它可能会很有问题
所以说这也是一个辅助性的佐证
性质的一些检验
我们怎么做呢
我们就是做 placebo
咱们说了 placebo test
就是跟我们 DID里面
placebo test是
一样的
就是说我们把y
换成其它的协变量
然后在x0的位置跑断点回归
如果我们发现 D的系数不显著
我们就认为这些covariance在x0
的位置它是连续的
它不是跳跃的
是不是
或者说我们像第二种情况
我们在一些其它的一些点
我们不在x0
我们在x1,x2其它的一些点
把它假装当作断点
然后在这个位置
用y或者是用其它的系列量
来去跑回归
它们这儿也应该没有任何跳跃
也就是说d的系数
应该没有显著的区别于0
这个都会给我们提供非常好的一些
佐证
就是这些地方都是连续的
这个就是placebo test
好 有没有问题
没问题
那么第三个当然是我们非常咱们之间讨论
过的就是,方程形态的问题
就是说我们这个方程形态的设定
如果是一个参数估计
它是非常重要的
到底是选几节多项式
这个要非常的严谨
要充分考虑
那么如果能采用这个非参估计
也是非常好的
但是如果是
用到的工具变量法
我们就不得不用参数
估计这个时候就不能回避这个问题
再就是我们要识别出来
我们分析的到底是sharp RD
还是fuzzy RD
那么显然如果是fuzzy RD我们没有发现
我们当做sharp RD去估算了
这是肯定有问题的
怎么样识别
画图
第一个就是画图
我们
把这个规则画出来
把实际的数据也描出来
如果发现它们不一致
那就一定是个fuzzy RD
第二个当然我们
可以不去考虑
我们就把它当作fuzzy RD来处理
处理完之后我们回过来再
去跑一个豪斯曼检验
看看我们
之前的变量它到底是不是内生的
也就是说它是不是
有自己的问题
这个也是可以的
最后就说带宽这个事同学们
都在讨论到底带宽怎么选
显然带宽的选择它是一个
trade off
我们带宽选的大了
它就不符合我们RD的这些
限制条件这些假设了
对不对
比如方程形态就不再是一个
线性的了
或者说它就
没有极限的概念
那么我们方程两边的均值也不可比了等等
就是一系列的问题
带宽不能选择太大
但是带宽选的太小
显然这个样本量会迅速降低
样本量太低
大家知道
就会怎么样
增加我们的标准误 对不对
减少我们的statistical
power
那么这个也是有问题的
所以说带宽的选择
是非常重要的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM