当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.13 Extension 1
首先是假设我们对于工具变量有两个假设
第一个是跟自变量相关
第二个是跟残差不相关
这两个假设分别怎么去解释呢
我们刚才提前刚才说过
也就是说第一个外生性的假设它跟残差不相关
这个事情我们没有办法证明
没有办法从统计上去证明
因为你两个变量再独立
也能算出一点点相关系数来
不太可能也都算不出来
那么我们这个时候其实主要是make
argument
什么叫make argument
讲一个逻辑清晰的故事
就跟刚才我们解释为什么 distance是一个工具
变量
为什么出生的季度是个工具变量
我们其实是从理论上从逻辑上来去解释它是一个工具变量
的
它的外生性在哪里
是不是
那么其实就是argument
没有别的办法
当然你就可以说了
比如distance它里面它是不是有内生性
我可以反驳它就可能是有内生性的
为什么
因为家庭他的住址是不是他选址在选择住在哪儿
可能是跟他的家庭的背景是有关的
他往往如果他对教育很重视
或者他条件好的话
他往往就会选一个好的社区
那么这个好的社区里面可能就会有比较近的这些学校
是不是
比如说你选择斯坦福旁边了
对不对
那个区好贵的是不是
所以说它当然离斯坦福学校很近
distance 很近
但是我们其实是用脚投票投到那里去住的
这个时候distance就变成了一个内生变量
它就不是一个纯外生的变量了
所以argument都是我们自己去make
当然刚才说的是一个极端情况
是一个就是优质大学
但是作者会说community college很
普遍
哪都有是零散的分布的
那是不是就随机性会强一点
所以你看到其实这些全都是argument
它没有一个什么统计上的证据
第二个问题就是说x跟z是要相关
两点
这里是一点证明
我要求 x跟z那么它们的相关系数是不是足够大
也就是在第一步的回归方程里面
我们希望π1它是显著的区别于0的
是不是
这样的话我们就能够证明了比较简单的
extension
先出一道题
活跃一下氛围
我们来想一想
跟OLS的 estimation相比
IV estimation对于 statistic
power对我们说的统计力的影响
是什么样子的
它是增加了power还是减少了power还是其它情况
我们做一个单选题
然后来讨论一下为什么
好
直接这么看我也是可以看的
正确答案是b同学们
它是会降低power的
而不是增加power
我们来看看为什么大家想一下
刚才我们刚讨论了一个什么问题
IV estimation
是不是就是β的估算值以及贝塔的标准误
β的标准误是比OLS里面算的标准误是要大还是小
是不是大
刚才我们刚解释了IV的估算的β的标准误是要大于
OLS的标准误的
我们回忆一下power
标准误越大的时候
标准误在这里是不是就是β
hat这样的一个随机变量
它的标准差是不是
刚才*同学已经解释过了
所以当
这个就是标准误变大的时候
其实我们是不是可以对照这张图的右侧的这一列
基本上是我们不用看sample size的问题
这不是sample size
那么这个是标准误上面这个是标准误比较小的
这个是标准误比较大的
显然这个标准误变大以后
蓝色的阴影面积是power
它是不是就变小了
是不是
那么显然它就是会降低power
是不是
所以说因为它这个参数估计的标准误会变大
你显然你接受0假设的概率会增加吗
是不是
这是一个练习题
那么下面一个问题也很重要
大家可以看到说其实当变量是x是内生的时候
我们不得以用工具变量法来去处理它
这个时候我们得到的工具变量的 estimation
它其实是性质是不够好的
是不是
尤其是在标准误的估算上
它变得很大
而且我们想找一个特别合适的这个IV也真不容易
那么这个都是因为x我们认为x是内生的
但是如果x是外生的时候
是不是完全没有必要做这些事情
我们就是跑OLS就可以了
是不是
我们是不是要反过来重新的再去评估一下
我们所假设的内生解释变量是不是真的是内生的
这个问题是不是还是很有意义的
我们就来看怎么样通过豪斯曼检验来去判断原来我们所
假设的内生解释变量x到底是不是内生的
这个逻辑是怎么样的
逻辑很简单
大家看一下
本来这是有动画的,动画就被这个图这个格式给弄没了
这个是之前的模型
那么如果x是外生的
我是不是可以直接跑OLS得到一个βols对不对
那么如果x是内生的话
我们非常幸运的找到了一个工具变量z使得我们可以跑
一个工具变量的estimation
得到这样的一个方程
这个里面β的估算值是βiv
大家想
如果x是内生的
那么β,OLS的估算值肯定是有偏的
而IV的估算值是无偏的
那么β OLS跟β IV它们俩的差别是不是就会比较
大
是吧
这很好理解
那么如果x实际就是一个外生的
x本来就是外生的
那么我再加一个工具变量z折腾一圈之后
我在跑出来的β的IV估算值
原来的β的无偏估计值
OLS因为x是外生的
那么它们俩的差别就会很小
也就是说这个逻辑是大家听明白了吧
就是说我们想通过判断
用OLS估算的β值
可以用IV估算的β值
它们俩是不是相等来去判断x是不是外生
如果x是外生的
这两种估算的结果应该是相似的
那么如果x是内生的
那么第一种估算是有偏的
第二种估算是无偏的
这时候两个β值它是相差比较远的
这个逻辑因此我们就构造了一个统计量叫吴-豪斯曼统计量
叫h就这一行
同学们
这行很好理解
学过线性代数的你们都能看懂
当然我们用一元的这种情况它就是一个值
大家看前面是两种估算值的差
后面也是两种估算值的差
中间是它们的方差的差值
当然如果这是个方差协方差矩阵的话
它做了一个这个叫Moor-Penrose
pseudoinverse,一个逆
但它不是我们之前说的那种逆,就是单独的矩阵的算法
那么你不用管它什么东西
总而言之我们根据刚才的逻辑去构造了一个h统计量
h统计量它渐进的服从卡方分布
渐进的服从卡方分布
这个时候我就可以查表来去对统计量进行分析
给定一个就跟t检验一样给定一个显著度
我来看
那么h是不是显著的大于
给定显示度下的 h h值
是不是
那么从而我来去做统计检验
如果零没有difference
零假设两个β没有difference
倍则假设是这两块β之间有显著的
difference
是不是
那么如果 h值足够大的话
我就拒绝零假设
接受被则假设它们俩之间就有显著的差异
也就是说 x是内生的
如果被h值足够小的话
我就接受0假设
也就是说这两个β值之间没有什么显著差异
也就是说 x1就是外生的
这个就是豪斯曼检验
是吧
因为我们肯定 z是外生的情况下
我们反过来判断
我们之前怀疑是内生的变量
到底是不是内生的
就可以通过毫斯曼检验来做
就是个假设检验
好
这个有没有问题
好
貌似没有问题
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM