当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.2 Omitted variable bias and endogeneity
那么我们再回顾一下 OVB的问题
遗漏变量的偏误
那么大家想
一个人的工资
他未来的收入除了受他受
教育年限的影响之外
还受哪个因素的影响
那么是不是很常见或者是很容易
想到的一个就是能力对不对
就这个人他能力强
他未来当然他的对于市
劳动力市场的贡献大
那么他的回报率就会
回报就会高一点
那么因此能力也是一个很重要的变量
这样的话我们把它抽象为x1
和x2这样两个式子
两个变量的一个二元的一个回归方程
那么大家想
虽然能力很重要
但是能力是不是能够被
研究者很好的观测到
或者说你一般怎么样去观测能力
那么其实在一般的研究里面
能力是很难被我们捕捉到的是吧
因为能力它是一个非常内隐的
很难去测量的一个变量
一般你让
被试去填问卷也好
或者是怎么样也好
测能力往往是非常困难的
所以能力往往是不可观测的
那么
那么这就要看 x和x2的相关性的问题
如果能力不可观测
大家想能力他就会
被遗漏在residual里面 对不对
那么
如果这一块合在一起是residual
的话
我们很关心的是education
是我们关心的变量
能力其实是我们要控制的面量
因为我们并不关心能力跟工资的关系
因为
这个关系是显而易见的
它就应该是有一个正相关
我们并不关心这个问题
我们关心的是我们不太清楚
的就是受教育年限
更长 是不是工资一定会更高
这个问题是我们不清楚的
所以我们在这个里面的研究兴趣
是在education上
但是 ability观测
不到的时候会进入残差
这个时候
x1跟x2的相关性就会非常
影响我们对模型的判断
那么这个还是刚才的韦恩图
我们假设增加一个自变量x2
那么它跟y也是有重叠的
因此它的variation也能够解释
y的一部分的variation
好
大家可以看到这个时候x1
跟x2是不是没有重叠
也就是说 x1跟x2它们是不相关的
这种情况下
我们是很放心的
但是如果x1和x2相关
那就成为这种情况
对不对
那么也就是说深蓝色的 x2
它跟浅蓝一点的 x1也是重叠的
那么
重叠的部分就是黄色阴影面积
大家想
如果这个时候我因为观测不到x2
他就被遗漏在了残差项里面
那就是这种情况
对不对
那么黄色的阴影面积是不是就代表了
x1跟残差的重叠的这一部分
是吧 还是
很形象的 你看
能观测到能力把它放到回归里面
这个时候
x1和x2整体它如果
跟残差项是不相关的
上面画了这个是残差的形状就变了
因为
他的有一部分variation
被 ε给扣走了
被解释走了
那么这样的话这个是非常好的
还是没有问题
但是如果我们观测不到x2
x2就跟x1相关
x2又在残差项里面
这个时候x1其实跟残差是
是相关的
相关的部分就是黄色的阴影面积
就是这一块
所以这个时候大家可以看
这时候残差变成什么了
残差就
它其实残渣变成这一块了
对不对 这个是我们的残差
而且残差跟x1
它是有重叠的
黄色阴影面积部分就是重叠
这个时候就导致了一个
内生性的问题
那么内生解释变量
内伤及时变量
就是说当残差跟x相关的时候
x就称为内生解释变量
因为
还有它跟residual相关
也就是说它跟系统内的因素相关
那么这个时候我们来回忆一下
如果x什么叫外生变量
外生变量我们说x是外生变量的时候是说
x跟残差不相关
也就是说x的variation
不是由系统内的因素决定的
它是由我们所研究的这些变量所
构成的系统之外的因素决定的
比如说
能力它可能
系统之外决定的
或者
比如说性别是吧
年龄
像这样的一些变量
出生他就会带着的这种人口学变量
它一般都会被认为是
系统外决定的
好像能力其实也不见得是系统外决定的
因为能力也会变化
那么x如果跟residual不相关
我们把它叫做外生
那么下面我提一个很简单的问题
这个也是在小组讨论中有的同学
困惑的就是说
dependent variable y它是
一个内生变量还是一个外生变量
我们给一分钟时间
大部分同学都答对了
我们来看一下最后一位同学
是最后一秒提交的
你太厉害了
我们来看一下大部分同学答对了
y它是内生变量
它不是外生变量
因为大家想
y是不是我们整个建模型或者
说建系统要去解决的问题
要去解答y的variation
是哪来的
所以说y的所有variation
都属于系统内的
*说刚才那个例子里面
能力算是内生变量吗
这是个很好的问题
取决于我们对理论的假设
如果你认为能力是天生的
他而且不会再变化
它就是一个外生变量
因为它不是被系统内的
其他因素能够解决的
但是如果你认为能力是可以变的
比如说我们讨论过 growth
mindset增长型的
成长型的心智的问题
他其实在教育过程中的能力会发展
那么这个时候能力也是在变化了
它其实也是系统内的因素决定的
它其实可能也是一个内生变量
是吧
当然我们在讲课中举的例子里面
因为这个例子来自于经济学
经济学的这些学者他就会非常简单的
把能力认为一个天生的变量
称做禀赋类的东西
那么在教育学并不见得会被认可
在这里我们举这个例子
就把能力当作一个外生的
但是它是不可观测的变量
这是一个非常老的问题
那么在这里大家要记住
y它显然是一个内生变量
因为residual是谁的东西
residual是谁的
residual是吧
这个残差是y的残差对不对
所以说残差里面的变化
variation其实全都是y的
variation
这点就是要搞清楚
所以当然不管是一个内生变量
y肯定跟z轴是相关的 是不是
因为它在那是他自己的一部分
variation
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM