当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.9 2SLS and SEM
第二种方法
估算方法是要两阶段最小二乘法
那么两阶段最小二乘法
其实我们在介绍工具变量的整个的思想的时候也是已经用
到了
那么第一阶段显然就是跑一个x关于z的一个方程
为什么我们要通过这一步来去估算一个 x hat
对不对
那么大家看到这个里面图
我们其实专注于x跟z的关系
那么这样的话黄色阴影面积
右边这张图里面黄色的阴影面积就是我们估算的 x
hat
那么我们都用x hat来去估算y,用x hat来
去解释y的 variation
当然阴影面积它有一块是跟y是重合的
是不是
那么在这个公式里面大家可以看到
第二步
我这个地方用的就是x hat的了
就不是过去的x了
那么因为x hat 是z的一个方程
z的一个线性方程,线性函数
而z是跟残差不相关的
所以x hat的它就是一个外生的变量了
是不是
它就跟残差也不相关
那么用它去估算的
β就是一个无偏估计
是不是
那么当然是渐进无偏了
我们就简单说是无偏估计
那么这个思路就是这样子的
好
我们来看一下数学表达式
刚才是一个非常形象的韦恩图
那么首先第一步我们看到这是原始的,我们感兴趣的
这样的一个方程
那么根据两阶段最小二乘法的思路
我们把它分成两步
第一步我们是x关于z的一个方程
那么这里面我们会求出一个x hat
那么第二步是y关于 x hat的一个方程
当然我们希望求出的是同一个残差
大家看到都是residual
都是σ
不是 ε
那么这个是不变的
但是我们会讨论详细讨论残差的问题
大家可以看到说
其实我是可以把 x关于z的等式带入到原来的这个方程
里带到原来original这个方程里面
这样的话就变成了下面 reduced form
也就是说其实y它是可以直接写成z的一个函数的
虽然z在理论上并不影响y
但是在数学公式上我们是能够这样推出来的
那么这个就叫做reduced form
那么大家可以看到说 reduce form里面当然
它进行了一个带入
那么这个里面有一个很重要的关系就是三个系数
z对x的影响用系数α1表示
x对于y的影响用β来表示
那么 reduce form里面z对y的影响是用γ
来表示
γ1来表示
那么可以见到α1,β1跟γ1
它是具有一个比例关系的
那么这个地方我们先看一下
当然z这也是外生的
那么根据刚才的矩估计我们也很熟悉了
在第一阶段里面α1的矩估计就是这个式子
就是x跟z的协方差除以z的方差
那么γ的矩估计在这儿
因为这个里面这个里面这个γ的估计也是无偏的
对不对
因为z是外生的
所以说我们可以直接就是套OLS的这样的一个据估计
那么γ的估算值跟的协方差除以z的方差
而这个α1,β1,γ1
它又满足这样的一个关系
就是β1是等于γ1除以α1的
我们把这两个估算带进去
我们就可以算出来
β1它就等于这个 y跟z的协方差除以 x跟z的协
方差
是不是
这个就是两阶段最小二乘法的估计
比如说我是用两个外生的
这个方程就可以来估算出来
结果当时跟前面的矩估计是一样的
有问题可以随时提
所以这个也是一个例子
也就是说这是两阶段
那么这个问题是个 outcome,内生变量是
college
大家可能也看到这个例子
教材里面,那么第一阶段的方程
它用的工具是什么
是distance
也就是认为上大学也是一个内生性的事儿
是不是
上大学是个内生性的一个事儿
那么什么因素什么工具变量
可以只影响他上大学的行为
但是不影响它的 outcome
在这个里面他参与投票
公民的这种参与国家政治的这样一种行为
么distance也是常用的一个工具变量
也就是学校跟最近的 community
college的距离
因为大家想在美国很多孩子也不愿意上大学
他就去上个社区学院
community college是两年的社区学院
也算是大学
那么什么条件会影响他上社区学院的选择
然后如果他周围有这样的学校
他上起来就是交通成本很低
他得到这个信息也比较容易
他可能就去上了
但是如果他周围没有这样的学校
离得比较远
他交通成本很高
他不见得了解学校的信息
他就不去上了
那么distance是可能会影响到 college
的
选择的上不上就是college
那么它们所以说在第一步的方程里面是用
distance来作为工具变量z然后看来来
估算college的拟合值
那么这个就是它的系数
就在这
那么估算出来的 college hat在第二步
里面
那么通过计算,报表
这个是统计软件报出来的
那么它就直接报出来的是的β无偏估计
是0.23283这个值
但是没有什么特殊的需求的时候
我们是不会去报这个 z的系数γ的
因为我们并不关注γ
γ是在理论上并不存在的
它只是帮助我们去估算的
是不是
帮助我们做无偏估计的这么一个值
我们要的还是β
我们关心的是β
第三种方法sem它就是同时解方程组
其实也是非常重要的一种方法
但是在我们同学们的主要的研究中会遇到的可能会比较少
所以我们也不会做单独的介绍
好
那么下面这道题很有意思
我现在把这个题解释一下
我们刚才说的两阶段最小二乘法
这个里面有几个方程
第一个是第一阶段的方程
还有第二阶段的方程
那么第二阶段的方程里面的 x它就变成了 x hat
还有 reduced form
刚才都解释了
这个里面一共有三个残差
δ
ε和μ有三个残差
那么请大家在下面这张维恩图里面
你来去标记一下这三个残差分别是哪一部分
这个是 x y z三个变量
红色面积大家都答对了
是不是
就是ε residual的ε
我们本来就有的 residual造成相关的造成内生的residual
那么紫色的当然就是δ, x里面除去最能解释的剩下
的一部分 variation
黄色面积
黄色阴影面积它它就是μ是吧
就是把 z跟y的重叠部分去掉之后
那么剩下的外的variation它就是μ
大家很多都答对了
不错
那么就对这几个残差它到底是哪一部分有了一个比较清晰
的认识
因为后面我们还会有一个更重要的讨论
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM