当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.20 IV workshop 2
讲得很好
好谢谢*
讲得很清楚
那么这个就是一个数据预处理
大家可以看到其实数据预处理要花的功夫是很多的
在这个
正式的运算之前
Ok
我们下面来看
接着其实这个就跟我们最后期末作业是一样的了
你们期末作业拿到的数据也是这个样子
那么也是根据一篇论文我们来去复制
那么第一部分我们来讨论一下怎么样去复制一个Wald
估计刚才我们小测的时候也考过了
瓦尔德的估计其实是用两组期望均值之差来做比
对吧
那么大家可以看到在 do file里面
我用了t检验的方法来去获得这一个大家可以先跑一下这
两行t test
这两行那么显然 QTR1它是我们的工具变量
而且是一个2元变量
那么y是 log weekly
wage我们的内生解释变量是education
这样就很清楚了
y,z和x这里都出现了
那么我们根据瓦尔德这个公式
那么就去来做这样的一个t检验
大家把123和124行跑一下
那么看一下这个结果
看看我们应该用哪两个变量
哪两个结果来去做瓦尔德估计
跑一下这两行
好
大家是不是都
跑出来了
那么t检验做均值之差
那么均值之差恰好就是我们要的条件期望值之差
好
我看一下
这个应该是可以注释过的
好
那么大家可以看到这个地方
t检验既然报告是 main difference
main difference这个地方是不是报告
了我们要的均值之差
那么上面这一组是y关于z的条件期望之差
也就是我们的分子
下面 t检验它报告的是 x关于z的条件期望之差
是吧
那么这两个值作比
0.011
比上0.108
那么这个就是我们要的瓦尔德估计
所以说手动的来去算瓦尔瓦尔的估计量的时候
就是这样的
来求
接下来我们的重点是来去模拟一个表格
那么这个表格是论文里面的第5个表格
也就是1930年到1939年 cohort出生的人群
那么我们对它进行IV估计和OLS估计
那么在这个表里面大家可以看到这是一个非常标准的工具
变量的模型使用的时候
我们报告结果的一种方式是用OLS跟two
stage least square来对照来去报告
所以一二列是一组
它们的模型的set up是一样的
用什么控制变量等等是一模一样的
唯一的区别是一个是是OLS估计
一个是用了工具变量的两阶段最小二乘法估计
那么三四列是一组
它们的唯一的差别也是在控制变量上
大家可以看到一二组跟三四组之间的控制变量是不一样的
其它都是一样的
三四组多控制两个变量
一个是年龄
一个是年龄的平方
为什么年龄的平方,是往往年龄跟工资的关系
是一个二阶的非线性关系
所以我们会把年龄和年龄的平方都加进去
那么五六列又是一组
它们的控制变量是一样的
但这两列跟前面两列的控制变量就不一样了
加入了一些其它的控制变量
比如说种族
城市
居住地
婚姻状况等等
那么七八列是一组
那么这个就是我们要估算的一个要去拟合的这样的一个
结果
刚才你们是不是看不到那一页能看到
如果看不到就要告诉我
那么我们回到stata的do file这里可以看到
这里给我们写好了
第1357列是简单的回归,最小二乘法
我们可以直接跑一下
刚才解释了
这4列的差别就在于使用的控制变量不一样
这个可以直接跑一下很简单
那么跑完之后你可以看到说education的系数
是不是跟表五中的education的系数是对应的
这个可以大家自己跑一下
比较简单
那么接着是2468
2468是重点,用IV进行估计
大家看一下IV的格式
我们用的命令是ivregress跟之前的
regression命令它就有所差别
新的命令,在命令之后首先跟的是什么
跟的是我们的估算方法
如果你们想知道这个命令的详细情况应该怎么办
是不是用help对不对
Help ivregress
来看一下命令的格式
那么在命令之后我们先选择用two stage least
square
所以说我们会写two
stage least的缩写
那么之后是我们的原始的方程就是我们想估算的方程
那么这个里面要先写y
再写控制变量x,但是这种解释变量不写在这里
内生解释变量写在小括号里边
小括号里面大家可以看到education等于一串
工具变量
那么这个里面其实是第一阶段的方程就写出来了
因为这个是最简单的形式
所以用一个更一般的形式
我们可以在stata里面用help
ivregress那么来去看
如果你们去一个新的命令也都是按照这个方式
我们ivregress先说estimator
就是说我要用什么样的一个估算方法
在命令下有三种估算方法
有 two stage least square
有限信息的 maximum likelihood
极大似然自然估计还有广义矩估计
那么我们就用two stage least square就可以了
之后是dependent variable就是y
然后 variable list是所有的控制变量
所有控制变量
之后 variable list two是内生解释
变量,以及所有的IV这样子来写
后面是option
那么这个是它的格式
所以大家可以跑一下
第二列的方程就是two stage least square
这一个方程来看一下它的结果
看一看这个结果跟我们的表5里面第二列的结果是不是
一样
好
大家可以看到跑出来的结果
education的系数
这是两阶段跑完之后的系数
0.891
这个标准误是0.016
那么来看一下我们这个论文里面第二列
0.891
这个标准误差是零点0.016
这个是一致的
也就是说这刚才那一个命令跑出来的结果就是对应表5的
第二列
那么我们就把这样的一个利用工具变量来做两阶段最小二乘
法的跑完了
非常简单
我们可以看到很简单就是这一个命令
把它格式写对就可以了
那么大家期末的作业其实就是这样的性质
我们通过几次workshop
那么你们就会慢慢的对这个就会越来越熟悉这样的一个
replication
那么后面这几个命令当然就是不断的加入新的控制变量
它对应的跟前面1357页是一样的
不断加入更多的控制变量来跑
那么大家可以自己跑一下
自己跑下来看一下
结果跑完之后一直跑到第8列
跑完之后对照完结果
我们再往后讨论
好
大家看一下我们在之前的公式里面写的第一阶段的方程
是不是也要把第二阶段的这些控制变量也要放到第一的
方程里面
刚才我们讨论过还有印象答疑的时候
同学们也提了这个问题
那么但是在写命令的时候
其实并没有这么写
那么写命令的时候其实并没有这么写
写命令的时候只把工具变量写到了后面的小括号里面,第一
阶段的方程里面
这是可以的
明白这一点
那么实际上你们也可以试一试
如果你们把前面这些控制变量都写到小括号里面
它跑出来结果是完全一样的
也就是说它知道只有education小括号等式左边
的这一个是内生解释变量
其它的变量都认为是工具变量
也就是外生变量
就是会按照我们的模型的设定来去跑
就先解释一下这一点
那么大家估算完第8列之后会看到这个结果跟论文里面的
结果也是一致的
那么接下来我们讨论的是两点
因为在这个里面生成了非常多的工具变量
它属于一个过度识别的情况
那么这个时候我们可以做很两件事情
第一个我们有工具变量
就可以反过来再去检验education到底是不是
一个内生解释变量
是不是
因为我们假设估计别人都是外生的
那么第二个我们当然也可以去解
也可以去来去看它是不是有过度识别的问题
也就是说这个地方所没有过的识别的问题是说当有这么多
工具变量
其中有的工具变量是属于内生的情况下
我们可以做这样的检验
那么过度识别的问题
用的命令就是overid
Over identification这样的一个
缩写
它是专门用在我们刚刚跑完这一个工具变量命令之后
我们就来去做这样的一个叫估算之后的一个检验
那么大家可以跑一下这一行
看一看它出的结果是什么样子的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM