2.20 IV workshop 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

讲得很好

好谢谢*

讲得很清楚

那么这个就是一个数据预处理

大家可以看到其实数据预处理要花的功夫是很多的

在这个

正式的运算之前

我们下面来看

接着其实这个就跟我们最后期末作业是一样的了

你们期末作业拿到的数据也是这个样子

那么也是根据一篇论文我们来去复制

那么第一部分我们来讨论一下怎么样去复制一个Wald

估计刚才我们小测的时候也考过了

瓦尔德的估计其实是用两组期望均值之差来做比

对吧

那么大家可以看到在 do file里面

我用了t检验的方法来去获得这一个大家可以先跑一下这

两行t test

这两行那么显然 QTR1它是我们的工具变量

而且是一个2元变量

那么y是 log weekly

wage我们的内生解释变量是education

这样就很清楚了

y,z和x这里都出现了

那么我们根据瓦尔德这个公式

那么就去来做这样的一个t检验

大家把123和124行跑一下

那么看一下这个结果

看看我们应该用哪两个变量

哪两个结果来去做瓦尔德估计

跑一下这两行

好

大家是不是都

跑出来了

那么t检验做均值之差

那么均值之差恰好就是我们要的条件期望值之差

好

我看一下

这个应该是可以注释过的

好

那么大家可以看到这个地方

t检验既然报告是 main difference

main difference这个地方是不是报告

了我们要的均值之差

那么上面这一组是y关于z的条件期望之差

也就是我们的分子

下面 t检验它报告的是 x关于z的条件期望之差

是吧

那么这两个值作比

0.011

比上0.108

那么这个就是我们要的瓦尔德估计

所以说手动的来去算瓦尔瓦尔的估计量的时候

就是这样的

来求

接下来我们的重点是来去模拟一个表格

那么这个表格是论文里面的第5个表格

也就是1930年到1939年 cohort出生的人群

那么我们对它进行IV估计和OLS估计

那么在这个表里面大家可以看到这是一个非常标准的工具

变量的模型使用的时候

我们报告结果的一种方式是用OLS跟two

stage least square来对照来去报告

所以一二列是一组

它们的模型的set up是一样的

用什么控制变量等等是一模一样的

唯一的区别是一个是是OLS估计

一个是用了工具变量的两阶段最小二乘法估计

那么三四列是一组

它们的唯一的差别也是在控制变量上

大家可以看到一二组跟三四组之间的控制变量是不一样的

其它都是一样的

三四组多控制两个变量

一个是年龄

一个是年龄的平方

为什么年龄的平方，是往往年龄跟工资的关系

是一个二阶的非线性关系

所以我们会把年龄和年龄的平方都加进去

那么五六列又是一组

它们的控制变量是一样的

但这两列跟前面两列的控制变量就不一样了

加入了一些其它的控制变量

比如说种族

城市

居住地

婚姻状况等等

那么七八列是一组

那么这个就是我们要估算的一个要去拟合的这样的一个

结果

刚才你们是不是看不到那一页能看到

如果看不到就要告诉我

那么我们回到stata的do file这里可以看到

这里给我们写好了

第1357列是简单的回归，最小二乘法

我们可以直接跑一下

刚才解释了

这4列的差别就在于使用的控制变量不一样

这个可以直接跑一下很简单

那么跑完之后你可以看到说education的系数

是不是跟表五中的education的系数是对应的

这个可以大家自己跑一下

比较简单

那么接着是2468

2468是重点，用IV进行估计

大家看一下IV的格式

我们用的命令是ivregress跟之前的

regression命令它就有所差别

新的命令，在命令之后首先跟的是什么

跟的是我们的估算方法

如果你们想知道这个命令的详细情况应该怎么办

是不是用help对不对

Help ivregress

来看一下命令的格式

那么在命令之后我们先选择用two stage least

square

所以说我们会写two

stage least的缩写

那么之后是我们的原始的方程就是我们想估算的方程

那么这个里面要先写y

再写控制变量x，但是这种解释变量不写在这里

内生解释变量写在小括号里边

小括号里面大家可以看到education等于一串

工具变量

那么这个里面其实是第一阶段的方程就写出来了

因为这个是最简单的形式

所以用一个更一般的形式

我们可以在stata里面用help

ivregress那么来去看

如果你们去一个新的命令也都是按照这个方式

我们ivregress先说estimator

就是说我要用什么样的一个估算方法

在命令下有三种估算方法

有 two stage least square

有限信息的 maximum likelihood

极大似然自然估计还有广义矩估计

那么我们就用two stage least square就可以了

之后是dependent variable就是y

然后 variable list是所有的控制变量

所有控制变量

之后 variable list two是内生解释

变量，以及所有的IV这样子来写

后面是option

那么这个是它的格式

所以大家可以跑一下

第二列的方程就是two stage least square

这一个方程来看一下它的结果

看一看这个结果跟我们的表5里面第二列的结果是不是

一样

好

大家可以看到跑出来的结果

education的系数

这是两阶段跑完之后的系数

0.891

这个标准误是0.016

那么来看一下我们这个论文里面第二列

0.891

这个标准误差是零点0.016

这个是一致的

也就是说这刚才那一个命令跑出来的结果就是对应表5的

第二列

那么我们就把这样的一个利用工具变量来做两阶段最小二乘

法的跑完了

非常简单

我们可以看到很简单就是这一个命令

把它格式写对就可以了

那么大家期末的作业其实就是这样的性质

我们通过几次workshop

那么你们就会慢慢的对这个就会越来越熟悉这样的一个

replication

那么后面这几个命令当然就是不断的加入新的控制变量

它对应的跟前面1357页是一样的

不断加入更多的控制变量来跑

那么大家可以自己跑一下

自己跑下来看一下

结果跑完之后一直跑到第8列

跑完之后对照完结果

我们再往后讨论

好

大家看一下我们在之前的公式里面写的第一阶段的方程

是不是也要把第二阶段的这些控制变量也要放到第一的

方程里面

刚才我们讨论过还有印象答疑的时候

同学们也提了这个问题

那么但是在写命令的时候

其实并没有这么写

那么写命令的时候其实并没有这么写

写命令的时候只把工具变量写到了后面的小括号里面，第一

阶段的方程里面

这是可以的

明白这一点

那么实际上你们也可以试一试

如果你们把前面这些控制变量都写到小括号里面

它跑出来结果是完全一样的

也就是说它知道只有education小括号等式左边

的这一个是内生解释变量

其它的变量都认为是工具变量

也就是外生变量

就是会按照我们的模型的设定来去跑

就先解释一下这一点

那么大家估算完第8列之后会看到这个结果跟论文里面的

结果也是一致的

那么接下来我们讨论的是两点

因为在这个里面生成了非常多的工具变量

它属于一个过度识别的情况

那么这个时候我们可以做很两件事情

第一个我们有工具变量

就可以反过来再去检验education到底是不是

一个内生解释变量

是不是

因为我们假设估计别人都是外生的

那么第二个我们当然也可以去解

也可以去来去看它是不是有过度识别的问题

也就是说这个地方所没有过的识别的问题是说当有这么多

工具变量

其中有的工具变量是属于内生的情况下

我们可以做这样的检验

那么过度识别的问题

用的命令就是overid

Over identification这样的一个

缩写

它是专门用在我们刚刚跑完这一个工具变量命令之后

我们就来去做这样的一个叫估算之后的一个检验

那么大家可以跑一下这一行

看一看它出的结果是什么样子的

2.20 IV workshop 2在线视频

2.20 IV workshop 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

2.20 IV workshop 2笔记与讨论

也许你还感兴趣的课程: