6.9 Bad control 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

同学们我们接着讨论的是单独的一个

专题 bad control

在bad control之前

要跟大家讨论一下

我们可以看到这些国外的教科书

它写的

其实跟国教科书是很不一样

我们之前也听同学们讨论过

说大家阅读的偏好的问题

你是喜欢一个

给你总结好的

公式一公式二公式三结论

这样的一种教科书

还是说

一种这种对话式的探讨式的

可能在中很多中国学生看来

然后罗嗦式的这样的教科书

这是一个很有意思的问题

那么

实际上这个问题我们之前讨论过

这种就像这本书 mastering metrics

它就像一个对话一样你读这本书

就类似于读小说

或者是你感觉你在跟

计量经济学的大师在跟他聊天

它其实是这么一种风格的书

而这样的书

它往往对于我们培养我们的思维

培养我们在对于数据底层的

结构性质以及它隐含的假设以及

这样的一些能够培养我们这种

数学直觉的

这样的一种能力

它是非常重要的

我们中国学生不怕计算

你不怕做题

啥都不怕

但是这种直觉

数字背后的含义

含义背后的假设

对这些的这种把握和判断分析甚至是创新

我觉得这个方面

是从小教育里面的欠缺的

因为我们从小都是

给标准答案

给总结好的东西

大家只需要把它理解记下来

会用就可以了

但是这个东西怎么来的

它的思考过程是什么

它为什么是这样子

我怎么样可以去改进它

这些东西我们是

过去是没有注重对这方面的训练的

所以现在大家读研究生

有这样的机会去

补课是非常重要的

对于你们未来的

无论做不做学术

你们的思维能力

和创新力都是很重要的

所以我就非常鼓励大家去读这种

对话式的

探讨式的

包括我们这堂课慢慢悠悠的

我们讨论这些分层

为什么希望我们要过一遍

这种数据的底层的逻辑

这是很重要

好下面还是这样的一种

东西在数学上你们不会觉得有什么挑战

但是我希望你们在数据的

底层以及分析思路上

能够有所收获

我们说一下什么是一个

非常不好的控制变量

经典的问题还是 schooling

对于未来收入到底有没有影响

这样的一个经典问题

咱们这个问题讨论很多次了

那么

这是一个非常简单的回归模型

log

收入

它是由 schooling

决定的

那么这个s是schooling

那么这个里面显然这个

s它是一个内生变量

因为

有很多因素它可能既影响了

schooling 也影响了

income

因此ρ是一个有偏的

这就是

一个问题

我们还有一些控制变量也很重要

我们也需要加进去

比如

我们会加入这个

我们说工龄或者说工作经验 x

那么

x它一般是怎么来计算

X就是它的年龄

减去schooling

也就是它的受教育年限在减去6岁

因为一般大家是从6岁开始上学的

所以

这个毕业以后的工作经历

那么这个就是experience

或者叫potential

experience

那么

这样的话因为我们都知道

这个人的工就是收入

它肯定跟它的经验是有关的

所以我们会加入这个变量而且是什么

而且是一个二二次多项式

因为

这也是观察的规律

所以就导致我们就刻画

这样的一个方程形态

收入

它随着经验会增加

但是增加的速度是递减的

因此我们就会引入2次项

所以大家可以看到一般来讲

我们可能会做出这样的一个估算

这是一个估算的结果

在某一个样本上的估算结果

Schooling对

yearly income

它是有一个正向的影响

经验

也是一个正向的影响

但是经验的平方

它的系数就是负的

其实刚才说了它是一个

二舅二阶导数为负的这样的一种情况

那么这个就是一个非常经典的回归

那么当然这个里面的一个问题

我们刚才讨论的

OVB的问题

比如说

能力对不对

能力强的人

它可能也能够读更多的书

这个是

一个非常形象的说法

也是一个经济教育经济学里面一个假设

因为读书是很有挑战的

也是非常suffering的

所以能力越强的人它能够被

才能够suffer时间越长一点

那么这也是一个信号理论

所以能力既影响schooling

又影响 income

但是能力往往是不可观测的

所以就被遗漏在残差项

里面就是OVB的问题

所以

还是刚才那个问题

所以说 a是ability

如果我们把它加上当然是非常理想的

但是我们往往是

观测不到

那么它就会被遗漏

当然了A就是阿贝特格斯古

利它是有一定相关性的

比如说用δ

这个系数来去表达

那么我们的

估算ρs有偏的估计

它就等于一个无偏估计ρl再加上一个

δ乘以γ

那么

这个就是 OVB的问题

大家想为什么刚才我们先说了

experience又说

ability

也就是说experience

是很容易观测的

我们可以非常安全的

把它放到这个方程里

但是 ability它虽然

我们也想把它放进来

但是我们观测不到它

这是它们俩的区别

那么还有什么变量因为

显然我们加控制变量是非常有好处的

对不对

加控制变量

可以减小残差

增加我们的 statistic

power对不对

还有像刚才我们前面的分层

之后的这种回归分析

其实它也可以从相当程度上去控制

和减小

我们的 selection bias

所以控制变量如果加的好是非常好的

所以我们刚才考虑的讨论的两种

控制变量一个是

像experience

这种明显需要加上

然后又可观测的数据

第二种实际上ability

这种也需要加上

但是不可观测的这种数据

那么还有什么

控制变量

我们可以考虑

是不是大家经常讨论的

occupation

职业

对不对

显然大家可以看到说在不同的职业

它的工资

它本来就不一样

那么

这个时候很多人就愿意把职业

作为一个控制变量

也放到

回归方程里面

你们觉得这个主意怎么样

**说过去的成绩

**说性别对这些变量呢

都可以考虑放进去

那么性别放进去

我们讨论的就是一个什么问题

是个性别差异问题

那么成绩放进去呢

也有很多人做这样的研究

有的就显着的就不显着

而且你要开放什么成绩

觉得有关系

这些都可以放

那么还有一个 occupation

职业对不对

那么

大家觉得说

有多少人支持

放入

放入职业

我说可以投票

放入职业的

多少人支持

你给打个弹幕

我是不是可以做

不太可能

不支持为什么

为什么

都不支持

共线性问题

共线

因为多所以放不进去吗

好

职业和能力有关，和其它变量有关

理由听上去更

更接近一点了

好

大家给了很好的反馈

有人支持吗

就没人支持吗

你们看了这么多文献

有没有谁看到

把职业作为控制变量

加进去的

首先职业会引起共线

这个事情是

不太可能的

我不理解怎么共线

是说职业跟别的变量共线是吗

这个要看

因为共线还是挺高的要求的

得0.70.8以上的相关

系数才会引起共线

公司类型也是类似一个概念

大家想想是不是

没看到过

除非你们看的文献不够多

其实很多文献都会把职业

放到控制变量里面

在研究收入的问题的时候

那么我们来看一下职业它放进去

到底会产生什么问题

它作为一个控制变量

共线我觉得不太可能

它就算跟能力或者跟其它因素相关

6.9 Bad control 1在线视频

6.9 Bad control 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.9 Bad control 1笔记与讨论

也许你还感兴趣的课程: