当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.9 Bad control 1
好
同学们我们接着讨论的是单独的一个
专题 bad control
在bad control之前
要跟大家讨论一下
我们可以看到这些国外的教科书
它写的
其实跟国教科书是很不一样
我们之前也听同学们讨论过
说大家阅读的偏好的问题
你是喜欢一个
给你总结好的
公式一公式二公式三结论
这样的一种教科书
还是说
一种这种对话式的探讨式的
可能在中很多中国学生看来
然后罗嗦式的这样的教科书
这是一个很有意思的问题
那么
实际上这个问题我们之前讨论过
这种就像这本书 mastering metrics
它就像一个对话一样 你读这本书
就类似于读小说
或者是你感觉你在跟
计量经济学的大师在跟他聊天
它其实是这么一种风格的书
而这样的书
它往往对于我们培养我们的思维
培养我们在对于数据底层的
结构性质以及它隐含的假设以及
这样的一些能够培养我们这种
数学直觉的
这样的一种能力
它是非常重要的
我们中国学生不怕计算
你不怕做题
啥都不怕
但是这种直觉
数字背后的含义
含义背后的假设
对这些的这种把握和判断分析甚至是创新
我觉得这个方面
是从小教育里面的欠缺的
因为我们从小都是
给标准答案
给总结好的东西
大家只需要把它理解记下来
会用就可以了
但是这个东西怎么来的
它的思考过程是什么
它为什么是这样子
我怎么样可以去改进它
这些东西我们是
过去是没有注重对这方面的训练的
所以现在大家读研究生
有这样的机会去
补课是非常重要的
对于你们未来的
无论做不做学术
你们的思维能力
和创新力都是很重要的
所以我就非常鼓励大家去读这种
对话式的
探讨式的
包括我们这堂课慢慢悠悠的
我们讨论这些分层
为什么希望我们要过一遍
这种数据的底层的逻辑
这是很重要
好 下面还是这样的一种
东西在数学上你们不会觉得有什么挑战
但是我希望你们在数据的
底层以及分析思路上
能够有所收获
我们说一下什么是一个
非常不好的控制变量
经典的问题还是 schooling
对于未来收入到底有没有影响
这样的一个经典问题
咱们这个问题讨论很多次了
那么
这是一个非常简单的回归模型
log
收入
它是由 schooling
决定的
那么这个s是schooling
那么这个里面显然这个
s它是一个内生变量
因为
有很多因素它可能既影响了
schooling 也影响了
income
因此ρ是一个有偏的
这就是
一个问题
我们还有一些控制变量也很重要
我们也需要加进去
比如
我们会加入这个
我们说工龄或者说工作经验 x
那么
x它一般是怎么来计算
X就是它的年龄
减去schooling
也就是它的受教育年限在减去6岁
因为一般大家是从6岁开始上学的
所以
这个毕业以后的工作经历
那么这个就是experience
或者叫potential
experience
那么
这样的话因为我们都知道
这个人的工就是收入
它肯定跟它的经验是有关的
所以我们会加入这个变量 而且是什么
而且是一个二二次多项式
因为
这也是观察的规律
所以就导致我们就刻画
这样的一个方程形态
收入
它随着经验会增加
但是增加的速度是递减的
因此我们就会引入2次项
所以大家可以看到一般来讲
我们可能会做出这样的一个估算
这是一个估算的结果
在某一个样本上的估算结果
Schooling对
yearly income
它是有一个正向的影响
经验
也是一个正向的影响
但是经验的平方
它的系数就是负的
其实刚才说了它是一个
二舅二阶导数为负的这样的一种情况
那么这个就是一个非常经典的回归
那么当然这个里面的一个问题
我们刚才讨论的
OVB的问题
比如说
能力对不对
能力强的人
它可能也能够读更多的书
这个是
一个非常形象的说法
也是一个经济教育经济学里面一个假设
因为读书是很有挑战的
也是非常suffering的
所以能力越强的人它能够被
才能够suffer时间越长一点
那么这也是一个信号理论
所以能力既影响schooling
又影响 income
但是能力往往是不可观测的
所以就被遗漏在残差项
里面就是OVB的问题
所以
还是刚才那个问题
所以说 a是ability
如果我们把它加上当然是非常理想的
但是我们往往是
观测不到
那么它就会被遗漏
当然了A就是阿贝特格斯古
利它是有一定相关性的
比如说用δ
这个系数来去表达
那么我们的
估算ρs有偏的估计
它就等于一个无偏估计ρl再加上一个
δ乘以γ
那么
这个就是 OVB的问题
大家想为什么刚才我们先说了
experience又说
ability
也就是说experience
是很容易观测的
我们可以非常安全的
把它放到这个方程里
但是 ability它虽然
我们也想把它放进来
但是我们观测不到它
这是它们俩的区别
那么还有什么变量 因为
显然我们加控制变量是非常有好处的
对不对
加控制变量
可以减小残差
增加我们的 statistic
power对不对
还有像刚才我们前面的分层
之后的这种回归分析
其实它也可以从相当程度上去控制
和减小
我们的 selection bias
所以控制变量如果加的好是非常好的
所以我们刚才考虑的讨论的两种
控制变量 一个是
像experience
这种明显需要加上
然后又可观测的数据
第二种实际上ability
这种也需要加上
但是不可观测的这种数据
那么还有什么
控制变量
我们可以考虑
是不是大家经常讨论的
occupation
职业
对不对
显然大家可以看到说在不同的职业
它的工资
它本来就不一样
那么
这个时候很多人就愿意把职业
作为一个控制变量
也放到
回归方程里面
你们觉得这个主意怎么样
**说过去的成绩
**说性别对这些变量呢
都可以考虑放进去
那么性别放进去
我们讨论的就是一个什么问题
是个性别差异问题
那么成绩放进去呢
也有很多人做这样的研究
有的就显着的就不显着
而且你要开放什么成绩
觉得有关系
这些都可以放
那么还有一个 occupation
职业对不对
那么
大家觉得说
有多少人支持
放入
放入职业
我说可以投票
放入职业的
多少人支持
你给打个弹幕
我是不是可以做
不太可能
不支持 为什么
为什么
10
都不支持
共线性问题
共线
因为多所以放不进去吗
好
职业和能力有关,和其它变量有关
理由听上去更
更接近一点了
好
大家给了很好的反馈
有人支持吗
就没人支持吗
你们看了这么多文献
有没有谁看到
把职业作为控制变量
加进去的
首先职业会引起共线
这个事情是
不太可能的
我不理解怎么共线
是说职业跟别的变量共线是吗
这个要看
因为共线还是挺高的要求的
得0.70.8以上的相关
系数才会引起共线
公司类型也是类似一个概念
大家想想是不是
没看到过
除非你们看的文献不够多
其实很多文献都会把职业
放到控制变量里面
在研究收入的问题的时候
那么我们来看一下职业它放进去
到底会产生什么问题
它作为一个控制变量
共线我觉得不太可能
它就算跟能力或者跟其它因素相关
相关性如果没达到0.7
0.8的话是不会共线的
职业多也没关系
我们有职业分类标准是吧
只要你要不然足够大
你放弃这个专业进去也没有关系
但是大家提到一点
我觉得很重要
就是这个职业跟能力
它可能是有关系的
可能是有关系
但也不必然是有关系
我们来看
如果放进去它会有什么问题
那么这个还是在美国背景下的一个例子
因为这个书是美国人写的
我们用最简化的一种调节
上大学跟不上大学 schooling
schooling
我们就把它简单定义为上大学
和不上大学这两种情况
那么这个职业我们也非常简化
的把它简化为白领和蓝领
当然还有其它的
职业 那么它又是
这样的一个情况
那么这里面
我们来看一下
我们把这个人养人的能力
分为三个层级
能力稍微低一点的能力中等
的和能力稍微高一点的
因为这三个层级
那么
这能力体现在哪方面
能力是不可观测的
但是能力它能出来体现在哪方面
大家来看
对于这个能力稍微低一些的人
它不论上不上大学
它大学毕业以后
它就只能找到蓝领的工作
这个就是能力比较低一点的
能力高一点的人有什么特点呢
它不是上不上大学
它都能找到白领工作
这凭能力就是说白了没有凭它的
文凭
那么这个就是能力稍微高一些的人
能力中等的人
它上大学的话 它就能
找到白领工作
它不上大学
它就只能找到蓝领工作
大学对它的提升还是
更重要一些 这么来看
在职业的选择上
所以这一点就能够显现出它的能力的差异
我们来这么来去定义人群
我们来看这三组人
这三组人它们的收入会有什么样的情况
对于always blue来讲
always blue
如果它
always blue它就只能
找到白领工作 但是
如果它上大学假设
ground truth就是说
大学
给人带来的收入的增值是
500 500美元
所以说即便他都是从事蓝领的工作
它如果上大学之后
他的工资就可以从1000变成1500
同样
对于 blue white就是说上
大学 white不上大学是blue
对于 blue white人群
也一样
他上不上大学
他是蓝领工作
他的是因为他能力更强一些
他比前面这一类能力更强一点
他的工资是2000
他如果再读一个大学的话
他的工资就可以达到2500
并且换成了白领
那么对于能力更高的人群就always
white
他不上大学
他也拿到白领的工作
他的工资是3000
如果它在上一个大学的话
它的工资就是3500
其实大学给他带来的收益500块钱
那么这就是我们模型的设定
这个是什么
这个是truth
这是真实的
但是并不是我们能观测到的
因为我们观测不到人的能力
我们不知道谁是always blue
谁是
always white
谁是blue white
大家注意
我们只能够观测到它
要么就是white 要么就是不入
就是说 potential
outcome我们只能看到一种
这个是
这个情况
所以这个是真实
真实发生的
但是我们观测不到的这样的一个数据结构
我们只能观测到大家听清楚
因为后面要做题了
我们只能观测到
第一个他上不上大学
第二个他现在的工作到底是蓝领还是白领
我们只能关注到这两个变量
我们观测不到 always
blue white
这些东西
也就是说我们看不到这个东西
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM