当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.10 Bad control 2
好
那么下面就请大家来算一下
根据前面那张表格
根据我们的 operational
scheme
就是我们观测的框架
那么你只能关注到他上不上大学
他现在的occupation
是blue还是white
那么你来去计算一下
这4种人群我们只能观测到4种人群
这4种人群
他们的收入
平均收入
分别是多少
大家看一下刚就是刚才左边
是我们刚才讨论过的表格
那么
我们可以看到
事实上我们观察到的
既上了大学
工作又是blue的
是不是只有一个人群 always
blue人群有这样一群人
所以说他的收入
1500我们就放在这
那么我们观察到
没上大学
然后
工作是blue的
包括两群人
那么包括 always blue和
blue white这两群人它们都
有
一些人是
既没上大学又做蓝领工作的
那么它们俩的均值
显然也是1500就是1000
那2000的均值就是1500
是这么来算的
那么没上大学还能做白领工作
只有一个人群就是3000
就放在这儿
就把它拷过来就可以了
那么
上了大学
又拿到白领工作的其实是两个人群对吧
一个是
always white
一个是blue white
但是我们是区分不了这两个人群的
我们只能看到一拨人
他们显现在平均工资
2500跟3500的均值也是3000
对不对
所以是这样的一个结果
大家来看
因为我们是无法区分这些人群的
刚才说过了
所以我们根据观测到的这样的一个情况
我们就会算出来
这样的4个值
那么根据这4个值的话
你会得出什么结论
大学对于提高工资有没有帮助
是不是没有帮助
对吧
都上白领的
都拿到白领工作的人
上不上大学工资都是3000
对不对
都做蓝领工作的人上不上大学
工资都是1500
所以你就看不到差异
也就是说
这个就是分层的思想
那么分层的思想在本质上它也是回归的
基础
大家可以看到
是不是当我们引入
职业这样的一个变量之后
因为我们又观测不到能力
它就混在这里面
使得
因为职业跟能力又是相关的
那么就使得我们最后观察
的或者说回归的结果
或者分层的比较结果
我们就会得出一个有偏的估计
对不对
所以我们用这样的一个简单的例子
就把
这样的一个bad control
的问题跟大家一起来剖析了一下
大家来看
本来我们加入控制变量
是为了能够帮我们做出更加的
无偏的估算
包括增加统计率等等
但是如果我们引入了一个bad
control的话
它反而会给我们带来什么
会给我们带来这个偏误
而这个偏误是非常的
严重的
那么occupation在
这样的一个研究问题里面
就属于这种bad control
原因是什么
原因
这个是我们刚才结论
原因就是
第一个
包括陪审大家都说到了
它是跟能力相关的
第二个大家想
occupation跟
工资是不是同时被选择的
也就是说
毕业生
它在选择行业职业的同时
因为不同的职业
我们确实观察到它得定它
定的工资是不一样的
它在选择职业的同时也选择了工资
在一定程度上
虽然在一个职业内部工资还是有很大的
变化空间的 是不是
所以其实这个变量
occupation它不是一个
控制变量
它其实是个结果变量
对不对
它其实也是一个选择的结果
好
它只不过是跟另外一个结果工资
它有很密切的关系
所以说大家在你们设计自己的研究的时候
一定要警惕是不是放入了这种变量进来
如果没有足够的警惕
往往是意识不到的
你们如果去查论文
早年的论文
很多都是会把occupation
放进去作为控制变量的
这是很多论文都是这样做的
很有问题的
好
关于我们对 bad control
的讨论
大家有没有问题
你有什么疑惑吗
或者觉得哪个地方没有说清楚
没有
没有的话
我再唠叨一句
我们今天就下课
今天我们可以早点下课
就是说我们讨论的问题
我们老在讨论
schooling
对于公司的影响
因为
schooling是
对人力资本的投资
那么实际上我想说的是什么
就是这些概念
虽然我们拿它作为研究或者
是作为一个教学的案例
但是这些概念本身
它只是一个非常狭隘的这么一个
一个判断标准
那么我们上学是不是就是为了
有更高的工资
包括 human
capital这个词 资本这个词
它本身
也是跟这种
工业革命以来
把人当做操纵机器的
劳动力来去培训的时候
产生了一系列概念
就相当于把人给
工具化了
就是我培养
培养这些人是为了让它能够
去操纵工操纵这些机器
包括操纵电脑
白领不就是操纵电脑是吧
等等
所以说
大家想说你要知道这样的一批研究
在过去几十年内这一批研究
它虽然占了主导
但实际上它的价值体系建立是在一个
非常有限的历史时段建立起来的
把人作为一种工具
作为经济发展的
一个要素来去看待的
实际上我们判断一个人的价值
你自己人生的这样的一个价值
很多时候它其实不是靠
收入来去判断的
大家自己我觉得都会有自己的很多体会
那么什么是你所追求的
等等
那么教育给你带来的是什么
或者你期待或者你作为一个教育研究者
你定义教育应该给人带来什么
我觉得这些其实是更重要的问题
它是远超出这样的一个
说schooling对于
工资影响这样的一个话题
所以我觉得虽然我们课上
用了很多这样的论文
但是我觉得
不应该被这样的一个思路所局限
尤其是在
我们的清华同学
你们在毕业找工作的时候
你们的考虑到底是一些物质条件和待遇
还是说你们的
事业和追求
我觉得这是一个很重要的话题
因为最近是毕业季
毕业季就接触过很多的
当然不一定是我们院的很多学生的
它的毕业的求职的选择
我觉得
真的是
你到底是在规划你的职业
还是在规划你的事业
这是两个很不一样的问题
规划职业就是说
我先去哪再去哪
我的职级怎么上升
我的工资会怎么上升
我的收入会怎么上升
这个叫规划职业
规划事业始终你到底要做什么事情
让这一生觉得非常有意义有价值
所以我觉得我们清华的毕业生
你要能够去规划你的事业
做一些有
有理想能够承担风有风险的事情
这个风险不是说我故意去
故意去挑事
做一些不靠谱的事 不是那个意思
而是说
你看不到它是不是会成功
但是你知道它的意义所在
我觉得做这样的事情可能会
对这一生会更加的
对 我觉得是一个更加
负责任的态度
而不是只是说
看到一个没有风险的
像我们的方程一样已经预测好
的这样的一个职业和医生
这个是我想给大家说的
这个是为什么
是因为最近看到很多毕业生的
职业选择
有一些这样的感慨
就是备课的时候我一看怎么
自己又举了这么个例子
所以我就觉得要跟大家补充一点
那么最后简单说一句
好 谢谢同学的反馈
那么 student cross
subject就是to
fix it at model
它并不是一个广泛使用的
主流的 model
因为它的市面非常窄
它就是想看教师对学生的影响
但我们知道实际上教师跟学生
它有一个自选择问题
对不对
它通过择班等等
它就会有一个自选择性
那么怎么样控制这种自选择性
它其实是用一个学生多个学科
的成绩和多个教师的
它们的
我们叫
特征的差异
来去把师生匹配之间的自选择性
给它剥离掉
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM