当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.3 Self-selection bias
好
那么我们再简单的回忆一下自选择问题
那么当我们的自内生变量
它是一个连续变量的时候
我们又统称为内生变量
但是如果内生变量它是一个二元变量
01它是一个选择
比如说上不上学这件事情是不是上学
或者是不是上高中
因为高中不是义务教育阶段
那么是不是上高中这样的一个事情
那么这个时候就变成了一个自选的问题
因为0,1变量是能够去描述这样的一个选择的结果的
那么这个方程是没有变的
当我们把 x定义为一个二元变量的时候
我们往往用D D=1上学
D等于0就是不上学
这个时候我们产生一个概念
叫 potential
effect of y
y的可能的 outcome是什么
我等于说outcome也叫这个Yi 当di
等于1的时候
它就是Y1i
就是说现实中我观测到学生他去上学了
他上学了
那么就被定义为Y1i如果现实中学生他没有去上学
他没有上学
比如说没有上高中这么来解释
那么我观察到他未来的工资就是Y0i
是吧
这是一个分段函数
那么我们可以用同一个式子把它给整合在一起
就变成了 Y0i加上括号里Y1i减去Y0i乘以Di
那么这个时候大家看一下
Y1i减去Y0i它可以被理解为是Di的系数
也就是说两种potential outcome的差值
上学的这个效应
对于未来工资的效应
那么就是这样来解释的
这个式子大家是不是很熟悉
上学期你们是不是学过
学过吗
我们来回忆一下
这个是我们来分析自选择偏误的一个非常重要的一个公式
是一个等式
大家来看
首先这一部分我们一个一个来看
大家知道条件期望里面的条件是不是现实发生的
在我们回归方程里面
这个条件 Di是已知的变量
也就是说它的取值是我们知道的
它是给我们的一个additional的
Information
帮我们来更好的来去判断y的期望
对不对
那么所以在这个式子里第一部分Yi关于Di=1
的期望
条件期望
那么 dDi=1
也就是说我们现实中观测到了这个学生他上学他接受了
教育
接受了比如说高中教育这样子
那么这个时候他未来的工资的条件期望
我们当然就记成这样的一个式子
那么第二个式子是给定Di=0
也就是现实中我们知道这个孩子他没有上高中
那么他未来的工资就是Yi给定Di=0的期望
这一部分是observe
这个是我们可以观测到的
公司的平均的差值
这个是第一部分
它为什么等于第二部分
我们来看
首先这个式子第一个Y1i关于Di=1的条件
期望
是不是就等于Yi关于Di=1的期望
对吧
就这两个是它其实是一样的
因为我们已经定义好了
Yi有两种取值
一个是Y1i一个是Y0i,那么给定Di等于1的时候
Yi本来就等于Y1i,所以Y1i关于Di=1的
条件期望就等于 Yi关于Di=1的条件期望
这个是没有问题的
我们来看下1个式子
看看最后1个,最后这4个条件期望里的最后1个条件
希望这个 Y0i关于Di=0的条件
期望这个式子
它是不是就等于我们等号左边的第二个式子
Yi关于Di=0
的条件期望。解释跟刚才一样
那么给定Di=0
Yi的取值本来就是Y0i
这两个式子是一样的
然后我们是在等号的右边是减一项加一项
所以说等式依然成立
我们减一下加一下我们是搞了一个什么东西
大家来仔细看这个
它是Yi=1的时候
Y0i的条件期望。这个就是
counterfactual就是说跟事实违背的
为什么
因为这个是我们观测不到的
为什么观测不到
我们来看一下
首先Di=1是条件
也就是说在现实中
我们观测到这个孩子他去上学了
它接触了比如说高中教育
但是我要求它Y0i的这个期望值
也就是说如果他没去上学
因为Y0如果他没去上学
他未来的工资是多少
对吧
所以说条件期望的含义是这样子来解释的
也就是说对于一个在现实中
他已经去上学的孩子
我来去这个计算
如果它不去上学
他未来的工资是多少
这个值是不是我们永远观测不到
这个是我们观测不到的一个值
因为我们不可能让一个已经上过学的孩子
时光倒流又回去不上学
然后等到18岁以后工作
看看他能拿多少工资
我们是做不到的
因此这个是永远观测不到的一个值
但是它在概念中是存在的
它有这个概念
只是我们观测不到
我们把这两个式子把第一个条件希望跟第二个条件希望
放到一起来去看它的差值的时候
它的含义就非常有意思了
也就是说我们针对的人群是同一个人群
都是Di=1的
也就是说现实中确实去上学的这群孩子
第一个条件希望是他上学以后
好
我们讲完这个式子
下课
那么这个是他上学以后
如果他上学它的它未来公司的期望值是多少
这个是他没上学
他这边的工资期望是多少
这个是不是就是一个一个非常明确的含义
也就是说对于上学的那些孩子被treated了
接受了treatment
接受了教育的这群孩子
他的平均的处理效应就未来工资的差值
那么这个含义是很清楚的
我们来看第二个组合
也就是说第一个式子
它是针对Di=1的这群人
就是现实中上学的这群学生
跟Di=0的这些人
就是现实之中没有去上学的这群孩子
如果他们都不上学
他们的工资的期望值的差值是多少
这是第二个差值的含义
这个差值就很有意思了
因为我们都求的是它如果不上学
他们未来的工资的均值是多少
期望是多少
那么但是人群不一样
一个是上现实中上学的人群
一个是现实中没有上学的人群
那么这个时候他们俩的差值代表的是人群的差异
因为都没有上学
都没有上学
这两群人如果未来的工资有差异
那就是人群的差异
不是教育给他们带来的差异
这个就是我们称为的选择偏误
也就是说这是因为这两个人群本来就不一样而带来的偏误
这一部分是我们不想要的
好
我们先休息5分钟
好
刚才*在讨论区里问了一个很好的问题
是不是只有是二分变量的时候才算自选择偏误
如果是 multiple categories
比如说三种以上的这种选择
如果也是有自选择性的话
是不是自选的偏误都算
这些都算
只不过是两种是最简单的一种方式
但它的特点就是什么
它一定是离散的
它有确实是几种选择摆在面前
然后你选一种它不能是一个连续变量
如果连续变量就不能算是一个自选择问题了
我们叫它内生性问题是更一般的问题
Ok我们继续来讨论
大家想第二部分
我换一个颜色
自选择偏误这一部分
这一块,大家想就上高中这件事情
因为高中不是义务教育
那么学生和家长可以选择不上高中
也可以选择上高中
什么样的学生会更倾向于上高中
什么样的学生就倾向于不上高中的
根据中国社会的现在这个特点
是不是比如说农村的学生他是不是更有可能选择不上高中
因为上高中往往是为他们上大学做准备的
现在劳动力市场可能上一个一般的大学毕业以后挣的工资
也不见得就比初中毕业就开始工作
等熬到22岁的时候的工资更高
是不是
所以其实你们可以看到很多农村地区偏远的农村地区
很多孩子是初中可能没读完或者是读完初中
他们可能就去工作了
去一些大城市去打工了
那么这个就是一个自选的问题
也就是这两群人它们可能在家庭背景上
在前期因为家庭背景而带来的前期的教育的质量上都有
差异
那么这两天人如果它们都不上高中
那么他们等到比如说18岁以后去工作
那么他们的工资收入可能是也本来就是不一样的
那么自选的偏误大家想
如果我们不能把绿色这一部分自选择偏误
把他给剥离掉的话
我们直接去观察上高中的学生
跟不上高中的学生他们未来工资的差异
这样的一个简单的均值比较是不是不准确的
对吧
那么这个不准确的部分就是自选择偏误
这里面就有几个很重要的概念
一个是 ATE平均处理效应
平均处理效应
平均处理效应是说我们想得到的
比如说高中教育假设这么说
因为这选择是选择问题
我们就是高中教育
高中教育对于整个人群全国的适龄人群来讲
那么对于他们未来工资的影响是多少
这个是一个everage treatment effect
它是在整个population上来去探讨的问题
但是我们直接观察到的平均处理效应
它是有偏误的
偏误在于自选择部分
因此我们把它剥离成了两部分
一部分叫ATT刚才上面这一部分就是average
treatment effect on the
treated
事中我们观察到它确实自选择上的高中的学生
他未来的工资上不上高中
他未来工资的差异
那么这个是这个是ATT,也就是说它是高中教育
对于已经接受了高中教育的人来讲
它的影响是多大
那么大家想那么对应的一个概念就是说对于现实中没有上
高中的孩子
那么我们还有一个概念叫做ATNT就是everage
treatment effect on the
non-treated
对于现实中没有接受干预的这些人
没有接受高中教育的这些人
那么如果他上了高中跟它不上高中
他未来工资的差异
那么是不是也是一种treatment effect
只是我们真的人群不一样
大家想 ATT跟 A TNT是不是必然的相等呢
对于这两个人群
假设我们说一个人群是偏远农村地区的
同时家里面又对教育没有这么重视的这样的一个人群
那么剩下的就是另外一个人群
显然另外一个人群他就是孩子就上了高中
那么这两个人群
一个是treated
就是现实中接受了treatment的这群人
还有一个人群是现实中没有接受treatment的人群
那么高中教育本身对于他们的未来工资的影响
平均影响 ATT跟ATNT它是不是相等的呢
它不必然相等
是不是
那不必然相等
那么它可能对一个人群的作用可能会更大
这个是很显然的
是不是
因为每一个人群对于一个处理它的它的收益可能收获可能
是不一样的
好
这个问题我们会在RCT的那一节
第5周我们会想更详细地讨论
这是一个典型的selection bias的问题
好
那么我们就把内生变量给解释清楚了
内生变量内生变量有两种
一种是连续的变量
一种是不连续的变量
不连续的变量在很多情况下它有非常具体的含义
它就变成了一个自选择偏误的问题
Ok
我们再回忆一下这种情况
我们的residual写错了
这个是应该都写成 ε
ε跟 x那么它的相关系数为0的
情况下
x就是一个外生变量
这个是我们就直接跑OLS就可以了
那么还有一种情况就是非常不幸的我们的
residual大家可以看到它是浅蓝的部分
剩下的面积再加上红色阴影面积
那么因此红色阴影面积就是x跟 residual的
重叠的这一部分面积
使得 z轴跟我们的x是相关的
这时候x就变成了一个内生解释变量
违背了OLS的基本假设
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM