2.3 Self-selection bias慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

好

那么我们再简单的回忆一下自选择问题

那么当我们的自内生变量

它是一个连续变量的时候

我们又统称为内生变量

但是如果内生变量它是一个二元变量

01它是一个选择

比如说上不上学这件事情是不是上学

或者是不是上高中

因为高中不是义务教育阶段

那么是不是上高中这样的一个事情

那么这个时候就变成了一个自选的问题

因为0,1变量是能够去描述这样的一个选择的结果的

那么这个方程是没有变的

当我们把 x定义为一个二元变量的时候

我们往往用D D=1上学

D等于0就是不上学

这个时候我们产生一个概念

叫 potential

effect of y

y的可能的 outcome是什么

我等于说outcome也叫这个Yi 当di

等于1的时候

它就是Y1i

就是说现实中我观测到学生他去上学了

他上学了

那么就被定义为Y1i如果现实中学生他没有去上学

他没有上学

比如说没有上高中这么来解释

那么我观察到他未来的工资就是Y0i

是吧

这是一个分段函数

那么我们可以用同一个式子把它给整合在一起

就变成了 Y0i加上括号里Y1i减去Y0i乘以Di

那么这个时候大家看一下

Y1i减去Y0i它可以被理解为是Di的系数

也就是说两种potential outcome的差值

上学的这个效应

对于未来工资的效应

那么就是这样来解释的

这个式子大家是不是很熟悉

上学期你们是不是学过

学过吗

我们来回忆一下

这个是我们来分析自选择偏误的一个非常重要的一个公式

是一个等式

大家来看

首先这一部分我们一个一个来看

大家知道条件期望里面的条件是不是现实发生的

在我们回归方程里面

这个条件 Di是已知的变量

也就是说它的取值是我们知道的

它是给我们的一个additional的

Information

帮我们来更好的来去判断y的期望

对不对

那么所以在这个式子里第一部分Yi关于Di=1

的期望

条件期望

那么 dDi=1

也就是说我们现实中观测到了这个学生他上学他接受了

教育

接受了比如说高中教育这样子

那么这个时候他未来的工资的条件期望

我们当然就记成这样的一个式子

那么第二个式子是给定Di=0

也就是现实中我们知道这个孩子他没有上高中

那么他未来的工资就是Yi给定Di=0的期望

这一部分是observe

这个是我们可以观测到的

公司的平均的差值

这个是第一部分

它为什么等于第二部分

我们来看

首先这个式子第一个Y1i关于Di=1的条件

期望

是不是就等于Yi关于Di=1的期望

对吧

就这两个是它其实是一样的

因为我们已经定义好了

Yi有两种取值

一个是Y1i一个是Y0i，那么给定Di等于1的时候

Yi本来就等于Y1i，所以Y1i关于Di=1的

条件期望就等于 Yi关于Di=1的条件期望

这个是没有问题的

我们来看下1个式子

看看最后1个,最后这4个条件期望里的最后1个条件

希望这个 Y0i关于Di=0的条件

期望这个式子

它是不是就等于我们等号左边的第二个式子

Yi关于Di=0

的条件期望。解释跟刚才一样

那么给定Di=0

Yi的取值本来就是Y0i

这两个式子是一样的

然后我们是在等号的右边是减一项加一项

所以说等式依然成立

我们减一下加一下我们是搞了一个什么东西

大家来仔细看这个

它是Yi=1的时候

Y0i的条件期望。这个就是

counterfactual就是说跟事实违背的

为什么

因为这个是我们观测不到的

为什么观测不到

我们来看一下

首先Di=1是条件

也就是说在现实中

我们观测到这个孩子他去上学了

它接触了比如说高中教育

但是我要求它Y0i的这个期望值

也就是说如果他没去上学

因为Y0如果他没去上学

他未来的工资是多少

对吧

所以说条件期望的含义是这样子来解释的

也就是说对于一个在现实中

他已经去上学的孩子

我来去这个计算

如果它不去上学

他未来的工资是多少

这个值是不是我们永远观测不到

这个是我们观测不到的一个值

因为我们不可能让一个已经上过学的孩子

时光倒流又回去不上学

然后等到18岁以后工作

看看他能拿多少工资

我们是做不到的

因此这个是永远观测不到的一个值

但是它在概念中是存在的

它有这个概念

只是我们观测不到

我们把这两个式子把第一个条件希望跟第二个条件希望

放到一起来去看它的差值的时候

它的含义就非常有意思了

也就是说我们针对的人群是同一个人群

都是Di=1的

也就是说现实中确实去上学的这群孩子

第一个条件希望是他上学以后

好

我们讲完这个式子

下课

那么这个是他上学以后

如果他上学它的它未来公司的期望值是多少

这个是他没上学

他这边的工资期望是多少

这个是不是就是一个一个非常明确的含义

也就是说对于上学的那些孩子被treated了

接受了treatment

接受了教育的这群孩子

他的平均的处理效应就未来工资的差值

那么这个含义是很清楚的

我们来看第二个组合

也就是说第一个式子

它是针对Di=1的这群人

就是现实中上学的这群学生

跟Di=0的这些人

就是现实之中没有去上学的这群孩子

如果他们都不上学

他们的工资的期望值的差值是多少

这是第二个差值的含义

这个差值就很有意思了

因为我们都求的是它如果不上学

他们未来的工资的均值是多少

期望是多少

那么但是人群不一样

一个是上现实中上学的人群

一个是现实中没有上学的人群

那么这个时候他们俩的差值代表的是人群的差异

因为都没有上学

都没有上学

这两群人如果未来的工资有差异

那就是人群的差异

不是教育给他们带来的差异

这个就是我们称为的选择偏误

也就是说这是因为这两个人群本来就不一样而带来的偏误

这一部分是我们不想要的

好

我们先休息5分钟

好

刚才*在讨论区里问了一个很好的问题

是不是只有是二分变量的时候才算自选择偏误

如果是 multiple categories

比如说三种以上的这种选择

如果也是有自选择性的话

是不是自选的偏误都算

这些都算

只不过是两种是最简单的一种方式

但它的特点就是什么

它一定是离散的

它有确实是几种选择摆在面前

然后你选一种它不能是一个连续变量

如果连续变量就不能算是一个自选择问题了

我们叫它内生性问题是更一般的问题

Ok我们继续来讨论

大家想第二部分

我换一个颜色

自选择偏误这一部分

这一块，大家想就上高中这件事情

因为高中不是义务教育

那么学生和家长可以选择不上高中

也可以选择上高中

什么样的学生会更倾向于上高中

什么样的学生就倾向于不上高中的

根据中国社会的现在这个特点

是不是比如说农村的学生他是不是更有可能选择不上高中

因为上高中往往是为他们上大学做准备的

现在劳动力市场可能上一个一般的大学毕业以后挣的工资

也不见得就比初中毕业就开始工作

等熬到22岁的时候的工资更高

是不是

所以其实你们可以看到很多农村地区偏远的农村地区

很多孩子是初中可能没读完或者是读完初中

他们可能就去工作了

去一些大城市去打工了

那么这个就是一个自选的问题

也就是这两群人它们可能在家庭背景上

在前期因为家庭背景而带来的前期的教育的质量上都有

差异

那么这两天人如果它们都不上高中

那么他们等到比如说18岁以后去工作

那么他们的工资收入可能是也本来就是不一样的

那么自选的偏误大家想

如果我们不能把绿色这一部分自选择偏误

把他给剥离掉的话

我们直接去观察上高中的学生

跟不上高中的学生他们未来工资的差异

这样的一个简单的均值比较是不是不准确的

对吧

那么这个不准确的部分就是自选择偏误

这里面就有几个很重要的概念

一个是 ATE平均处理效应

平均处理效应

平均处理效应是说我们想得到的

比如说高中教育假设这么说

因为这选择是选择问题

我们就是高中教育

高中教育对于整个人群全国的适龄人群来讲

那么对于他们未来工资的影响是多少

这个是一个everage treatment effect

它是在整个population上来去探讨的问题

但是我们直接观察到的平均处理效应

它是有偏误的

偏误在于自选择部分

因此我们把它剥离成了两部分

一部分叫ATT刚才上面这一部分就是average

treatment effect on the

treated

事中我们观察到它确实自选择上的高中的学生

他未来的工资上不上高中

他未来工资的差异

那么这个是这个是ATT，也就是说它是高中教育

对于已经接受了高中教育的人来讲

它的影响是多大

那么大家想那么对应的一个概念就是说对于现实中没有上

高中的孩子

那么我们还有一个概念叫做ATNT就是everage

treatment effect on the

non-treated

对于现实中没有接受干预的这些人

没有接受高中教育的这些人

那么如果他上了高中跟它不上高中

他未来工资的差异

那么是不是也是一种treatment effect

只是我们真的人群不一样

大家想 ATT跟 A TNT是不是必然的相等呢

对于这两个人群

假设我们说一个人群是偏远农村地区的

同时家里面又对教育没有这么重视的这样的一个人群

那么剩下的就是另外一个人群

显然另外一个人群他就是孩子就上了高中

那么这两个人群

一个是treated

就是现实中接受了treatment的这群人

还有一个人群是现实中没有接受treatment的人群

那么高中教育本身对于他们的未来工资的影响

平均影响 ATT跟ATNT它是不是相等的呢

它不必然相等

是不是

那不必然相等

那么它可能对一个人群的作用可能会更大

这个是很显然的

是不是

因为每一个人群对于一个处理它的它的收益可能收获可能

是不一样的

好

这个问题我们会在RCT的那一节

第5周我们会想更详细地讨论

这是一个典型的selection bias的问题

好

那么我们就把内生变量给解释清楚了

内生变量内生变量有两种

一种是连续的变量

一种是不连续的变量

不连续的变量在很多情况下它有非常具体的含义

它就变成了一个自选择偏误的问题

我们再回忆一下这种情况

我们的residual写错了

这个是应该都写成 ε

ε跟 x那么它的相关系数为0的

情况下

x就是一个外生变量

这个是我们就直接跑OLS就可以了

那么还有一种情况就是非常不幸的我们的

residual大家可以看到它是浅蓝的部分

剩下的面积再加上红色阴影面积

那么因此红色阴影面积就是x跟 residual的

重叠的这一部分面积

使得 z轴跟我们的x是相关的

这时候x就变成了一个内生解释变量

违背了OLS的基本假设

2.3 Self-selection bias在线视频

2.3 Self-selection bias课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

2.3 Self-selection bias笔记与讨论

也许你还感兴趣的课程: