6.5 Confrol for covariates慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

我的意思我们是不是可以

把这个层分的更细

使得每一层内部的学生的差异更小

因为这些学生他除了在家庭

收入上有差异之外

他是不是

还在其他方面有差异

比如说学习能力对不对

或者说我们要初始的学习的水平

所以我们现在又加入一个新的变量

来分层就是 achievement

他八年级basic的数学成绩

作为他的

分层的另外一层标准

因为大家可以看到确实去私立学校的学生

他如果你印象里面还有那张图的话

去私立学校学生他的成绩整体

它是比去公立学校要好的

那么这个里面很有可能是

本来就是成绩高的学生

他就更

有更大的可能性去到私立学校

所以我们把这个成绩分成四等

这个就是high

medium high

medium low和low分成4档

我们在每一个家庭收入等级内部

又按照数学成绩

basic的数学成绩

又把它分成了4层

这样就是三四十二层

三四十二层表的结构刚才是一样的

那么在每一层是不是都可以算出

统计出

它的样本量是不是以及在这一层里面学生

的在十二年级的数学成绩的均值

以及均值的差值

对吧

那么

这个层分的就更细了

我们这个里面这张表没有报告每一层的

他的家庭收入或者是成绩的

variation

相信他是更小

那么

这样的话大家看 difference

相当于是一个更加令我们觉得

可更加无偏的一个估计

因为

他差值不仅他的家庭收入等级是一样的

连他在八年级的初始的数学

成绩也是比较类似的

在同一个等内

等级内部

那么我们来看

那么经过4年之后到十二年级

他们的数学成绩的差值就报在

difference这一列里面

大家可以看是不是很多差值它都不显着了

已经很多差值不显着了

但有一些还是显著

那么这组就会是更加无偏的一组估计

那么同样我们用刚才的方法

我们就可以分别算出ATE跟ATT来

对不对

那么

这个算出来是1.5和1.3

大家看这个是不是就比

刚才33.01左右

差值这样的一个估算

又要低了很多是不是

那么降低的这一块

我们也认为它就是bias，被我们

非常成功的去掉了

那么这个就是分层给我们带来了一个

非常明显的好处

它这个逻辑是很简单的

而且是非常的

直接

straightforward

更没有什么回归的这种理念

它这个分层是什么

就是说当我把层分的足够细的时候

每一层内部的人群是可比的

这个时候

他们唯一的差异就是一组人上了私立学校

一组人上了公立学校

这个时候他们差异的均值就应该

是私立学校带来的影响

对不对同学们

这个逻辑一定要搞清楚

我们没有用到任何的这种更高

更复杂的这样的一些逻辑

但是这个里面

有一个很重要的问题是什么

大家可以看到这个地方有蓝色

蓝色线画出来的这几个

这几个cell这几个单元格

那么这个里面的

样本量

怎么样

非常的小

样本量非常小

甚至有的单元格里面只有一个样本

或者两个样本

那么这个会给我们带来很多的

困扰样本量太少的话

它估算是非常不稳定的

方差会非常大

甚至大家想一下

如果我继续细分

比如说我再加一层我加一层性别

等等

如果可能在有的单元格里面

有的层里面

他可能就没有样本了

比如说我再分一个性别的话

那么这一个样本对不对

他肯定就是要么就是男生空格是0

要么就是女生那个空格是0

这个时候

我们就会出现这种没有样本的单元格

就是层

这个时候我们是怎么做对比

就会变得非常困难

那么我们

这就是分层分的更细的时候面临的问题

但是你分的太粗的话

他又不能够把所有的bias都解决

对不对

你看现在很明显分两层

就是分12层

用两个变量分12层

跟用一个变量分三层

他去

剥离掉的巴耶斯的能力是完全不一样的

是不是显然分的更细是更好的

也是符合这个逻辑的

但是你分的细以后

有的单元格里面没有样本了

或者样本量非常少

也会对我们估算带来麻烦

这个就是分层

带来的这种问题

因此

我们可以干什么

我们可以

想到

咱们早就用过的方法就是回归

我就是把

刚才用到的分层用到的这些变量

我把它作为协变量

扔到回归方程里面

之前的简单回归只有一个

自变量

就是我们要的 catholic变量

那么现在我加了更多控制变量

是不是就可以了

那么这个地方表格 a

a和b就是这两列

他分别报告了两种来去

定义自变量的这样的方式

一个就是用的分层那些变量

就分层变量全都是二元变量

分了很多层就是交互项

因为交互项等于

把这两两种分层就把它给放在一起了

你这12层

我们可以把它跑出来

这是一个

第二就是用连续变量他的家庭收入

家庭收入等级

我取等级的范围的中位中间

中位数作为家庭收入

把它变成一个连续变量

就变成一个变量了

还有八年级的数学成绩本来就是一个

连续变量以及它们的交互项

那么

把它放进去这就是第二点

所以说会跑出两种结果

分别是

1.33和1.66

所以这个也是能够很好的去处理

我们刚才担心的这两种因素所带来的偏误

所以整体上大家可以看到用简单的ols

也就是说没有其实均值比较

那么做了3.8

到我们使用分层和加控制变量

都可以有效的去降低 bias

但是这二者

都有很多问题

问题

第一个刚才我们讨论过了

分层的问题

也就是我们忽略的

在有一些空格里面

有一些 cell里面

他的数据是非常稀少的

数据是稀少或者没有的

这个会给我们带来很多的估算的这种困难

刚才说过了

但是用控制变量

控制变量

用控制变量跟分层在本质上他们

在理论上概念上其实是一致的

但是在具体的

数学假设它是不一致的

最重要一点是什么

最重要一点是说

用这个OLS它其实是假设

在每一层内部

私立学校相对于公立学校对于学生的影响

是一样的

对不对因为他做了一个

统一的一个回归

他在所有的这些cell上他

直接都跑了同样的一个回归

所以它其实是有一个非常隐含的假设

这个effect它是

homogeneously

homogeneous

同质性的一种

影响

而不是刚才我们在画图的时候看到的

这种heterogeneous

这种异质性的影响

OLS假设它就是

都一样的影响在所有的单元格里面

你不论是哪一个收入等级无论是

你是哪一个成绩等级

私立学校必须要对你影响是一样大的

假设是很强的

对不对

他往往也是不满足的

包括它还有异方差性

同方差性它也假设它的同方差

但很有可能它是异方差性的这些

假设都隐含在这里面的

包括我们也认为它也是

有固定的方程形态的

前面做这种均值比较

其实我们并没有去规定什么

没有规定方程形态

相当于类似一个非常孤寂

但是到OLS其实它是有一个

非常强的方程形态的估计

它的好处是什么

好处是说

我可以跨这么多cell

然后做一次估算

我就不用再去担心

因为某一个cell里面的样本量太少

或者没有样本量

所带来的这种

方差过大或者无法

对比这样的一些尴尬的问题

大家想如果某一个Excel没有样本量

那么它的另外一个对应的 cell

里面的这些样本

他就只能去跟其他的cell

里面的样本去做对比

这个对比是错误的对不对

要么就把这个样本就浪费掉了

这也不合适

但是在回归里面就没有担心为什么

它假设在所有cell里面的

effect是一样大的

这时候假设类似于平行的这样的一个假设

我就可以利用这个假设

我就可以跨cell来去做这种对比

所以它这是efficiency

那么但是它加的是一个强加的是一个条件

在所有的cell里面

这个效应是一样的

所以这个也是OLS的局限

在这样的一个问题下

我说明白了吧

同学们有没有什么问题

因为前面看大家小组讨论的

时候就讨论到这个地方

他们俩到底行不行

能不能解决我们的问题

自选择问题以及这两种方法

之间的区别是什么

在这些隐含的假设下他们是不一样的

但是在理念上整体上是一样的

6.5 Confrol for covariates在线视频

6.5 Confrol for covariates课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.5 Confrol for covariates笔记与讨论

也许你还感兴趣的课程: