6.4 Stratification慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

我们现在进入什么环节

我们现在进入

对分层的讨论

分层这个概念是一个非常

回归原始的这样一个概念

你们的脑子里不需要有回归

也不需要psm

讨论说

当你就会简单的加减乘除

你看到这样的数据

你意识到这个里面有自选择偏误

你怎么样把这个自选择偏误给剖析出来

剥离出来

我们就讨论这样的一个问题

这个是一个非常好的训练

好

咱们来看这张表

来大家看一下这张表

我们都预习的时候看到了

我们一起来过一下

这个是整个样本的一些描述统计

当然了它是分的什么

它是分的收入

分的高收入这一层

中等收入这一层和低收入这一层

分了三层来看什么呢

来看待这些基本的特点

第一个是它的

base year的家庭年收入

那么报告的

样本的方差

以及sample mean

那么

样本的均值是报告的两组

一个是

公立学校

一个是私立学校

因为它已经是在这一层内部了

大家可以看到整体上收入

还是均值是差不多的

因为它已经在收入上分层了

但是公立学校稍微低一点点

但是我们

就不好说它是不是显着

因为我们要看它的体检页

但是差别不是特别大

我们看下一个很重要self

practices

我们看它的频数分布

公立学校的大家可以看到确实比例

体量是远大于私立学校的

大部分人还是去公立学校

但是在高收入

这个层级

去私立学校的比例是14.8%

在中等收入这个层级去私立

学校的比例是9%

那么到低收入里面能够去私立学校的比例

只有不到5%

所以大家可以看到这个里面是有一个

明显的一个自选择性的

确实

高收入家庭的学生

更

有更大的一个比例去私立学校

你如果去跑一个选择模型的话

它就是一个非常好的

predictor

它就能过去

更好的去预测它上私立学校的概率

所以这个是我们就可以直接从

这样的一个描述统计里面

可以观察到的

我们再来看它们的成绩

后面是

十二年级

的平均的数学成绩

我们看到这个public跟

catholic它的均值

以及它的difference

这个difference是我们

关注的 difference

就是私立学校减去公立学校

这个是difference

都是

报出来了

你刚才大家的观察也是一致的

高收入这个地方稍微小一点是二

后面稍微大一些

那么

我们同时从这个表格里面

能够看到的这些信息

大家想

既然我们认为家庭收入

是会影响到学生的成绩

我们刚才也看到了家庭收入

确实影响学生成绩了

收在同一种学校里面

同一个学校类型里面的

高收入家庭的学生成绩就是

高等等我们看到了

那么这个时候我们分了层对不对

我们分了层

那么每一层内部它们的

收入应该是差不多的

是不是

那么这个时候是不是我们就可以相当于

解决了

家庭收入

给学生成绩带来了影响

而让我们能够去更加放心

的来对比学校类型

给学生成绩的影响

也就是说我们会更加的相信说2.12

它就真的是在高收入群体里面

私立学校

相对于公立学校来讲

带给学生的

增值

是不是

因为我们已经把它限制在高收入家庭了

家庭收入已经不是一个最大

的 concern了

对于我们来说

作为影响学生来讲

因为为什么

你看它这个variation

就有多大0.2

但它的均值多大

均值是在11左右

所以对于一个均值为11左右的

收入水平来讲

0.2的variation

其实是非常小了

也就是它同质性是很强了

在收入这个方面

对不对

当然这个低收入概念你可以看到它这个

variation就很大了

是3

但它均值只有6

这个时候它的variation

是非常大的

因为低收入家庭它这个差别还是非常大的

那么

回到前面

也就是说在这样的一个收入非常一致

都是高收入家庭的群体里面

我们是不是会更加的相信

2点

私立学校带给公立学校的这样的一个差值

如果有意不同意的意见

你现在一定要讲

你觉得我不同意

你现在要说出来

否则我们这逻辑就往下走了

那么也就是说

这三个差值

都是一样的

也就是三个差值

分别是这三个收入等级下

我们对私立学校和公立学校

学生差异的这样的一个

更加无偏的一个估计

只不过它是在一个子样本群体里面做的

我们相信这三个数字

对不对

那么下一步就来了

作为

研究者也好

或者是政策制定者也好

我虽然需要了解详细的解剖开的

这样的一些子样本的特点

但最终我还是希望知道一个整体的情况

而不只是一个分开的

就是一一串数字

我希望要一个数字整体的均值

也就是我们说的 ATE

那么我们怎么样把这三个

我们认为是更加无偏的估计

把它整合成一个数值一个数值

这时候我们用到的就是什么

用到的就是加权平均

那么既然这三个值2.13.5和3.7

是这三个收入等级下

我们认为私立学校相对于公立学校来讲

带着学生的影响

那么

我们想求一个平均的整体的影响

我们的思路就是求加权平均

那么这个权重是什么呢

权重是有很多选择的

这个权重有两种选择

我现在跟大家介绍

如果是

这个是我们要用来计算加权

平均的这两两组值

权重就来自于样本量

一般来讲我们会用样本量来作为权重

来去算几组人的

每一组人的样本量作为各自的权重来算

这几组的合在一起的加权平均

所以我会看两这两组

那么ATE是对整个样本来讲

我要计算的

这样的一个加权平均

所以这个时候我们需要用到的权重是谁

每一个收入等级内部所有的样本量

也就是说是公立学校加上私立学校

合在一起

这个

样本量举个例子

如果是对于高收入家庭的话

我给它用的权重

1969+344

这个

2.12的对应的权重

同比3.52

对应的权重是这两个值的加总

下面一这一行加总1745+177

那么依此类推

这样算出来的是ATE因为我们用的是

所有的样本

那么同样我们还有一个

概念是ATT对不对

Average

treatment effect

on the treated

还有一个ATT的概念

ATT的概念是什么

也就是说我是以谁为视角

我是以 treatment

group为视角

也就是在这里是以私立学校为视角

我来看

对于它的影响是不是

所以如果是这样的话

我用的权重

应该是私立学校的

在每一个收入等级这一层的样本量

也就是分别是344177和71

用它来去加权算的加权平均

这个就是ATT

对不对

那么这样的话大家就非常清楚

我们怎么来算ATNT

every treatment

effect on the

non treated

是不是我们的权重就应该

用公立学校的样本量

对不对

因为这个difference它是

确定的

difference它就是

这两类学校的差值

它没有什么方向性

那么放在这儿了

那么我们要求ATE和ATT和

ATNT用的权重就不一样

用的分别是总样本

treatment的样本和

control的样本或者

non treaty的样本

这个就没有问题

听听明白

很重要因为现在我们要做题

有问题现在可以问

同学们有问题吗没有问题

好明白很好

明白了请大家

这个算一下

咱们来算一下

ATE和ATT

分别是多少

很多同学

答对了是

需要拿计算器来算的

手算的话容易算错

我们来看一下

这个是计算的

a t e的公式

那么用到的这些值是刚才

咱们说过的2.12

这是第一个difference

这是第二组的difference

这是第三组的difference

然后我们用的权重

是公立学校跟私立学校的学生总数

然后当然除以分母了

分母也是把它们再除一点

所以就算是3.01

a t t呢

这里面用的权重

刚才我们说的它就分别是

我们只用私立学校的

这个人数

当然它们家总是

592

那么算出来的是2.74

所以说这个我们在第一个我们

用了分层来去解决了

我们认为

家庭收入

带给学生成绩的影响

我们认为会得到一个更加无偏的估计

第二个我们怎么样把分层之后的

这么多个无偏估计整合成一个

整个样本的这样的一个无偏估计

那么而且我们用到了

我们可以估算出ATE

和ATT你都可以算

当然我们也可以算ATNT我们就不算了

根据研究需要

所以大家可以看到

确实当我们考虑了

收入分成以后

我们的估算值从3.89降到了3.01

降下来的这一块

我们认为是一部分的误差被我们剥离掉了

那么看上去这个思路是非常可行的

是不是

那么因此我们沿着这个思路在想

还有哪些因素

会影响到

学生的成绩

但是被混淆在

私立学校和公立学校的差异里面了

6.4 Stratification在线视频

6.4 Stratification课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

6.4 Stratification笔记与讨论

也许你还感兴趣的课程: