当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.4 Stratification
我们现在进入什么环节
我们现在进入
对分层的讨论
分层这个概念是一个非常
回归原始的这样一个概念
你们的脑子里不需要有回归
也不需要psm
讨论说
当你就会简单的加减乘除
你看到这样的数据
你意识到这个里面有自选择偏误
你怎么样把这个自选择偏误给剖析出来
剥离出来
我们就讨论这样的一个问题
这个是一个非常好的训练
好
咱们来看这张表
来 大家看一下这张表
我们都预习的时候看到了
我们一起来过一下
这个是整个样本的一些描述统计
当然了它是分的什么
它是分的收入
分的高收入这一层
中等收入这一层和低收入这一层
分了三层来看什么呢
来看待这些基本的特点
第一个是它的
base year的家庭年收入
那么报告的
样本的方差
以及sample mean
那么
样本的均值是报告的两组
一个是
公立学校
一个是私立学校
因为它已经是在这一层内部了
大家可以看到整体上收入
还是均值是差不多的
因为它已经在收入上分层了
但是公立学校稍微低一点点
但是我们
就不好说它是不是显着
因为我们要看它的体检页
但是差别不是特别大
我们看下一个很重要self
practices
我们看它的频数分布
公立学校的大家可以看到确实比例
体量是远大于私立学校的
大部分人还是去公立学校
但是在高收入
这个层级
去私立学校的比例是14.8%
在中等收入这个层级去私立
学校的比例是9%
那么到低收入里面能够去私立学校的比例
只有不到5%
所以大家可以看到这个里面是有一个
明显的一个自选择性的
确实
高收入家庭的学生
更
有更大的一个比例去私立学校
你如果去跑一个选择模型的话
它就是一个非常好的
predictor
它就能过去
更好的去预测它上私立学校的概率
所以这个是我们就可以直接从
这样的一个描述统计里面
可以观察到的
我们再来看它们的成绩
后面是
十二年级
的平均的数学成绩
我们看到这个public跟
catholic它的均值
以及它的difference
这个difference是我们
关注的 difference
就是私立学校减去公立学校
这个是difference
都是
报出来了
你刚才大家的观察也是一致的
高收入这个地方稍微小一点是二
后面稍微大一些
那么
我们同时从这个表格里面
能够看到的这些信息
大家想
既然我们认为家庭收入
是会影响到学生的成绩
我们刚才也看到了家庭收入
确实影响学生成绩了
收在同一种学校里面
同一个学校类型里面的
高收入家庭的学生成绩就是
高等等我们看到了
那么这个时候我们分了层对不对
我们分了层
那么每一层内部它们的
收入应该是差不多的
是不是
那么这个时候是不是我们就可以相当于
解决了
家庭收入
给学生成绩带来了影响
而让我们能够去更加放心
的来对比学校类型
给学生成绩的影响
也就是说我们会更加的相信说2.12
它就真的是在高收入群体里面
私立学校
相对于公立学校来讲
带给学生的
增值
是不是
因为我们已经把它限制在高收入家庭了
家庭收入已经不是一个最大
的 concern了
对于我们来说
作为影响学生来讲
因为为什么
你看它这个variation
就有多大0.2
但它的均值多大
均值是在11左右
所以对于一个均值为11左右的
收入水平来讲
0.2的variation
其实是非常小了
也就是它同质性是很强了
在收入这个方面
对不对
当然这个低收入概念你可以看到它这个
variation就很大了
是3
但它均值只有6
这个时候它的variation
是非常大的
因为低收入家庭它这个差别还是非常大的
Ok
那么
回到前面
也就是说在这样的一个收入非常一致
都是高收入家庭的群体里面
我们是不是会更加的相信
2点
12
私立学校带给公立学校的这样的一个差值
如果有意不同意的意见
你现在一定要讲
你觉得我不同意
你现在要说出来
否则我们这逻辑就往下走了
Ok
那么也就是说
这三个差值
都是一样的
也就是三个差值
分别是这三个收入等级下
我们对私立学校和公立学校
学生差异的这样的一个
更加无偏的一个估计
只不过它是在一个子样本群体里面做的
我们相信这三个数字
对不对
那么下一步就来了
作为
研究者也好
或者是政策制定者也好
我虽然需要了解详细的解剖开的
这样的一些子样本的特点
但最终我还是希望知道一个整体的情况
而不只是一个分开的
就是一一串数字
我希望要一个数字整体的均值
也就是我们说的 ATE
那么我们怎么样把这三个
我们认为是更加无偏的估计
把它整合成一个数值一个数值
这时候我们用到的就是什么
用到的就是加权平均
那么既然这三个值2.13.5和3.7
是这三个收入等级下
我们认为私立学校相对于公立学校来讲
带着学生的影响
那么
我们想求一个平均的整体的影响
我们的思路就是求加权平均
那么这个权重是什么呢
权重是有很多选择的
这个权重有两种选择
我现在跟大家介绍
如果是
这个是我们要用来计算加权
平均的这两两组值
权重就来自于样本量
一般来讲我们会用样本量来作为权重
来去算几组人的
每一组人的样本量作为各自的权重来算
这几组的合在一起的加权平均
所以我会看两这两组
那么ATE是对整个样本来讲
我要计算的
这样的一个加权平均
所以这个时候我们需要用到的权重是谁
每一个收入等级内部所有的样本量
也就是说是公立学校加上私立学校
合在一起
这个
样本量举个例子
如果是对于高收入家庭的话
我给它用的权重
1969+344
这个
2.12的对应的权重
同比3.52
对应的权重是这两个值的加总
下面一这一行加总1745+177
那么依此类推
这样算出来的是ATE因为我们用的是
所有的样本
那么同样我们还有一个
概念是ATT对不对
Average
treatment effect
on the treated
还有一个ATT的概念
ATT的概念是什么
也就是说我是以谁为视角
我是以 treatment
group为视角
也就是在这里是以私立学校为视角
我来看
对于它的影响是不是
所以如果是这样的话
我用的权重
应该是私立学校的
在每一个收入等级这一层的样本量
也就是分别是344177和71
用它来去加权算的加权平均
这个就是ATT
对不对
那么这样的话大家就非常清楚
我们怎么来算ATNT
every treatment
effect on the
non treated
是不是我们的权重就应该
用公立学校的样本量
对不对
因为这个difference它是
确定的
difference它就是
这两类学校的差值
它没有什么方向性
那么放在这儿了
那么我们要求ATE和ATT和
ATNT用的权重就不一样
用的分别是总样本
treatment的样本和
control的样本或者
non treaty的样本
这个就没有问题
听听明白
很重要 因为现在我们要做题
有问题现在可以问
同学们有问题吗 没有问题
好 明白很好
明白了 请大家
这个算一下
咱们来算一下
ATE和ATT
分别是多少
很多同学
答对了是
需要拿计算器来算的
手算的话容易算错
我们来看一下
这个是计算的
a t e的公式
那么用到的这些值是刚才
咱们说过的2.12
这是第一个difference
这是第二组的difference
这是第三组的difference
然后我们用的权重
是公立学校跟私立学校的学生总数
然后当然除以分母了
分母也是把它们再除一点
所以就算是3.01
a t t呢
这里面用的权重
刚才我们说的它就分别是
我们只用私立学校的
这个人数
当然它们家总是
592
那么算出来的是2.74
所以说这个我们在第一个我们
用了分层来去解决了
我们认为
家庭收入
带给学生成绩的影响
我们认为会得到一个更加无偏的估计
第二个我们怎么样把分层之后的
这么多个无偏估计整合成一个
整个样本的这样的一个无偏估计
那么而且我们用到了
我们可以估算出ATE
和ATT你都可以算
当然我们也可以算ATNT我们就不算了
根据研究需要
所以大家可以看到
确实当我们考虑了
收入分成以后
我们的估算值从3.89降到了3.01
降下来的这一块
我们认为是一部分的误差被我们剥离掉了
那么看上去这个思路是非常可行的
是不是
那么因此我们沿着这个思路在想
还有哪些因素
会影响到
学生的成绩
但是被混淆在
私立学校和公立学校的差异里面了
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM