当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.5 Confrol for covariates
我的意思我们是不是可以
把这个层分的更细
使得每一层内部的学生的差异更小
因为这些学生他除了在家庭
收入上有差异之外
他是不是
还在其他方面有差异
比如说学习能力对不对
或者说我们要初始的学习的水平
所以我们现在又加入一个新的变量
来分层就是 achievement
他八年级basic的数学成绩
作为他的
分层的另外一层标准
因为大家可以看到确实去私立学校的学生
他如果你印象里面还有那张图的话
去私立学校学生他的成绩整体
它是比去公立学校要好的
那么这个里面很有可能是
本来就是成绩高的学生
他就更
有更大的可能性去到私立学校
所以我们把这个成绩分成四等
这个就是high
medium high
medium low和low分成4档
我们在每一个家庭收入等级内部
又按照数学成绩
basic的数学成绩
又把它分成了4层
这样就是三四十二层
三四十二层表的结构刚才是一样的
那么在每一层是不是都可以算出
统计出
它的样本量是不是以及在这一层里面学生
的在十二年级的数学成绩的均值
以及均值的差值
对吧
那么
这个层分的就更细了
我们这个里面这张表没有报告每一层的
他的家庭收入或者是成绩的
variation
相信他是更小
那么
这样的话大家看 difference
相当于是一个更加令我们觉得
可更加无偏的一个估计
因为
他差值不仅他的家庭收入等级是一样的
连他在八年级的初始的数学
成绩也是比较类似的
在同一个等内
等级内部
那么我们来看
那么经过4年之后到十二年级
他们的数学成绩的差值就报在
difference这一列里面
大家可以看是不是很多差值它都不显着了
已经很多差值不显着了
但有一些还是显著
那么这组就会是更加无偏的一组估计
那么同样我们用刚才的方法
我们就可以分别算出ATE跟ATT来
对不对
那么
这个算出来是1.5和1.3
大家看这个是不是就比
刚才33.01左右
差值这样的一个估算
又要低了很多 是不是
那么降低的这一块
我们也认为它就是bias,被我们
非常成功的去掉了
那么这个就是分层给我们带来了一个
非常明显的好处
它这个逻辑是很简单的
而且是非常的
直接
straightforward
更没有什么回归的这种理念
它这个分层是什么
就是说当我把层分的足够细的时候
每一层内部的人群是可比的
这个时候
他们唯一的差异就是一组人上了私立学校
一组人上了公立学校
这个时候他们差异的均值就应该
是私立学校带来的影响
对不对 同学们
这个逻辑一定要搞清楚
我们没有用到任何的这种更高
更复杂的这样的一些逻辑
但是这个里面
有一个很重要的问题是什么
大家可以看到这个地方有蓝色
蓝色线画出来的这几个
这几个cell这几个单元格
那么这个里面的
样本量
怎么样
非常的小
样本量非常小
甚至有的单元格里面只有一个样本
或者两个样本
那么这个会给我们带来很多的
困扰 样本量太少的话
它估算是非常不稳定的
方差会非常大
甚至大家想一下
如果我继续细分
比如说我再加一层我加一层性别
等等
如果可能在有的单元格里面
有的层里面
他可能就没有样本了
比如说我再分一个性别的话
那么这一个样本对不对
他肯定就是要么就是男生空格是0
要么就是女生那个空格是0
这个时候
我们就会出现这种没有样本的单元格
就是层
这个时候我们是怎么做对比
就会变得非常困难
那么我们
这就是分层分的更细的时候面临的问题
但是你分的太粗的话
他又不能够把所有的bias都解决
对不对
你看现在很明显分两层
就是分12层
用两个变量分12层
跟用一个变量分三层
他去
剥离掉的巴耶斯的能力是完全不一样的
是不是显然分的更细是更好的
也是符合这个逻辑的
但是你分的细以后
有的单元格里面没有样本了
或者样本量非常少
也会对我们估算带来麻烦
这个就是分层
带来的这种问题
因此
我们可以干什么
我们可以
想到
咱们早就用过的方法就是回归
我就是把
刚才用到的分层用到的这些变量
我把它作为协变量
扔到回归方程里面
之前的简单回归只有一个
自变量
就是我们要的 catholic变量
那么现在我加了更多控制变量
是不是就可以了
那么这个地方表格 a
a和b就是这两列
他分别报告了两种来去
定义自变量的这样的方式
一个就是用的分层那些变量
就分层变量全都是二元变量
分了很多层就是交互项
因为交互项等于
把这两两种分层就把它给放在一起了
你这12层
我们可以把它跑出来
这是一个
第二就是用连续变量他的家庭收入
家庭收入等级
我取等级的范围的中位中间
中位数作为家庭收入
把它变成一个连续变量
就变成一个变量了
还有八年级的数学成绩本来就是一个
连续变量以及它们的交互项
那么
把它放进去 这就是第二点
所以说会跑出两种结果
分别是
1.33和1.66
所以这个也是能够很好的去处理
我们刚才担心的这两种因素所带来的偏误
所以整体上大家可以看到用简单的ols
也就是说没有其实均值比较
那么做了3.8
到我们使用分层和加控制变量
都可以有效的去降低 bias
但是这二者
都有很多问题
问题
第一个刚才我们讨论过了
分层的问题
也就是我们忽略的
在有一些空格里面
有一些 cell里面
他的数据是非常稀少的
数据是稀少或者没有的
这个会给我们带来很多的估算的这种困难
刚才说过了
但是用控制变量
控制变量
用控制变量跟分层在本质上他们
在理论上概念上其实是一致的
但是在具体的
数学假设它是不一致的
最重要一点是什么
最重要一点是说
用这个OLS它其实是假设
在每一层内部
私立学校相对于公立学校对于学生的影响
是一样的
对不对 因为他做了一个
统一的一个回归
他在所有的这些cell上他
直接都跑了同样的一个回归
所以它其实是有一个非常隐含的假设
这个effect它是
homogeneously
homogeneous
同质性的一种
影响
而不是刚才我们在画图的时候看到的
这种heterogeneous
这种异质性的影响
OLS假设它就是
都一样的影响在所有的单元格里面
你不论是哪一个收入等级 无论是
你是哪一个成绩等级
私立学校必须要对你影响是一样大的
假设是很强的
对不对
他往往也是不满足的
包括它还有异方差性
同方差性它也假设它的同方差
但很有可能它是异方差性的这些
假设都隐含在这里面的
包括我们也认为它也是
有固定的方程形态的
前面做这种均值比较
其实我们并没有去规定什么
没有规定方程形态
相当于类似一个非常孤寂
但是到OLS其实它是有一个
非常强的方程形态的估计
它的好处是什么
好处是说
我可以跨这么多cell
然后做一次估算
我就不用再去担心
因为某一个cell里面的样本量太少
或者没有样本量
所带来的这种
方差过大或者无法
对比这样的一些尴尬的问题
大家想如果某一个Excel没有样本量
那么它的另外一个对应的 cell
里面的这些样本
他就只能去跟其他的cell
里面的样本去做对比
这个对比是错误的 对不对
要么就把这个样本就浪费掉了
这也不合适
但是在回归里面就没有担心为什么
它假设在所有cell里面的
effect是一样大的
这时候假设类似于平行的这样的一个假设
我就可以利用这个假设
我就可以跨cell来去做这种对比
所以它这是efficiency
那么但是它加的是一个强加的是一个条件
在所有的cell里面
这个效应是一样的
所以这个也是OLS的局限
在这样的一个问题下
我说明白了吧
同学们有没有什么问题
因为前面看大家小组讨论的
时候就讨论到这个地方
他们俩到底行不行
能不能解决我们的问题
自选择问题以及这两种方法
之间的区别是什么
在这些隐含的假设下他们是不一样的
但是在理念上整体上是一样的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM