当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.2 Selection bias
这个例子大家都看了
这个是一个非常经典的教育经济学的例子
那么也就是大家讨论
school effect
大家知道在美国在教育基础教育
没有普及的时候
主要是私立学校
那么这些私立学校主要是教会
出资建的学校
但是它的学费也非常贵
所以过去私立学校往往也被称为教会学校
那么现在
私立学校其实不止教会学校
它还有这种
跟宗教色彩没有关系的
私立学校不是政府财政支持的这样的学校
但是因为主体还是catholic
school
所以说
往往在谈起来的时候
大家还是对这种学校
更加的有研究兴趣
因为它可能更加的传统
而且它的特色比较分明
这张图也能够
代表它们的一些特色
那么当然随着基础教育的普及
公立学校是更多的
但是公立学校是政府办的
它的投资
往往是少一点 但是
像
我们说就是suburban这样的一些地区
如果是房价非常贵的话
房产税足够高
那么
它们的教育投入也是非常充足
那么其实在历史上
在美国它的一个很重要
的争论就是私立学校
是不是比公立学校能够更好
的提高学生的成绩
我们之前看过一个例子是关于
交易券 RCT的研究
但是并不是我们总有钱去做一个
RCT尤其是改变学生的择校行为
这个经费是
非常的投入非常大的
那么我们如果用观测数据
能不能做这样的研究
这个就是今天用PSM来讨论的问题
那么我们将先不写PSM
大家想
你作为研究者
如果你并不知道
或者还没有PSM等等这样
的一些方法的时候
当你被问到这个问题
私立学校
是不是比公立学校能更好的提高学生的
学业成就
那么你会直接想到什么方法
那么其实可能最简单就是均值比较对不对
当然可能这个不是你想到的
可能大部分人会想到的方法
我们今天看这个学校是不是好
我就看它的学生成绩是不是比别的学校高
对不对
这个都是常人
会去直觉上第一反应会想的事情
那么
如果我们简单的把私立学校的学生成绩
跟公立学校的学生成绩
的均值做一个对比
那么这样的一个对比
有说服力
这个问题是我们要讨论的重点
对
好 我们
再点个名
不行
为什么只有9位同学登录了雨课堂
还是我这边显示有问题
我们这边还有8位同学没有签到
希望不是显示问题
我现在从咱们签到的同学里面再点几次名
如果还有同学没签到
就是谁先到就点谁
这样比较公平
来 **
因为
老师我在
好来分享一下
如果做均值比较
你觉得这里面最大的威胁是什么
我觉得威胁是不了解学生
它的一些背景情况
比如说
可能父母对他的影响
还有他在校外会不会也去
上一些补习班之类的
就是其它可能会
影响它们成绩的因素不太好控制
会影响这个结果的准确性
也就是说你提到了一个这就是说
上私立学校的学生
跟上公立学校的学生
它们可能
在
在特点上家庭的影响上等等
或者是其它的这种教育的投入上
可能本来它是有一个系统性的差异的
是不是
对
所以大家想一下
你们是不是看过一些这样的电影
什么是死亡诗社什么的
像死亡诗社这样的电影
它讲的就是这种非常传统的教会
教会学校的这样的一个生活
和学生群体
那么
这个群体
它的特点
其实是非常鲜明的
因为首先私立学校的学费是非常贵的
好
我原来在纽约的时候
我去
考察过一些私立学校
那还不是教会学校
就是私立的
小学中学
我问了一下它们的学费非常贵
它们的学费比哥大的学费都贵
所以大家可想而知
如果是供家庭供这么一个孩子
一直上私立学校
从小学一直上到大学的话
这个是非常昂贵的一笔
支出
所以这样的家庭它必须要有经济承受能力
第二个大家可以看到
那么其实
死亡诗社里面开学的一个场景
就很有意思
就是说这个孩子来上学
它是一个新生
它来了以后
其实老师对他是非常熟悉的
为什么
因为这个老师教过他的姐姐
教过他的哥哥
甚至是个老校长还教过他的父亲母亲
所以说这一家子人其实它一直都
都是上学校的
所以这种家庭传承
也是很明显的一个特点
这不光是中学了
可能在美国的私立大学
也有这样的一些特点
就是校友的孩子
或者是兄弟姐妹
也愿意去同一个学校上学
并且这个学校也特别认
那么
当然了还有一些其它的因素
那么像家庭的教育教养
家庭对学生的其它方面的支持
那么其实都隐含在
这些家庭背景里面
所以
但是公立学校就不一定了
公立学校它是非常
diversified的
公立学校
它肯定也有家庭收入比较高的家庭
背景比较
优越的
但同时它也有非常多的家庭收入比较低的
那么这样的学生他们都有这样的一个
条件权利能够上到公立学校
那么但是这两个人群的差异就会比较明显
所以这就导致说我们简单的去对比
私立学校和公立学校学生
的考试成绩的均值
是不能够来去说差异
由私立学校的教育质量或者
是教学效果带来的
是吧
这个就是我们反复讨论的自选择问题
那么大家回忆一下
那么这张这个公式我们
已经讨论了很多遍了
我们从IV RCT就开始讨论
也就是说作为我们的对照组
如果是公立学校的话
它具有一个 outcome的条件期望
因为它们公立学校如果是D等于0
那么这个是去私立学校D等于1
这个是我们观测到的去私立学校
的学生的它的条件期望
那么这个差值
这个差值它其实
包括了两部分
那么
我们必须要知道
这些
去了
私立学校的学生
如果他们去公立学校
他们的
这个outcome是多少
也就是个黄色的虚线
我们才能够去来判断
私立学校的真实的效果
而不是简单做这样的一个
两两条蓝色虚线的差值
因为差值它包括两部分
一个是真正的 school
effect
private school
effect
一个就是我们说的 selection
biase
也就是两个人群的差异
在这个里面是
我们必须要去考虑的
所以这个就是观测数据
带给我们的问题
假设我们没有条件
做RCT那么也没有什么样的一些
政策
能够让大家
被动的去被随机的分到私立和公立学校
那么这个时候
我们怎么去
解决观测数据中38页
这个是我们这节课讨论的这样的一个重点
那么这个是研究它用的数据
这个数据是用的是NELS88
survey的数据
它这个里面
包括了八年级 十年级
和十二年级
学生
那么这个里面
用到的
变量
就是包括它八年级的数学成绩
和十二年级的数学成绩
以及它是不是去了私立学校
catholic
以及家庭的 income
家庭的在它八年级的时候family income
也就是初始年份八年级的初始年份了
Sample size5000
多的 sample size
那么
在这个样本里面
其实家庭的收入它是分成很多档的
它不是一个连续变量
是分了一共是
你们去看这个论文
我印象中分了14级
每一级有一个
收入的一个区间
中位数大概是在年收入35,000
~45,000美元之间
这是一个中位数
那么它取到了年收入75,000
这个是比较高的一个收入了
当然在网上还有
但是人群就比较少
而且可能是属于
我们的研究里面的叫什么
Online不是我们研究对象
所以说在这个研究里面就把它删掉了
那么大家可以看到这上面这个还列了一下
这是一个追踪数据
longitudinal data
它其实是从1988年
base year
一直追踪到了2000年
追了4回
所以说这样的数据就为我们
研究带来很多的便利
我们现在用的就是这样的一个数据
怎么样来去
用observational
data减少
selection bias
我们讨论三种方法
我们先看最简单的
简单的IOS
说简单就是因为它是一个一元变量
那么这个就跟均值比较是一样的
那么大家可以看到
只有一个自变量
就是catholic它是一个二元变量
它的系数β1
是有偏的
因为β1跟residual
因为castle跟residual
是相关的
是很多因素既影响到它
是不是选择私立学校
也影响它做最后的学业成就
但是被遗漏在了residual里面
这是个OVB的问题
所以我们认为β1是个估算
3.895是一个有偏的估算
我们后面就来讨论
怎么样能够去减少估算
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM