当前课程知识点:教育定量研究方法(高级) >  Weeks 13&14: HLM >  HLM >  6.2 Selection bias

返回《教育定量研究方法(高级)》慕课在线视频课程列表

6.2 Selection bias在线视频

返回《教育定量研究方法(高级)》慕课在线视频列表

6.2 Selection bias课程教案、知识点、字幕

这个例子大家都看了

这个是一个非常经典的教育经济学的例子

那么也就是大家讨论

school effect

大家知道在美国在教育基础教育

没有普及的时候

主要是私立学校

那么这些私立学校主要是教会

出资建的学校

但是它的学费也非常贵

所以过去私立学校往往也被称为教会学校

那么现在

私立学校其实不止教会学校

它还有这种

跟宗教色彩没有关系的

私立学校不是政府财政支持的这样的学校

但是因为主体还是catholic

school

所以说

往往在谈起来的时候

大家还是对这种学校

更加的有研究兴趣

因为它可能更加的传统

而且它的特色比较分明

这张图也能够

代表它们的一些特色

那么当然随着基础教育的普及

公立学校是更多的

但是公立学校是政府办的

它的投资

往往是少一点 但是

我们说就是suburban这样的一些地区

如果是房价非常贵的话

房产税足够高

那么

它们的教育投入也是非常充足

那么其实在历史上

在美国它的一个很重要

的争论就是私立学校

是不是比公立学校能够更好

的提高学生的成绩

我们之前看过一个例子是关于

交易券 RCT的研究

但是并不是我们总有钱去做一个

RCT尤其是改变学生的择校行为

这个经费是

非常的投入非常大的

那么我们如果用观测数据

能不能做这样的研究

这个就是今天用PSM来讨论的问题

那么我们将先不写PSM

大家想

你作为研究者

如果你并不知道

或者还没有PSM等等这样

的一些方法的时候

当你被问到这个问题

私立学校

是不是比公立学校能更好的提高学生的

学业成就

那么你会直接想到什么方法

那么其实可能最简单就是均值比较对不对

当然可能这个不是你想到的

可能大部分人会想到的方法

我们今天看这个学校是不是好

我就看它的学生成绩是不是比别的学校高

对不对

这个都是常人

会去直觉上第一反应会想的事情

那么

如果我们简单的把私立学校的学生成绩

跟公立学校的学生成绩

的均值做一个对比

那么这样的一个对比

有说服力

这个问题是我们要讨论的重点

好 我们

再点个名

不行

为什么只有9位同学登录了雨课堂

还是我这边显示有问题

我们这边还有8位同学没有签到

希望不是显示问题

我现在从咱们签到的同学里面再点几次名

如果还有同学没签到

就是谁先到就点谁

这样比较公平

来 **

因为

老师我在

好来分享一下

如果做均值比较

你觉得这里面最大的威胁是什么

我觉得威胁是不了解学生

它的一些背景情况

比如说

可能父母对他的影响

还有他在校外会不会也去

上一些补习班之类的

就是其它可能会

影响它们成绩的因素不太好控制

会影响这个结果的准确性

也就是说你提到了一个这就是说

上私立学校的学生

跟上公立学校的学生

它们可能

在特点上家庭的影响上等等

或者是其它的这种教育的投入上

可能本来它是有一个系统性的差异的

是不是

所以大家想一下

你们是不是看过一些这样的电影

什么是死亡诗社什么的

像死亡诗社这样的电影

它讲的就是这种非常传统的教会

教会学校的这样的一个生活

和学生群体

那么

这个群体

它的特点

其实是非常鲜明的

因为首先私立学校的学费是非常贵的

我原来在纽约的时候

我去

考察过一些私立学校

那还不是教会学校

就是私立的

小学中学

我问了一下它们的学费非常贵

它们的学费比哥大的学费都贵

所以大家可想而知

如果是供家庭供这么一个孩子

一直上私立学校

从小学一直上到大学的话

这个是非常昂贵的一笔

支出

所以这样的家庭它必须要有经济承受能力

第二个大家可以看到

那么其实

死亡诗社里面开学的一个场景

就很有意思

就是说这个孩子来上学

它是一个新生

它来了以后

其实老师对他是非常熟悉的

为什么

因为这个老师教过他的姐姐

教过他的哥哥

甚至是个老校长还教过他的父亲母亲

所以说这一家子人其实它一直都

都是上学校的

所以这种家庭传承

也是很明显的一个特点

这不光是中学了

可能在美国的私立大学

也有这样的一些特点

就是校友的孩子

或者是兄弟姐妹

也愿意去同一个学校上学

并且这个学校也特别认

那么

当然了还有一些其它的因素

那么像家庭的教育教养

家庭对学生的其它方面的支持

那么其实都隐含在

这些家庭背景里面

所以

但是公立学校就不一定了

公立学校它是非常

diversified的

公立学校

它肯定也有家庭收入比较高的家庭

背景比较

优越的

但同时它也有非常多的家庭收入比较低的

那么这样的学生他们都有这样的一个

条件权利能够上到公立学校

那么但是这两个人群的差异就会比较明显

所以这就导致说我们简单的去对比

私立学校和公立学校学生

的考试成绩的均值

是不能够来去说差异

由私立学校的教育质量或者

是教学效果带来的

是吧

这个就是我们反复讨论的自选择问题

那么大家回忆一下

那么这张这个公式我们

已经讨论了很多遍了

我们从IV RCT就开始讨论

也就是说作为我们的对照组

如果是公立学校的话

它具有一个 outcome的条件期望

因为它们公立学校如果是D等于0

那么这个是去私立学校D等于1

这个是我们观测到的去私立学校

的学生的它的条件期望

那么这个差值

这个差值它其实

包括了两部分

那么

我们必须要知道

这些

去了

私立学校的学生

如果他们去公立学校

他们的

这个outcome是多少

也就是个黄色的虚线

我们才能够去来判断

私立学校的真实的效果

而不是简单做这样的一个

两两条蓝色虚线的差值

因为差值它包括两部分

一个是真正的 school

effect

private school

effect

一个就是我们说的 selection

biase

也就是两个人群的差异

在这个里面是

我们必须要去考虑的

所以这个就是观测数据

带给我们的问题

假设我们没有条件

做RCT那么也没有什么样的一些

政策

能够让大家

被动的去被随机的分到私立和公立学校

那么这个时候

我们怎么去

解决观测数据中38页

这个是我们这节课讨论的这样的一个重点

那么这个是研究它用的数据

这个数据是用的是NELS88

survey的数据

它这个里面

包括了八年级 十年级

和十二年级

学生

那么这个里面

用到的

变量

就是包括它八年级的数学成绩

和十二年级的数学成绩

以及它是不是去了私立学校

catholic

以及家庭的 income

家庭的在它八年级的时候family income

也就是初始年份八年级的初始年份了

Sample size5000

多的 sample size

那么

在这个样本里面

其实家庭的收入它是分成很多档的

它不是一个连续变量

是分了一共是

你们去看这个论文

我印象中分了14级

每一级有一个

收入的一个区间

中位数大概是在年收入35,000

~45,000美元之间

这是一个中位数

那么它取到了年收入75,000

这个是比较高的一个收入了

当然在网上还有

但是人群就比较少

而且可能是属于

我们的研究里面的叫什么

Online不是我们研究对象

所以说在这个研究里面就把它删掉了

那么大家可以看到这上面这个还列了一下

这是一个追踪数据

longitudinal data

它其实是从1988年

base year

一直追踪到了2000年

追了4回

所以说这样的数据就为我们

研究带来很多的便利

我们现在用的就是这样的一个数据

怎么样来去

用observational

data减少

selection bias

我们讨论三种方法

我们先看最简单的

简单的IOS

说简单就是因为它是一个一元变量

那么这个就跟均值比较是一样的

那么大家可以看到

只有一个自变量

就是catholic它是一个二元变量

它的系数β1

是有偏的

因为β1跟residual

因为castle跟residual

是相关的

是很多因素既影响到它

是不是选择私立学校

也影响它做最后的学业成就

但是被遗漏在了residual里面

这是个OVB的问题

所以我们认为β1是个估算

3.895是一个有偏的估算

我们后面就来讨论

怎么样能够去减少估算

教育定量研究方法(高级)课程列表:

Weeks 1 & 2 Basic Econometrics

-1.1 Regression Outlline

-1.2 Why do we use regression 1

-1.3 Why do we use regression 2

-1.4 Conditional expectation function 1

-1.5 Conditional expectation function 2

-1.6 Classical assumption of OLS

-1.7 Idea of OLS

-1.8 How to use matrix calculation to solve OLS

-1.9 Goodness of fit

-1.10 F test &T test

-1.11 FAQs of regression:practice

-1.12 FAQs of regression:discussion

-1.13 Maximum Likelihood Estimatio

-Basic Econometrics

Weeks 3 & 4: Instrumental Variable

-2.1 Classical assumptions of OLS

-2.2 Omitted variable bias and endogeneity

-2.3 Self-selection bias

-2.4 Idea of IV 1

-2.5 Idea of IV 2

-2.6 Two assumptions of IV

-2.7 Method-of-moments IVE

-2.8 Example of IV estimation

-2.9 2SLS and SEM

-2.10 Residual of 2SLS

-2.11 Standard error of IVE

-2.12 ATE and LATE

-2.13 Extension 1

-2.14 Extension 2

-2.15 Q&A 1

-2.16 Q&A 2

-2.17 Q&A 3

-2.18 Q&A 4

-2.19 IV workshop 1

-2.20 IV workshop 2

-2.21 IV workshop 3

-Weeks 3&4 readings and workshop

-Instrumental Variable

-IV 讨论题目

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

-3.1 Introduction

-3.2 Idea of RCT 1

-3.3 Idea of RCT 2

-3.4 Conducting RCT

-3.5 Estimation

-3.6 Threats to the validity of RCT

-3.7 IVE for corss-overs 1

-3.8 IVE for corss-overs 2

-3.9 Clustered group 1

-3.10 Clustered group 2

-3.11 Clustered group 3

-3.12 Q&A 1

-3.13 Q&A 2

-3.14 Q&A 3

-3.15 Q&A 4

-3.16 Fixed-effect model

-3.17 Random-effecrt and Fiexed-effect model

-3.18 Statistic power analysis

-3.19 RCT workshop 1

-3.20 RCT workshop 2

-3.21 RCT workshop 3

-3.22 RCT workshop 4

-Weeks 5&6 readings and workshop

-Randomized Experiments - Class Size, Career Academies

-RCT 讨论题目

Weeks 7 & 8: Natural experiment and DID

-4.1 Introduction

-4.2 DID estimation 1

-4.3 DID estimation 2

-4.5 Assumptions of DID 2

-4.6 DID with multiple periods 1

-4.4 Assumptions of DID 1

-4.7 DID with multiple periods 2

-4.8 DDD

-4.9 Synthetic control methods

-4.10 Q&A 1

-4.11 Q&A 2

-4.12 Q&A 3

-4.13 Q&A 4

-4.14 Q&A 5

-4.15 DID workshop 1

-4.16 DID workshop 2

-4,17 DID workshop 3

-4.18 RD workshop 3

-Week7&8 readings and workshop

-Natural experiment and DID

-DID 讨论题目

Weeks 9 & 10: Regression discontinuity

-5.1 Introduction 1

-5.2 Introduction 2

-5.3 Model Setup

-5.4 RD Estimation 1

-5.5 RD Estimation 2

-5.6 RD Estimation 3

-5.7 Fuzzy RD 1

-5.8 Fuzzy RD 2

-5.9 Fuzzy RD 3

-5.10 Validity and assumption test 1

-5.11 Validity and assumption test 2

-5.12 RD workshop 1

-5.13 RD workshop 2

-5.14 RD workshop 3

-Regression discontinuity

-RD 讨论题目

Weeks 11&12: Propensity Score Matching

-6.1 Review of causal inference model

-6.2 Selection bias

-6.3 Standard OLS

-6.4 Stratification

-6.5 Confrol for covariates

-6.6 PSM 1

-6.7 PSM 2

-6.8 PSM 3

-6.9 Bad control 1

-6.10 Bad control 2

-6.11Q&A 1

-6.12 Q&A 2

-6.13 Q&A 3

-6.14 Q&A 4

-6.15 Q&A 5

-6.16 Q&A 5

-6.17 PSM workshop 1

-6.18 PSM workshop 2

-6.19 PSM workshop 3

-6.20 PSM workshop 4

-6.21 PSM workshop 5

-6.22 PSM workshop 6

-6.23 PSM workshop 7

-6.24 PSM workshop Q&A 1

-6.25 PSM workshop Q&A 2

-Propensity Score Matching

-PSM 讨论题目

Weeks 13&14: HLM

-7.1 Introduction

-7.2 Model setup 1

-7.3 Model setup 2

-7.4 Estimation 1

-7.5 Estimation 2

-7.6 Three level HLM

-7.7 Centering 1

-7.8 Centering 2

-7.9 Growth model 1

-7.10 Growth model 2

-7.11 Meta-analysis 1

-7.12 Meta-analysis 2

-7.13 Q&A 1

-7.14 Q&A 2

-7.15 Q&A 3

-7.16 Q&A 4

-7.17 Q&A 5

-7.18 Q&A 6

-7.19 HLM workshop 1

-7.20 HLM workshop 2

-7.21 HLM workshop 3

-7.22 HLM workshop 4

-7.23 HLM workshop 5

-HLM 讨论题目

-HLM

6.2 Selection bias笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。