当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.2 Idea of RCT 1
Ok
那么我们开始关于rct的讨论
这个小女孩大家去年在导论课上没有见过
dan是吧
那么我们用什么样一个话题
一个很重要的话题就是农民工子弟
那么他们上什么样的学校
能够获得什么样的一个支撑和发展的问题
那么这样的农民工子弟他在但是他因为没有相应的户口
他可能包括他的家庭背景
使得他没有足够的机会去到城里面比较好的学校
只能去比较弱的
比如说 migrant school等等
那么这个就会带来教育的公平的方面的concern
那么我们这个故事就来看说等他如果能去一个高质量的
学校城里的学校
跟他留在低质量的农民工子弟学校
那么它未来的比如说成绩或者是工资收入会不会有差别
听这个问题
这个是一个很重要的问题
对于大家来说对于他的一生都是很重要的问题
那么显然我们想获得高质量学校对于dan的未来的
outcome的影响
我们希望得到的数据
这一块是吧
这个是y1a减去y0a大家都应该是了解过
那么我们把它用数学方程的形式来去写
就可以写成这样的一个形式
么yi是我们定义的potential
outcome
我们上一次讲 IV的时候也提到过
potential outcome是是Yi那么在
两种条件下
dI等于1就是去了高质量学校
低压等于0是去了低质量的学校
我们会观测到不同的outcome
那么一个是Y1i
一个是Y0i
这两个值是固定的
但是因为我们一开始并不知道Di的赋值是多少
所以我们并不知道我们这个Yi它到底是等于
Y1i还是等于Y0i那么这个是potential outcome的含义
当然了这样的一个分段函数
我们可以把它写成比较比较整齐的这样的一个形式
来方便我们表达和讨论
那么这个里面我们可以看到Di的相当于系数就是
y1i减去y0i是不是正好我们想要的
对不对
刚才我们说到的对于dan的影响就体现在y1i减去y0i的差值
上
所以学校质量或者高质量学校对于 dan的
outcome的因果影响因果效应
就是y1i减去y0i
那么这个里面作为研究者的话
我们只要去观察到这两个值
然后把它的差值求出来
是不是我们就可以回答这个问题
但事实上我们是不是遇到了一个显而易见的一个问题
我们叫fundamental problem
就是一个一个数据缺失的问题
是不是
我们永远不可能同时观测到y1i和y0i对不对
因为这个孩子他要不然就去了高质量的学校
要不然他就去了低质量学校
他不可能同时又在高质量学校
又在低质量的学校里面上学
而且教育是不可逆的
我们不可能让他先去一个低质量学校
上了几年学回来
然后时光倒流
然后再让他重新再上一遍高质量学校
把这两个outcome都观察到
然后来做差
这是不可能的
这个就是我们在社会科学里面做随机控制实验
跟在自然科学里面做随机控制实验完全不同的一个地方
自然科学没有这个问题
一个试剂分成两份对吧
一个材料分成两份
甚至有的东西还可逆可以重复的在不同条件下来观察
那么人是不能做这样的事情的
这个是一个fundamental problem
我们怎么去解决它呢
那么我们其实用的方法用 individual
treatment effect
个人的处理效应
我们放弃对他的估算
我们取而代之是平均处理效率ate average
treatment effect
我们不再观察高质量学校对于一个学生的影响
而是观察它对于一群学生的影响
来解决这个方面的fundamental problem
那么这就是我们做了一个妥协
我们只能估算ate我们无法去估算 ite因为对于
ate来讲人差不多的人群
他可能是有类似的两个人群
那么一个人群接受了高质量的教育
一个人群选择接受了低质量的教育
这两个人群是可以同时存在的
二类是可比的
他就解决了在这个层面上解决了missing data的
问题
但是大家想一下
ate它是一个平均处理效应
而且是在一群人身上的一个平均处理效应
那么对于个体来讲
比如说对于dan这个个体来讲
他对自己的 ite的估算
可能只能ate去替代
但是ate能不能完全精确的来去估算 ite也
就是说一个个人他参照整个群体的平均处理效应
能否对自己的ite做出一个准确的估算
能不能比如说我们经常说选拔率对吧
你们要申请上大学
你们看到比如说上清华的选拔率非常低
大概是比如说百分之一
那么百分之一这个概率能不能用于你自己对自己上大学上清华的概率
的估算
刚才有同学说了不能对不对
这确实是不能的
所以说我们做政策推断跟个人做决策是完全不一样的
我们做政策研究做一个政策推断
我们关心的是整个群体的整体情况
整体效应
这个时候ate是合理的
但是对于一个个体
他做决策的时候
他要用一个统计数字来去估来去判断自己的这样的一个
情况
这是不行的
这里大家要注意
那么还有一个问题就是什么呢
虽然我们找到了两个群体
那么来去替代 ite
但是在现实中
我们往往看到的是什么呢
真正上了优质学校的学生
跟上比如说农民工子弟学校的学生
他们在特质上本身就已经有一些差异
那么可能他们在家庭背景上
在受教育水平上
在教育期望上等等
他们可能本来就已经有很大差异了
那么这个时候简单的去观测这两群人
并且做出他们 outcome的均值比较
是不是就能够表达出对于 ate估算出 ate
能不能
这个是不能的
这是不能的
那么这个就是我们说了什么问题
这个是我们说的自选择的问题
对不对
那么我们这个公式我们在两周前讨论过
那么我们现在请一位同学来去回答一下你对于这个公式的
解读好不好
这是一个复习型的任务
有没有同学自告奋勇来回答这个问题
最好是有自告奋勇的
我们这个班级很小
我希望大家能够经常交流
如果没有的话我就用
我就用这个随机点名了
来
****回答一下
好
这个式子他想说的
我觉得是说一个人参加这个实验
然后这个实验能够对它产生多大的影响
他想这个公式想要回答这么一个问题
所以左边那个式子他想问参加的人减去没参加的人
他的同一个人他参加减去他没参加
得出来的他的差异
但这个是算不出来的
所以他要换一种方法来算
就是说用 att加上面是Att对
应该是Att加上 selection bias
右边这两个
然后Att指的是就是说参加了的人
参加之后他的它的值减去对于同一个人就是参加的人
如果他没参加的时候
的值
然后加上参加的人如果他没有参加
减去一个没有参加的人
没有参加的时候的值
得出来的就是一消最后参加的人减去没参加的人的差值
好
**解释得很清楚
谢谢**
那么**是不是就把这个式子给说了一下
那么我们这个条件概率
我们把其实它不用做实验
这个是观测数据就可以
T等于1就是现实中我们观测到他接受了
treatment
比如他去了优质学校
t等于0是现实中他这个去了普通学校
或者说在这个例子里是农民工子弟学校
那么这个是他接受treatment的情况
那么这个观测值我们通过减一项加一项
来去
把它分解成两部分
我们增减的这一个部分
我们叫 uncounter factor
这种反事实的数据反正是我们永远可看不到的
东西
那么但是它对于我们建构这个概念很重要
那么这个时候就形成两部分
其中这个是个上面这部分
也就是动画里面重新展示的这一部分
是对于在现实中我们观测到t等于1的人群
那么他上不上优质学校
对于他未来的outcome的影响
他就是个差值
我们把它叫做att就是average
treatment effect on the
treated
这个是这一部分么selection bias这个就
很好理解了
也就是说对于这两群人
现实中这个是现实中接受了treatment的人
跟现实中没有接受treatment的那群人
如果他们都不接受treatment
那么他们的 outcome也都是y0i
就是这个条件期望的差值
如果这个差值不等于0
说明这两群人本来就不一样
是不是
那么这个就是selection bias
如果差值等于0非常好
说明这两群人他本来是差不多的
这个时候我们就没有selection bias
这个时候我们观测到的观测到的值就是att它是一个
对于att来讲是一个无偏的估计
好
有问题可以随时提
这个公式还是非常重要的一个概念
那么对应att我们当然还有一个对称的概念
叫ATNT average treatment
effect on the non-treated
也就是说在这里大家可以看到我们的条件是ti=1
也就在现实中它确实接受了treatment
我们来看它的处理效应是什么
那么我们是不是同样也可以来计算
对于现实中没有接受treatment的人群
比如像dan他们这个人群农民工子弟
这个人群ti等于0的
那么我们是不是也可以去观测出去计算它的因果效应
是吧
那么我们就做一个练习
也就是说这个是刚才我们解释的
这是我们可以观测的数据
还是等式的左边
那么请大家重新的来去对它进行分解
你可以加一项减一项
当然你可能加点东西跟刚才不一样了
那么你把它重新写成一个ATNT的
含有ATNT表达式的这么一个等式
好吧
大家写下来之后拍照
投稿就可以了
我给大家两分钟时间好吗
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM