5.6 RD Estimation 3慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

那么刚才这个是咱们讨论

limitation是关于

对于线性对于非线性函数的

参数估计它有这个问题

所以下面我们来讨论非参估计

非参估计顾名思义就是什么

我不设参数对不对

不设参数的意思是什么

我不假定它到底是遵循什么样的方程形态

因为只有我假定的方程

方程里面才有参数对不对

当我不去假定方程形态的

时候就没有这些参数了

这叫非参估计，这样的一个非常直白的解释

我们来看非参估计

既然方程形态这么难确定

我们就不去确定方程形态

我们来看非参估计就这意思

好最简单的就是我们来看什么

来看 mean difference

均值的差异

那么这个里面用到极限的概念

首先我们要定一个

在cut off point

我们断点附近非常小的一个区间

我们用

怎么来描述这个区间小

我们用δ

δ是一个非常小的值

我们以x0为中心

x0减去δ

到x0加上δ

它就是一个非常小的区间

区间的长度是2δ

区间的中心是x0

对不对

这个叫带宽

我们就定义了一个非常小的区间

那么这个时候

在断点的左边

也就是说xi

在 x0减δ到x0之间

在断点左边

Y的

条件期望值

约等于

x在x0的时候

Y0i的条件期望

约等于

因为这个范围足够小

主要是因为它范围足够小

δ足够小

那么同样

在断点的右边

从x0

到x0加δ

potential outcome

Yi的

条件期望值

约等于

xi等于0的时候

Y1i的

条件期望

形象的来看

就是说我们

在观察到的这样的一个

散点图上

我们定义了一个非常小的区间阴影面积

然后我们才能够得出上面约等于

然后我取极限

我让δ逼近于0对吧

δ逼近于0

带宽就会

就会也是逼近于0，它就会像 x0

去收缩

那么取极限

那么就得出

得出

就是这两个值等号左边的这两个值

它的差值

xi等于0

xi等于x0的时候

Y1i减去Y0i的条件期望

这用到了一个极限的概念

这个有没有问题

也就是说我们认为在带宽足够小的时候

那么

我们可以这样理解

这样的话我其实就是在两侧的样本怎么样

取均值

取均值差

我们要的

treatment

effect

好那么总结一下

那么

我们在一个非常小的带宽

这样的一个范围内

来去估算

刚才说了这是均值

那么这个地方

我们并没有去强调

这样的一个individual的

treatment effect

它是一个

一个constant值，一个ρ

不同的individual对应不同的

没有像这个

Instead

我们只是估算了一个平均处理效应

因为既然是均值平均处理效应

而且平均处理效应是一个什么

是一个局部的平均处理效应

它是一个

LATE是一个local的

为什么是local的呢

是不是因为它只在断点附近

我们估算的是只在断点附近的人

它们的平均处理效应对不对

那么离这里很远的地方

它的平均处理效应会是多少

我们并不清楚

所以RD显然它估算的是一个LATE

那么

它的这个方法听上去也非常简单

也很直觉

直接非常straightforward

它的 limitation是什么

Limitation是什么

Limitation是不是跟刚才

我们刚才**提的那张图是很类似的

它其实是不够精确的对不对

因为它毕竟

它只是在这个断点两侧都求了均值

然后做差

那么这个还是不够精确

是不是因为

如果这方程两侧的曲线它是

一个向上的一条曲线或者

向下的曲线的时候

这个差值

就断点的那一个那个地方

的差值跟我们求的量

断点附近的区域的均值

的差值还是不相等的

这个是它的问题

我们来看第二种情况

第二种情况

第二种非参估计叫kernel

kernel method

kernel它是一组抽样一组权重方程

以后你看到kernel这个词

你就想到它是跟权重有关的

我们来看这就是一组权重方程

大家看

首先红色的矩形的

它就是一种最常见的权重

也就是说

我给所有的人赋的权重是一样的

这个是不是就最简单的平均

矩形的权重方程

对不对

我给每一个人不论它自己的取值是多少

我给它赋相等的权重

像刚才第一种方法 mean

difference

就等于说我们用的是这种

矩形的这种uniformed的这种权重

那么这个权重方程

它都是以中心化之后的

大家可以看到

其它的这些函函数形式

不论它是三角形的也好

还是

二次函数也好

还是其它的函数形式也好

它都是在0的时候取最大值

0是什么

0就是x距离断点的距离

x跟断点之间的距离

当然我们还可以再把它做一下标准化处理

来定义的也就是说

我想给

每一个观测点怎么样去加权呢

它离断点越近

我给它越高的权重

它离断点越远

不论是负的还是正的左侧

不论是左侧还是右侧

我就给它更低的权重

是不是

那么听上去

就很有道理

显然它离断得越近

它越逼近于我们想要的

这个值

那么我们就给它更高的权重

它离得远

那么它其实就

在我们的分析中它的作用就会减小

我们就给它更低的权重就可以了

只不过这个函数权重的形式

函数形式

我们要选一个什么样的

我觉得这个就是说没有什么特别的依据

都是

data driven的

你希望更陡一点还是更平缓一点

这个大家自己可以挑一个

那么这个是一个一般的形式

那么这个地方强调的是什么呢

K当然是函数形式

k就是不同的曲线了

那么自变量我们做了一个标准化处理

也就是它减去

xi减去x0除以h

h就是这个区间带宽

那么它就是

做了一个这样的

我们叫归一化是不是

显然就是当它等于cut off point的时候

它就取零了

那么取0的时候

靠上 k这个函数

我们就能够得到它的权重

一般来讲是一个最高的权重

这个就是kernel method

的一个理念

就是赋权

不是简单的一个平均了

那么这个地方

咱们不能做太多讨论

主要是没有时间

我简单说一下

那么这个就是离散情况下

对于Y求加权平均的这样的一个概念

在这里

Y是我们的离散的这些

取值

W(x)呢

关于x的一个权重方程

那么它是给Y加权

那么加权之后得到的就是一个加权平均值

当然权重的函数形式

它可以是我们刚才说的kernel方程来决定的

我们把 w的

kernel的函数形式套进去

我们就可以得到

这样的一个形式

那么我们就相当于对Y进行了加权平均

这样的话我们得到了两侧加权平均的差值

我们要的treatment effect

对于连续函数

我们就会用到积分和概率密度函数的概念

我们在第一节课复习的时候

也提到过

跟上面这个也是类似的

只不过说我们这里感受到

概率密度函数的形式

这个是简单说一句加权平均的概念

那么当然我们在课本里面有更详细的

kernel加权的这样的一些

算法那么这个里面

我们就不再去详细的去

去解释了

跟刚才解释是一样的

就是Y

加上kernel方程的形式

来去求加权平均

来求出方断点左右侧的条件

期望

的加权平均值

然后来做差

看上去很复杂

其实就是刚才我们讲的东西是差不多的

那么

虽然我们用了kernel

使得我们的估算更加精确

但是它没有解决根本问题

刚才说的就是我们想要的

是a和b之间的距离

大家看这张图

a和b之间的距离也就是在断点

在断点上

分别取 Y0i跟Y1i的时候

这两个点之间的距离

但是我们其实求的因为是平均值

就算加权平均

它也只是一条

倾斜的曲线

那么其实我们求的是什么

是a'上跟b'上的距离

当然这条线可以倾斜一点

但它永远没有去达到 a和b

所以说还是有一些误差在这里的

我们来看第三种方法

第三种非残估计

第三种非常估计叫局部线性回归

这个概念也是起到这也是用到极限的概念

也就是说

当我们把定义的带宽也就是断点

附近的这样的一个很小的范围

把它定的足够小的时候

第一个

我们带宽减小

这个样本量会减小

但同时

不论它是什么曲线

只要它是光滑可倒的连续的

那么

带宽定义的越小

这个曲线它越趋向于什么

趋向于线段于这个就是直线

那么也就是说我们多项式里面

我们就不需要这么高阶的多项式了

我们只需要低阶的

甚至我们只需要一阶的

一阶就是线性函数了

对不对

我们就用这样的一个极限的概念

好

所以当带宽趋向于0的时候

其实在断点左右两侧

它就会变成两条非常短的线段

也就是它就变成了一个

线性函数

对不对

那么我们就用到这样的一个极限的概念

因此我们可以怎么来设定这个函数

我们来看

在断点的左边

断点我们这里定义为c cut

off point

断点的左边

一个很小的带宽的范围用h来去表示

所以说

就在c减h到c之间这样

的一个很小的带宽里面

我们把这个方程写成这样的一个线性函数

这个地方αβ这两个待估参数

我们加上角标left

left就是l

那么这个是

放成左边

它就是一个非常小的线段

同样在断点右边

就是c的右边

h这么小的一个带宽内

我们也可以假定这个函数形式

它变成一个线性函数

那么α和β

可以是另外一组参数

就是用r来表示 right

右边

左右两侧的待估参数不必然相等

但是它们都是什么样都是线性的

它说线性就可以了

这个地方的极限概念去

体现在哪

就是体现在 h上

h是一个非常小的值

只有在h足够小的时候才成立

因为如果h很大的时候

其实我们就不能随便的把它

假定为一个线性函数了

它很有可能就是一个

非线性函数

好

那么我们同样可以把这两个分段

函数合并成一个函数形式

这个就是刚才我们

已经反复

练习或多变的就不再详细的去解释了

这个地方我们同样抽离出 d的系数肉

ρ其实是α右键α左

那么当然α又跟α所的估算

它也是极限的概念

x趋近于c的时候

无论是左逼近还是右逼近

分别

Yi的条件期望是多少

这个就是α的含义

当因为x这个地方已经怎么样

已经做了中心化处理了

所以说我们通过这样的一个方式

求了局部的线性回归

来得到了 RD的一个非参估计

那么这个估计值

就会比前面这两种方法更加的精确

这个也确实是我们比较常用的一种形式

好

这个前面就是关于sharp RD

我们的整个模型的set up

和不同的估算形式

5.6 RD Estimation 3在线视频

5.6 RD Estimation 3课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

5.6 RD Estimation 3笔记与讨论

也许你还感兴趣的课程: