当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 5.6 RD Estimation 3
Ok
那么刚才这个是咱们讨论
limitation是关于
对于线性对于非线性函数的
参数 估计它有这个问题
所以下面我们来讨论非参估计
非参估计 顾名思义就是什么
我不设参数对不对
不设参数的意思是什么
我不假定它到底是遵循什么样的方程形态
因为只有我假定的方程
方程里面才有参数 对不对
当我不去假定方程形态的
时候就没有这些参数了
这叫非参估计,这样的一个非常直白的解释
我们来看非参估计
既然方程形态这么难确定
我们就不去确定方程形态
我们来看非参估计就这意思
好 最简单的就是我们来看什么
来看 mean difference
均值的差异
那么这个里面用到极限的概念
首先我们要定一个
在cut off point
我们断点附近非常小的一个区间
我们用
怎么来描述这个区间小
我们用δ
δ是一个非常小的值
我们以x0为中心
x0减去δ
到x0加上δ
它就是一个非常小的区间
区间的长度是2δ
区间的中心是x0
对不对
这个叫带宽
我们就定义了一个非常小的区间
那么这个时候
在断点的左边
也就是说xi
在 x0减δ到x0之间
在断点左边
Y的
条件期望值
约等于
x在x0的时候
Y0i的条件期望
约等于
因为这个范围足够小
主要是因为它范围足够小
δ足够小
那么同样
在断点的右边
xi
从x0
到x0加δ
potential outcome
Yi的
条件期望值
约等于
xi等于0的时候
Y1i的
条件期望
形象的来看
就是说我们
在观察到的这样的一个
散点图上
我们定义了一个非常小的区间阴影面积
然后我们才能够得出上面约等于
然后我取极限
我让δ逼近于0对吧
δ逼近于0
带宽就会
就会也是逼近于0,它就会像 x0
去收缩
那么取极限
那么就得出
得出
就是这两个值等号左边的这两个值
它的差值
xi等于0
xi等于x0的时候
Y1i减去Y0i的条件期望
这用到了一个极限的概念
这个有没有问题
也就是说我们认为在带宽足够小的时候
那么
我们可以这样理解
这样的话我其实就是在两侧的样本怎么样
取均值
取均值差
我们要的
treatment
effect
好 那么总结一下
那么
我们在一个非常小的带宽
这样的一个范围内
来去估算
刚才说了这是均值
那么这个地方
我们并没有去强调
这样的一个individual的
treatment effect
它是一个
一个constant值,一个ρ
不同的individual对应不同的
没有像这个
Instead
我们只是估算了一个平均处理效应
因为既然是均值平均处理效应
而且平均处理效应是一个什么
是一个局部的平均处理效应
它是一个
LATE是一个local的
为什么是local的呢
是不是因为它只在断点附近
我们估算的是只在断点附近的人
它们的平均处理效应对不对
那么离这里很远的地方
它的平均处理效应会是多少
我们并不清楚
所以RD显然它估算的是一个LATE
那么
它的这个方法听上去也非常简单
也很直觉
直接非常straightforward
它的 limitation是什么
Limitation是什么
Limitation是不是跟刚才
我们刚才**提的那张图是很类似的
它其实是不够精确的 对不对
因为它毕竟
它只是在这个断点两侧都求了均值
然后做差
那么这个还是不够精确
是不是 因为
如果这方程两侧的曲线它是
一个向上的一条曲线或者
向下的曲线的时候
这个差值
就断点的那一个那个地方
的差值跟我们求的量
断点附近的区域的均值
的差值还是不相等的
这个是它的问题
我们来看第二种情况
第二种情况
第二种非参估计叫kernel
kernel method
kernel它是一组抽样一组权重方程
以后你看到kernel这个词
你就想到它是跟权重有关的
我们来看这就是一组权重方程
大家看
首先红色的矩形的
它就是一种最常见的权重
也就是说
我给所有的人赋的权重是一样的
这个是不是就最简单的平均
矩形的权重方程
对不对
我给每一个人不论它自己的取值是多少
我给它赋相等的权重
像刚才第一种方法 mean
difference
就等于说我们用的是这种
矩形的这种uniformed的这种权重
那么这个权重方程
它都是以中心化之后的
大家可以看到
其它的这些函函数形式
不论它是三角形的也好
还是
二次函数也好
还是其它的函数形式也好
它都是在0的时候取最大值
0是什么
0就是x距离断点的距离
x跟断点之间的距离
当然我们还可以再把它做一下标准化处理
来定义的 也就是说
我想给
每一个观测点怎么样去加权呢
它离断点越近
我给它越高的权重
它离断点越远
不论是负的还是正的左侧
不论是左侧还是右侧
我就给它更低的权重
是不是
那么听上去
就很有道理
显然它离断得越近
它越逼近于我们想要的
这个值
那么我们就给它更高的权重
它离得远
那么它其实就
在我们的分析中它的作用就会减小
我们就给它更低的权重就可以了
只不过这个函数权重的形式
函数形式
我们要选一个什么样的
我觉得这个就是说没有什么特别的依据
都是
data driven的
你希望更陡一点还是更平缓一点
这个大家自己可以挑一个
那么这个是一个一般的形式
那么这个地方强调的是什么呢
K当然是函数形式
k就是不同的曲线了
那么自变量我们做了一个标准化处理
也就是它减去
xi减去x0除以h
h就是这个区间带宽
那么它就是
做了一个这样的
我们叫归一化 是不是
显然就是当它等于cut off point的时候
它就取零了
那么取0的时候
靠上 k这个函数
我们就能够得到它的权重
一般来讲是一个最高的权重
这个就是kernel method
的一个理念
就是赋权
不是简单的一个平均了
那么这个地方
咱们不能做太多讨论
主要是没有时间
我简单说一下
那么这个就是离散情况下
对于Y求加权平均的这样的一个概念
在这里
Y是我们的离散的这些
取值
W(x)呢
关于x的一个权重方程
那么它是给Y加权
那么加权之后得到的就是一个加权平均值
当然权重的函数形式
它可以是我们刚才说的kernel方程来决定的
我们把 w的
kernel的函数形式套进去
我们就可以得到
这样的一个形式
那么我们就相当于对Y进行了加权平均
这样的话我们得到了两侧加权平均的差值
我们要的treatment effect
对于连续函数
我们就会用到积分和概率密度函数的概念
我们在第一节课复习的时候
也提到过
跟上面这个也是类似的
只不过说我们这里感受到
概率密度函数的形式
这个是简单说一句加权平均的概念
那么当然我们在课本里面有更详细的
kernel加权的这样的一些
算法 那么这个里面
我们就不再去详细的去
去解释了
跟刚才解释是一样的
就是Y
加上kernel方程的形式
来去求加权平均
来求出方断点左右侧的条件
期望
的加权平均值
然后来做差
看上去很复杂
其实就是刚才我们讲的东西是差不多的
那么
虽然我们用了kernel
使得我们的估算更加精确
但是它没有解决根本问题
刚才说的就是我们想要的
是a和b之间的距离
大家看这张图
a和b之间的距离也就是在断点
在断点上
分别取 Y0i跟Y1i的时候
这两个点之间的距离
但是我们其实求的因为是平均值
就算加权平均
它也只是一条
倾斜的曲线
那么其实我们求的是什么
是a'上跟b'上的距离
当然这条线可以倾斜一点
但它永远没有去达到 a和b
所以说还是有一些误差在这里的
我们来看第三种方法
第三种非残估计
第三种非常估计叫局部线性回归
这个概念也是起到这也是用到极限的概念
也就是说
当我们把定义的带宽也就是断点
附近的这样的一个很小的范围
把它定的足够小的时候
第一个
我们带宽减小
这个样本量会减小
但同时
不论它是什么曲线
只要它是光滑可倒的连续的
那么
带宽定义的越小
这个曲线它越趋向于什么
趋向于线段于这个就是直线
那么也就是说我们多项式里面
我们就不需要这么高阶的多项式了
我们只需要低阶的
甚至我们只需要一阶的
一阶就是线性函数了
对不对
我们就用这样的一个极限的概念
好
所以当带宽趋向于0的时候
其实在断点左右两侧
它就会变成两条非常短的线段
也就是它就变成了一个
线性函数
对不对
那么我们就用到这样的一个极限的概念
因此我们可以怎么来设定这个函数
我们来看
在断点的左边
断点我们这里定义为c cut
off point
断点的左边
一个很小的带宽的范围用h来去表示
所以说
就在c减h到c之间这样
的一个很小的带宽里面
我们把这个方程写成这样的一个线性函数
这个地方αβ这两个待估参数
我们加上角标left
left就是l
那么这个是
放成左边
它就是一个非常小的线段
同样在断点右边
就是c的右边
h这么小的一个带宽内
我们也可以假定这个函数形式
它变成一个线性函数
那么α和β
可以是另外一组参数
就是用r来表示 right
右边
左右两侧的待估参数不必然相等
但是它们都是什么样 都是线性的
它说线性就可以了
这个地方的极限概念去
体现在哪
就是体现在 h上
h是一个非常小的值
只有在h足够小的时候才成立
因为如果h很大的时候
其实我们就不能随便的把它
假定为一个线性函数了
它很有可能就是一个
非线性函数
好
那么我们同样可以把这两个分段
函数合并成一个函数形式
这个就是刚才我们
已经反复
练习或多变的就不再详细的去解释了
这个地方我们同样抽离出 d的系数肉
ρ其实是α右键α左
那么当然α又跟α所的估算
它也是极限的概念
x趋近于c的时候
无论是左逼近还是右逼近
分别
Yi的条件期望是多少
这个就是α的含义
当因为x这个地方已经怎么样
已经做了中心化处理了
所以说我们通过这样的一个方式
求了局部的线性回归
来得到了 RD的一个非参估计
那么这个估计值
就会比前面这两种方法更加的精确
这个也确实是我们比较常用的一种形式
好
这个前面就是关于sharp RD
我们的整个模型的set up
和不同的估算形式
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM