当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 5.12 RD workshop 1
那么我再重复一下
那么
大家看这个数据变量
第一个是state code区分州
因为每一个州的选举结果是不一样的
选举的情况不一样
第三个变量d是很重要的
d就是我们的forcing
variable
因为它是
看label
它是民主党
获得的选票比例减去0.5
0.5是我们的 cut
up point
对不对
所以它减0.5是做了一个什么
它做了一个中心化处理
也就是说这个时候
它的断点就到了零这个位置
是不是
那么下一个变量是问就是民主党获胜
win等于1就是民主党获胜
win等于0
共和党获胜
那么它就是我们的什么
就相当于 assignment就是
treatment
assignment
variable
那么
下一个变量是我们的y, lne
联邦
政府的支出
在选区的政府的支出的对数
那么
这个就是我们的y
也就是说这里的假设就想看说
民主党来去执政的州
它的财政支出
会不会跟共和党执政
财政支出有一个显著的差异
那么对于州来讲
它的treatment就是民主党执政
所以这个就是这样的一个故事
那么后面还有一些变量
那么都是关于每一个州的具体的情况
它的人口
它的黑人占的比例
它的一些产业结构
比如说蓝领工人 农民等等
它占的结构
这些可能都会影响到
选民的投选举的意愿
那么这个就是我们所说的 covariates
协变量
当然协变量我们并不见得都会用
那么这个是大概这样一个故事
那么我们来看一下大家
是不是RD都装好了
那么我来看一下第4行
第4行是最简单的一个命令
那么就是RD
然后y
然后是我们的forcing
variable
那么大家把第4行跑一下
我们一起来看一下这个结果
好
我来解释一下
同学们应该可以看到我的屏幕应该在
同学们应该可以
在雨课堂和
ZOOM里都会看到这个屏幕
我们来看一下 RD它跑出来这个结果
那么这个地方会很清楚的来说
assumed jump
它这个都是
我们这个断点是定义为
0的
所以说大家用命令之前都要把你的
forcing variable
把它中心化一下
因为命令它是默认的
断点是在0的
这样我们就不用再专门有一个
option来设断点的值了
这是一个
第二个就是我们的设定是不是正确
对于这个命令来讲
它认为asignment variable是d
这个地方我们并没有specify
它所谓 treatment
variable
分组变量我们什么时候
specify呢
我们是在
fuzzy RD的时候才需要去
告诉stata
谁是这个分组变量
因为在sharp RD里面
我们只要知道d的取值
我们就已经知道了分组变量取值了
是吧 它们是完全对应的
所以说在sharp RD里面不需要来去设 xt
y是
是
log expenditure
然后看这个结果
这个结果只报告了一个参数
我们关心的分组结果
的系数
哈哈
好 我们把这个结果讲完了
我们休息几分钟
大家可以看到这个地方
很重要一点是什么呢
默认来讲
stata会报告三个带宽所对应的结果
第一个是
默认的带宽
默认带宽是它以
某种计算方式计算的一个带宽
我们上节课讲过
其实我们并不知道哪个带宽是最优的
因此
它还会自动的来去报告
带宽的一半
以及带宽的两倍
所对应的结果
体现在哪里
就体现在尾数上
尾数没有数字的就是一个带宽
尾数后面有个50的就是50%的带宽
尾数后面有200的就是200%
的带宽就是两个带宽
那么它就自动把它标为 local
瓦尔德估计
那么这个是
相当于把这个工具变量的这种
情况也一块考虑进去了
那么当然在sharp RD里面
其实我们就没有无所谓工具变量了
它只是在这个写法上就这么写了
所以这个就是报告了
三种带宽下
我们做RD的估算
我们最感兴趣的
就是treatment变量的系数
我们可以看到
它的取值
分别是0.07
负的0.07
负的0.09和负的0.05
值是非常小的
而且我们可以看它的
检验也是p值也是不显著的
所以这个就是一个最简单的
一个RD的这么一个
一个估算
咱们接着看
大家看一下第5行命令
第5行命令加了一个option
这个option就是对带宽的一个选择
这个mbw就是对于多种
带宽的选择的一个界定
这个地方就是写了个100
也就说我其实不想看这么多种带宽
我只想看一个带宽的情况
加上100大家跑一下第5行
你可以看到这个结果
报告的就只有一个带宽的结果
当然如果你
把它设定为200
那么它当然就会报告出
两个带宽的情况
所以说这个时候
它就只报告了
一个带宽情况下的我们的RD的估计值
这个非常好理解
我们看下一个
下一个 option是x
x说明什么呢
大家知道我们
前面也都讨论过了
最重要的就是来看
我们的整个方程形态
以及这些协变量
包括forcing variable
那么它们在
断点的附近是不是连续的
所以第6个命第6行的命令它就是
option x它其实就是
来去检验
这些协变量
刚才说的这些协变量
population什么
的
它们是不是在
断点附近连续
那么命令就是来检验大家可以跑一下
当然你这个地方如果不加
任何带宽的限制的话
它会跑出三组
结果你们可以跑一下看一下
跑出三组结果
也就是说先跑出一个带宽的
然后是0.5个带宽的
然后是两个带宽的
把这些协变量它们在断点附近
我们做了一个其实是一个什么
这个就是一个placebo
RD,我们把协变量当做
y然后来去做了一个RD的分析
当然就是我们
按照假设的话 我们肯定希望
在 treatment
variable的系数上
这些协变量它们都应该是不显著的
如果它们跳跃了
也就是显著的在断点附近有显著的
断裂 两侧有显著的差异的话
这是一个跳跃
可能会比较有问题
那么我们看在不同带宽下
如果这个结果是比较
consistent
系数趋向于0
而且 p值不显着这个就比较好
那么大家可以看一下这个结果整体
还可以有一个 farmer
农民的人口占比例
这个值是很小的
0.7%的差异并不是特别大
0.7%的差异
但是它在p值上是显著
所以说要综合来看
但整体上也没有太大问题
因为它这个系数本来 mean
difference是特别小的
所以怎么来看做 placebo
的 RD
就加
option就可以了
好 我们下面来看画图哈
RD显然画图是非常直观而且重要的
那么第8行开始我们用的是
graphic option
就是gr
那么我们来看一下
大家跑一下第8行命令
我们限定带宽是100
否则的话会跑出三组图来
我们限定带宽100
我们来看
对于 RD的画图
当然当我们用了命令之后
大家可以看到它用的是
local的 linear
polynomial的这样的一个
平滑分析
那么用的kernel,它报告
出来default
它用的是三角的kernel来画了这么一个
拟合的一个图
ok 那么
这张图
它就是我们在讲课的时候常用的这些例子
只不过这个图它是一个
用真实数据来画的图
横坐标就是我们的 forcing
variable d
的断点已经中心化到0了
那么
这些灰色的点是
实际的这些样本点
红线跟绿线分别是在断裂两侧拟合的曲线
当然y轴是我们的y outcome
variable
就是在一个带宽下画出来的图
我们可以看到确实在断点附近
它跳跃
不是特别的明显
gap也不是很大
离得也比较近
根据散点图的情况
标准误也不会太小
所以说确实它就不太可能显著
但是画图的方法
那就是这个样子的
同学们有问题
就可以随时提出来
就是画的这样的一个
你这是一个拟合图
用的拟合的方法就是我们刚才
说的它用的是三角的kernel
我们来做的这样的一个
平滑的这样的一个拟合
好
那么下一行就是加入了加入了一些图例了
x y轴等等这样的一些值都加上了
我们也可以看
我们现在直接看第10行
那么第10行
这个时候我们是对
这个概率来做这样的一个
分析 也是
win它是
我们刚才说了它是一个01变量
d大于0的时候
win等于1
d小于0的时候
win
它就等于0
那么我们来看第10行命令
其实就是在这个断点两侧
我们来画了一下
win的这个点
因为这是一个sharp RD
大家可以看到
在
0的右侧
x
也就是win
它的所有散点就是这些灰色的点
它其实都是等于1的
这是非常明显的
都等于1
那么因此拟合出来的这条线
绿色的
绿色的这条虚线
它也是
非常平直的
就是这样子
当然就是当 d小于0的时候
我们看到win它所有取值都是0
灰色的这些点被红色的线盖住了
那么红色的线是拟合出来的线
那么这个就是一个sharp RD的情况下
我们的 treatment
分组变量它的概率的情况
这就是非常典型的
我们sharo RD里就应该能够
画出这样的一张图来
但是它顺道把刚才那张外的图画了一遍
这个就是一样的了
有问题你们就随时开麦克说
咱们就work shop
就是边边练边讨论
那么它除了可以画win,像我们最关键
的这样的一些分组变量之外
它也可以画其它变量
我们来看一下第11行
它是对 federal
worker
这样的一个变量
来去做图
当然它会画两张图
它会把y每次都会画出来
我们要的是它x就这张图
大家可以看这个就是我们随便
挑了一个x就是一个协变量
那么协变量
我们在断点两侧分别拟
合它还是刚才的kernel
来去拟合它
散点图就是灰色的这些点
我们可以看到
按刚才我们做的是 placebo
RD
是通过
统计推断的方式来去看的
那么现在我们画图依然
可以看到同样的结果
非常形象
在断点两侧这条红色的拟合的曲线
跟绿色的这条虚线
它们在断点的位置并没有什么跳跃是吧
连的非常好
甚至整个曲线形态两侧
也算是接的比较光滑
那么这个其实会给我们增加这样的一个
判断依据和信心
也很形象的可视化的来去看了一下
我们的这些协变量
它的断点的两侧是不是连续的
那么这个就是对协变量的画图
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM