当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 4.15 DID workshop 1
好
请大家
首先打开 stata
然后state打开哪个数据呢
还是 dynarski数据
chapter 8
开头的数据
这个是我们上课讲的这个例子
助学金的例子
把这个数据打开
do file也打开
我们有一个do file在里面
因为我们是上课专门讲的
所以说就没有把论文放里面
这个论文相信大家也都看过了
包括教科书上也都有
我们
首先一起来看一下
都有哪些变量
然后我们做对这些变量做一个熟悉
通过一些简单的操作
预分析
来熟悉一下变量
接着我们就来跑一个两期的DID来复现
咱们课上讨论的这样的一个分析
这个是大概的一个步骤
这是对第一个数据库
好
同学们是不是已经都打开了
差点忘了共享
我来共享一下屏幕
共享一下屏幕
好
大家现在应该可以看到
我的stata对不对
好
那么看一下有哪些变量
第一个是ID
这个ID就是每一个学生
个体的ID很好理解
第二个是
hhid
那么这个它其实是一个最小抽样单元
那么因为这个样本它是来自于一个大的
普查数据
普查它是否有一个抽样的框架
抽样框一个抽样策略
其中最小抽样单元它就是一个group
的概念
我最后是在哪一个
比如说是以学校为单位
还是以学区为单位
我来进行随机抽样最小的抽样单元
它就是有个ID
就是每一个学区
比如说它有一个ID
那么这个是来界定概念的
那么接下来第三个变量是1988年
的抽样的权重
因为抽样它不见得是等比抽样
我们
应该学过抽样
那么它应该是一个分层的非等比抽样
包括抽样之后
填答率也不见得都是一致
有的地方偏差率高的地方填答率低
因此我们就会算一个什么
抽样权重
来去纠正咱们样本的这样的一个情况
使得加权之后的样本
就具有代表性
那么就可以把从样本的结论推广到整体
所以说权重
是起到这样一个作用 我们
对于一些
这样的一些数据
我们的分析都应该带上群众
Ok那么下一个变量是college
college显然是我们的
outcome variable
对不对
它是在23岁的时候
已经全职全时的上大学
就不是这种
兼职上大学或者还没上大学那么
一个在一定时间范围内定义的
一个是不是上大学的这么一个
一个行为变量
这是我们的outcome
因为我们想看给他提供助学金以后
他是不是就能够上大学
大概是这样的
Ok
那么下一个变量是
变量我们这个分析并没有用
但是在数据里是有的
这个是说什么是
这个是他就是完成的最高的年级
23岁的时候
他上了几年级了
因为有的人他真的没上大学
或者他上完大学了
我们用 schooling的这种概念
它一共上了几年
学,上了几年级这样的一个概念
来去刻画就是这个变量
但是我们这个里面没有用它
下一个是定义cohort
就是说
它在哪一年
是高四的学生
senior是高中四年级的学生
因为美国的高中是4年
那么这个是这样的一个变量
下一个变量
在18岁,18岁就是高中四年级
那么在18岁的父亲是不是已经去世了
那么这就是它是不是有资质
获得financial aid的条件
所以说这个是显然是来定义什么
在定义我们的treatment group
的一个变量
那么最后一个变量
是说他在他上高四的这
一年就senior
那么是不是政府提供了SSSB
这样的一个support
Support是不是
available
大家还记得一开始这个政策是有的
对不对
但过了几年联系在这
82年哪一年
还是81年政策就停了
因此offer是一个时间概念
对不对
但是offer等于1的时候
应该是政策停止之前
offer等于0
那是政策停止之后
这样的话 offer它的系数
才能够刻画出政策的效应
如果是用我们说的t就是之前和之后
按照自然年份的话
那就是反过来了 符号就反了
所以我们这个是做了一个处理
所以我们现在这些变量
这些变量实际上都是提前都已经
处理好了的
Ok
我们来看一下咱们怎么样
来去熟悉这些变量
我们来怎么样开始
分析
Ok我们打开这个do file
打开do file之后
我们先看一下13行和14行的命令
那么14行
来
告诉stata我要使用抽样权重
因此它有一个survey
set这样的一个命令
它就是来设计来设置
service weight
先clear一下
因为防止内存里面已经提前
设过一些其它的权重
这是好习惯
主要是14行 service set
然后告诉stata
pw就是sampling
weight
这是命令里面自带的
要告诉stata pw等于哪一个变量
在我们这个里面刚才解释了
咱们的权重的变量是wt88
那么就在这里写上就可以了
注意这段是中括号 不是小括号
逗号之后
psu就是primary
sampling unit
最小抽样单元就是最基础的抽样单元
primary sampling
unit
刚才我们解释的hhid
也告诉stata
谁是
用哪个变量来定义了最小抽样单元
这样的话
我们就把
抽样权重给定义清楚了
那么大家看17行,16行 17行
你首先我们拿到这个数据
显然我们要做一些
descriptive
statistics
咱们不要着急去马上去跑这个
跑 DID分析
我们一步步来
要对这个数据比较熟悉
这样的话才能够在解读结果
的时候不会出现偏误
或者能够及时发现一些错误的分析
好
那么17行大家看到跟我们之前用的
描述统计不一样的地方
就在于说我们前面在命是一个命令
对不对 是来算
均值以及相关的一些统计量的
在命令之前我们加了 survey冒号
这个就使得说state
在计算均值的时候
它会用上抽样权重
这个就是怎么来使用抽样权重的
这个非常
方便了
所以请大家现在把13行到
17行你自己来跑一下
选中13行到
17行
然后选择运行
然后来看一下
这个结果
好
跑出来的
跑出来之后就看一下你
自己的屏幕就可以了
或者你看一下我的屏幕也是一样的
那么我们可以看到
当我们来设置 service
set的时候
它要stata要设好之后
它会报出一系列的这些量
当然我们还可以设更多的东西
那么我没有设,把最基础的设好了
因为我们抽样没有那么复杂
如果它报错的话你就没设上
那就要没有再跟我说一下
那么接下来我们就是跑了
一个最简单的计算均值
和均值的标准物以及95%的置信区间
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM