当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.19 IV workshop 1
我们打开stata的两个文件
第一个是数据文件
第二个是它的do file文件
都准备好
那么这个数据它一开始是没有变量名的
它这个变量名是用v1到v27来去替代的
所以大家打开这个do file
你们如果把两个数据都打开了
一个do file
一个是stata的数据文件都打开了
请在聊天区里面回应一下
这样我就知道首先,do feel是之前作者的我认为
是可能是作者的TA等等
他们来写的时间也很早了
这个是大家看时间是08年的时间
08年就写好这个do file
因为这个文章本身也比较老了
那么我们首先要做的事情就是把这些变量给它重新命名
这样我们知道这些变量大概是什么
用起来会比较方便
所以大家可以看到说在do file里面从第9行到第26
行
是对变量重新进行命名
接着我们仍然有一个变量
这个没关系
接下来我们又先生成一些变量
那么这些变量是对不同的cohort
如果大家看到论文就应该清楚
这个研究它是有一个纵向的追踪数据
所以它是对出生年份在1929年到
39年
39年到
49年
49年到59年类似这样子
每10年叫一个cohort
分别进行了一个分析
因为可能随着大的经济趋势的不同
那么每10年里面人群它的特征会发生变化
所以它是分成三个10年来进行分析的
那么它就需要把这个人群三分成三批
那么这个是只针对白人男性来做的分析
这样它就不用去考虑种族问题和性别问题
性别差异等等
这样子这是一个大的简单的背景
所以它前面进行了一系列操作
从第9行开始
一直到大家可以看一直到第120行
第9行到120行全都是在数据预处理
我们下面做一个什么事情
我把大家分成4个小组
按照你们的学习小组
你们首先自己把120行之前的命令全部跑了
第二个
自己分析一下
跟你的小组成员讨论一下
它为什么要去这样的去新设一些变量
它做了一些什么事情
Qtr是什么
那么它 cohort变量它的含义是什么
现在能看到吗
可以
首先clear就是一个清除之前所有的之前运行的东西
或者什么的
然后log using这个地方
因为老师的路径是老师电脑上的
所以我们要改成自己的
然后它是先执行一个replace
然后在新创建一个log
然后我的11行像跟老师有一点点不一样
对
set mem 500m是设置这次程序的
memory
就是内存是500兆
然后这一行写不写其实无所谓
下一个 use data就是使用我们这次的数据文件
下面从13行一直到31行都非常好理解
就是把它重新命名
然后使每个变量有意义
然后v8用不上
所以我们把它drop了
32行这个地方
cohort其实是人群的意思表示
我们知道这次是要把它分成按照年龄分成不同的人群
然后我们设置的默认值是20.29
这个点29是20~29岁的意思
这是默认值
这里下一行33和34行里的if里的yob是year
of birth
就是出生的年份
我们可以先tab一下
看一下yob的数据结构长什么样子
我的现在能看到我的主的
可以
我们可以看到yob它的数据结构是一部分是30~
49
另一部分是1920~1929
然后我们很快可以判断这个是属于写的格式不一样
它的意义肯定都是1920年至1949年的意思
所以我们接下来做的很多事情都是为了去统一这个格局
回到程序
这个地方就很好理解
30年到39年和40年到49年出生
这样我们就把cohort进行了一个重新的编码
agEQ 我们看到
这个也是非常有意思
前面我们看到都是40多
然后到下面会有一个1900多
因为我已经跑完了
看不见了
AGEQ有一部分值是1900多
这一部分是census等于80
census是人口普查
我猜想是另一次人口普查的意思
所以会出现一点问题
AGEQ就会也是出现了两次格式不统一
所以减1900 35号就是为了 census等于
70和80的这两部分数据统一一下
然后36行的AGEQSQ就是square
把年龄进行了平方
然后下面 generate yob
dummies
是按照出生年份的末尾数字设置虚拟变量
我们首先看到第一块
使首先设置一个虚拟变量 YR20
我们先默认它等于0
然后我们把出生年份是20年
30年
40年这三种都把它编成一表示出生年份是末尾数字的
末尾数字是0的
就会使YR20虚拟变量取1,下面
以此类推
一整个这一块一直到第
48行就是取出生年份的末尾数字
把它们进行了一个分组化的处理
然后下面qob是quarters是出生的季节
对
然后按照4个季节
不一定是自己好
反正就是四分之一了
路进行了一个切分
然后从第91~122行
yob和qob的一个交乘项
就是季节以及年份末尾数字的一个交乘项
最后keep if
Keep if cohort 124行
这个是表示我们只取30年到40年到30年到39年
这个群体进行研究
大概是这样
我不知道我有没有什么地方讲错了
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM