当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 7.22 HLM workshop 4
我们来看一下 这是一个增长模型
增长模型
它并不是从空模型开始跑的
我们必须在第一层加入一个时间变量
产生一个时间的系数
也就是增长的速度
才能够来判断增长模型
是否有必要
所以大家看一下73行
这个就是增长模型
我们不用管变量的含义
y
因变量,time是一个
这个时间变量
那么显然就是在个体内部它是有重复
每一次测量的时间是time
每一次测量的值是y这样子
个体的识别就是ID
也就是说
I d是第二层的分组变量
也是冒号后面的
sorry
双竖线后面的是ID
因为我们一开始就认为
time的系数在第二层是可以变化的
所以我们在第二层的后面
冒号后面就加入了碳
后面就是不变
我们还是希望它报告方差以及
我们希望它
协方差矩阵是
unstructured我们允许它相关
那么这个就是73行
一个最简单的增长模型
大家可以把这一行
跑一下
好 我们可以看到
大家结果都跑出来了
我们可以看到
这个地方
在一个增长模型里面
第一层是重复测量的测验相当于
那么它的
最重要的一个变量
这个时间它的系数就是增长的速度
的点估计也就是fix effect的这一部分
当然还有这样的一个截距
截距是它的初始值初始的情况
以及对应的假设检验都有了
那么第二部分的 random
effect一样
我们有时间的斜率
它的残差的方差
组间的差异
它们的协方差
以及第一层的残差的方差
也就是组内差异
那么这个就是一个最简单的增长模型
根据我们之前的对方程的
设定的了解的
在这么写上是比较容易的
有没有问题 同学们
我们来看这个是最
所以是最赞同 好 谢谢
这个是比较简单的一个
下面我们来看怎么样来去增加解释变量
增长模型
我们在增加解释变量的时候
我们来看一下
之前咱们回顾一下
增长模型增加解释变量呢
我们就是在第二层
变截距跟斜率模型都增加解释变量
跟刚才其实是非常类似
只不过它的含义变成了一个增长下的含义
来看一下
我们增加的解释变量就叫
covariance
也不用管它是什么意思了
反正它就是一个协变量
当然加了个c是表明它是一个
已经进行中心化之后的一个协变量
那么
它在第二层既解释
截距又解释斜率
所以
根据刚才我们做过的练习
大家应该比较快的反应过来
这个方程应该怎么写
就76行大家看一下
首先是y
因变量
然后是第一层的自变量time
以及第二层
变截距模型里的自变量
covariant
以及第二层变斜率
方程里的自变量
covariant这时候
它必须要跟time相乘
它有个交互
放在这里
这样的话就是fix effect的
部分就把它给界定清楚了
双竖线之后是random
effect
第一个是分组变量是ID
第二个就是说我们认为time它的斜率是
能够变化的
我们要给它增加一个新的
残差项 μ1j
就放个time
后面是一样的
所以把76行跑一下
76行跑出来的
大家可以看到这就是一个相当于是一个两
两层的一个full model
跟刚才我们做的练习是非常类似的
就把这个结果跑出来了
这个解读也是一样的
我们就不再重复解读了
如果有问题的话
后面可以再讨论
那么
这样的一个小例子
我们再来看一下画图
画图
大家打开 tolerance
数据tolerance
换掉换数据了
打开tolerance
不是tolerance pp
先打开tolerance
Tolerance是一个测试的名字
咱们之前看过这篇论文
它也是具有重复测量的
首先 tolerance
这个数据因为是一个练习
它比较小
它牵扯到一个我们说过的 wide
跟long的数据格式的问题
我们再次遇到
那么我们先来看一下
大家先跑一下第86行
用类似的命令来把所有的数据打印出来
大家可以看到
一共16个人16个学生
还有它的ID
然后每一个学生
一共有5次的
测试
从
1112一直到15
然后它有这些都是重复测量了
那么
有
学生个体层面的特征
比如说性别
还有
exposure
这个是一个自变量
那么这是一个y data
用这个数据是没有办法
做增长模型的分析的
因为我们要
引入时间概念
要把这些重复测量的变量
把它整合到一个变量里面
再加入时间这个概念
才能够做增长速度的分析
所以
但是 y data是可以做
value added model
的
刚才我们同学们讲过了
那么我们要把这个数据
先变成一个long data
大家来看怎么变成long的
我们之前讲过 reshape
reshape long就是把这个
把这个数据变成一个long dagta
这里面哪些变量会发生变化呢
Tolerant它的系列它的
系列的变量都会发生变化
但它这个变量名前面是一致的
后面变化的部分是数字
这个数字
就会存到一个新的变量里
叫做age
然后
I就是告诉stata谁是个体分组变量
就是ID
把这个说清楚就可以了 所以我们
跑一下87行
就把这个数据变成了一个
long date
然后你再用类似的命令打印出这个
数据来看一下它是怎么变成
一个long data了
大家跑一下第87行和88行
所以大家跑完了
来看一下
那么
这个变成long data之后
一个ID
它叫重复5遍
为什么重复5次测量的成绩
那么这5次测量成绩的刚才变量
的尾缀数字就变成了新的变量
年龄 age
这里面的赋值就11~15
然后它的成绩对应的成绩就列出来
像学生个体层面的这些变量
像比如性别 exposure
这样的一些变量
它叫重复不变
因为它在学生个体
内部是不会发生变化的
这个就是一个long data
这个样本量
也从刚才的16变成了80
就是16×5
然后大家应该比较熟悉了
那么当然
你把它定义好之后
你可以随便再把它变回去
在变的时候你就不用再specify了
在它暂存里面是有记忆的
用reshape wide它就又变成刚才的
wide data
然后你再去reshape long
它又变成long data了
根据你的分析需要 它可以在
内存里面就是随时变化
这就很方便
那么我们就不再变来变去了
告诉大家
可以这样做就可以了
好 我们来看一下
第
96行95行我们不看了
96行它们都是画图
96行画得更完备一些
画了两张图
我们用图位
来去叠加两张图
第一张图是 linear fit
就是
拟合曲线线性拟合曲线
谁跟谁的拟合曲线是
y tolerance成绩
跟年龄跟时间的回归的拟合曲线
第二个就是 scatter散点图
还是这两个变量
我们的y和x的散点图
把它放到一张图里面
然后用two way
然后 by ID
的话就是说我每一个人
每一个学生我单独画一张图
这是我们想看的
所以大家把96行来跑一下
好
大家是不是都跑出了这个结果
画出一张漂亮的图来
是不是
画出图的同学请举手
又是**ok
同学们积极反馈
我也不知道你们在干嘛
有困难的话要说
get lost的话也要说
做出来的话也要说
我们是workshop
希望能有一定的互动性
好 我们来看这张图
好 谢谢**
这个图就是把这16个学生
它们的成绩增长曲线
都画出来了 这是一个线性的
我们做最简单的
每一张图的表头就是它的ID
然后有散点图
有拟合曲线
都把它画出来了
那么这个就是一个最基本的
增长模型中要展现的这种图
为什么要展现这种图
就是打眼一看
对不对 它
截距项它就
个体之间是有明显差异的
而且这些斜率是不是有明显的这种差异
有的学生
它这个斜率非常的平
有的学生
它就是有比较陡的一个增长
当然下降的也有个别下降的
那么我们其实用肉眼就能够非常
可视化的形象的来去看
不同学生它的初试成绩和它的洁具
增长速度的差异
这种图在论文里面和在你做展示
的时候都是非常好用的
好
我们接着往下走
这是一种画法
还有一种画法是把所有的图叠加
我们来看怎么叠加
咱们换一个数据用
tolerance p p这个数据
我们来看一下怎么去叠加的
来画图这种刚才这个图是展开平铺
我们再看叠加
clear 然后换一下数据
因为这个数据都是别人准备好的
所以我们就
直接用就可以了
当然如果你自己要做研究的话
你要自己做很多的数据的清理和准备工作
换成tolerancce pp之后
我们首先来看一下
do file里面
首先是做了一组拟合的
拟合值的这样的一个
生成
这个是104行到
111
行来做的事情
我们直接把这部分跑一下
它是对于每一个个体内部
分别跑回归算拟合值
然后来生成
这样的一个新变量
我们直接跑一下这里不做详细的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM