当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 7.2 Model setup 1
那么
关于这个系统的来去考察hlm的建模
我们大概要遵循这么几个步骤
首先就是空模型也就是方差分析
为什么我们要拿到这个数据之后
我们有没有必要来去使用多层级分析
那么我们要通过方差分析来去判断
接着我们就会不断的让模型变得复杂
来一步一步的来看
那么这个里面就经历了这么几个
一个是我们叫他
这个random intersept
model
截距是随机的
我们之前也讲过
接着就是 random slope
我们没有讲过
这个斜率也可以是随机的
就是斜率
不同学校的斜率可以不一样
就是这个概念
最后就是full model 就是说斜率跟
截距可以同时都是随机的
并且我们在
第二层来建模来分析他为什么
不一样
就是把它这个variation
把它解释掉
我们
模型set up的一个过程
我们后面的讨论
也是按照这个流程来的
大家有问题你就
随时的问 因为我觉得
对于前面这些知识大家都应该
有一个基本的掌握了
好 我们来看空模型
我们用的y就是故事
就是他的数学成绩
就是math score数学成绩
这是一个两层模型
那么第一层是student
43
00:01:4 0,910 --> 00:01:41,380
level
第二层是school level
那么这是个空模型
也就是说在 student
level
每一个学生student i
in school j
他的成绩
等于什么
等于它的全校的成绩的均值就是β0j
再加上他自己的成绩跟
全校成绩均值的差值
eij离差
但是eij它的方差
我们用
σ^2来去表示
那么在第二层 school
level
我这里写的是 class level
你也可以把它看成school
level都可以
那么
每一个学校有它自己的
均值
那么不同学校的均值
他们可以不一样 对不对
有的学校它的整体均值就高
有的学校整体均值就低 对不对
因此β0j
他在第二层在school level
是可以变化的
它等于什么
它就等于一个grand mean
我们叫grand mean
就是说整个样本的均值
grand mean就是γ00
再加上μ0j也就是说第j个学校
的均值跟整个样本均值的差
叫μ0j
μ0j的方差就记做τ00
这个地方它就这么记的
我们跟教科书保持一致
它就没有平方
那就直接叫τ00
但它是方差
所以我们就可以得到一个reduced
form
Reduced form
就是把β0j
带入到
level one的方程里面
因为β0j它是一个
也是个随机变量
那么我们把它带入到第一个方程里面
就得到
一个general的形式
就是yij它就是 MSIj
它就等于γ00
加上μ0j加上eij这样的一个
形式 它就是一个
整个样本的均值加
两个
随机变量
那么这两个随机变量呢
一个是组内的方差
一个是组间方差
因此
y的
这个方差就是由两部分构成
一个是组内方差σ^2
一个是组间方差τ00
这样的话大家就想起来
我们之前算过
从intra-class
correlation coefficient 这个组内
相关系数
它就等于组间方差除以总方差作为相似
组内相关系数
那么显然这个值越大就说明什么
就说明组内越相似是吧
组间越不相似
因为总方差是固定的
那么
我们的之前的方差结构
的考虑非常有必要的
这个就是方差分析的作用就是个空模型
让我们来判断
拿到这个数据之后
是不是有必要来去使用多层级进行模型
那么如果换成之前的
术语
就是说要不要考虑cluster的问题
一样的
那么假设它是需要的
比如说ρ足够大
ρ足够大
那么我们就要去
考虑
这样的一个多层级模型
那么我们后面的建模
都要考虑这个问题
我们来看
最基础的一个建模叫random
intercept model
也叫ancova
在这里
我们在
level one的方程里面
加入了一个
自变量IQ
那么假设这个是可以观测的
比如说可以去测量的
IQ
它显然可以解释一部分的数学
成绩的variation
我们就加了自变量
那么加入IQ之后
大家可以看到
第一层的待估参数
第一层方程里面待估参数
就不是只有β0j了
它就有两个待估参数
还有一个是β1j
β1j就是IQ的斜率
就是IQ对于数学成绩的影响
有两个待估参数
那么我们就来看
根据刚才的分析
不同学校之间它的均值是有较大的差异的
因此我们还保留什么
在level two
在 school level
我们还是保留β0j
他是一个
随机变量
也就是说它是由γ00加上μ0j
来构成的
γ00是一个参数了
它是一个常数项
样本均值
μ0j是他的组间的变异
这样子
同时
在这个地方我们先不对β1j
做出一个随机性的假设
那么β1j它在第二层
就直接等于一个常数项
γ10就可以了
也就是说我们假设β1j
它是一个固定的
它是一个固定的值
它不是在第二层变化的
那么
这样的话
我们当然就可以把β0j和β1j
都带入到第一层的
方程里面
就变成这样的一个方程
大家可以看到其实带进去之后
我们
仍然是得到了一个
一般的一个线性方程
只不过是它的方差结构被
清晰的表达为两部分
一个组内方差
一个是组间方差
当然这部分方差都是指的是
均值的方差
截距项的方差这一部分
那么我们也其实非常清晰的假定了什么呢
这个各组各个学校
他们的intercept
他们的截距是不一样的
但是
IQ
对于成绩的影响
也就是IQ的斜率
是一样的
也就是说不论他在哪个学校
IQ对成绩的影响的程度
marginal effect
是一样的
那么有同学在预习的时候就
问到说
我怎么知道它应该是 random
还是fixed这个斜率
这个就取决于
几点
第一个还是这个理论
那么
它应不应该变
就是说在理论上它是不是和有一个
强很强的理论的解释和假设
认为他在不同的学校
IQ对这个成绩的影响是不一样的
如果没有这样的假设
我们就认为它应该是一样的平行的
这是一个
第二个
我们其实也可以去对它的斜率
做方差分析
来去做一个data追问的这样的一个
考量来去看
它在
不同组的内部
单独跑回归
那么每一个组的斜率是不是一样的
如果整体上来看它也是一致的话
我们就认为它是一样的
如果不是一一样的话
变化比较大的话
我们也可以建模去model它
所以说这个是两方面看
一个是理论 一个是数据
所以接着就来说 random
slope的问题
如果说
我们觉得它有可能是
变化的 slope
β1j它有可能是变化的
不同的学校
它可能有不同的slope
那么我们也可以把它变成一个随机的变量
也就是说在第二层
我把β1j
这个方程写成γ10加上μ1j这个
地方我给它加上一个随机项就可以了
这样的话它就变成一个随机变量了
当然这个时候最重要的就是说
我们去跑完这个方程估算
我来看
μ1j它的方差到底是不是显着的
区别于0
这个就是一个假设检验
那么如果显著的话
我就认为ok它确实是一个随机的斜率
如果不显著
那么就是不显著的区别于0
那我就还认为它应该是一个固定的斜率
我回过来再把被这个μ1j再去掉就可以
IQ我们不好说
它是不是一个变化的斜率
但是我们常见的比如说
家庭社会经济地位的均值
他对成绩的影响
在不同学校
可能是不一样的
是有研究来做这个事情
就是这样的变量
往往大家就特别希望来去分析
他们的
差异 包括
我们也经常讨论
比如说额外的一小时的努力
对于成绩的影响
大家也都有这样的一个直观的经验
那么就是对于高分学生
再花一个小时他提高的
成绩的量
肯定是要低于低分段学生
他多花一个小时的学习
他对成绩的提升
那么这个时候你就可以假设
在不同类型的学校
以成绩均值为
去刻画
在不同类型的学校确实可能一个
学习时间对于成绩的影响
它这个斜率就可以是变化的
就随便举个例子
所以要有实际的
理论或者是经验的假设
为依据 然后再辅以
这个数据的假设检验来去判断这个斜率
是不是需要把它设成是一个随机的斜率
好
那么假设在这种情况下
我们把它设成随机斜率
大家来看一下
我们把β还是把β0j
和β1j的第二阶段的
方程带入到第一阶段
得到 reduced form
那么
这个时候的方差结构
就比刚才复杂了
方差结构
它除了μ0j和εij之外
多了一个
μ1j乘以IQij
那么这一项的来源
交互项残差跟自变量的交互项
就来源于 random slope
因为我们假设它slope是
随机的
所以就会出现这样的一个交叉项
方差结构就会更加复杂
显然这个方差
它跟前面的自变量怎么样
是相关的对吧
这个是自变量IQ
红色的部分是我们的整个的残差
显然自变量跟我们的残差是相关的
对不对 因为里面有IQ了
那么这个时候我们当然是
不能简单的用ols来估计的
这个是我一般采用的是极大似然估计法
好
那么在这样的一个假设条件下
我们来看
大概就画这么一个示意图
也就是说不同的学校
它有不同的截距项
和不同的斜率
那么
random slope
model的这样的一个假设
一般来讲
如果我们假设它是random
slope
它的
intercept也是random
的
因为我们是从
这个随机截距
作为起点开始的
很少遇到说
我假设它的slope是random
然后它的斜率
它的截距反而是固定的
这种是很少的
截距一般我们都会把它
定义为假设为random
如果截距都不是random
那我们就没有必要做hlm了
好
对于这个问题
同学们还有什么
问题吗
因为听听助教反映了大家
在预习中的一些疑问
我就是在这里重点来说一下
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM