当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 7.13 Q&A 1
首先是关于这样模型的问题
第一个想问是我们上节课讲的那一些HLM
的模型
包括空模型 随机截取模型
随机斜率模型
一元方差分析模型 随机效应 单因素
协方差分析
随机系数回归模型
然后这个同学想问一下这几类
模型分别有什么特征
我们总觉得可能对于这个模型的理解
从公式上
看是会比较明白和清晰
所以这里大概列了一下
它一共包括了这4种模型的方程形式
第一种就是空模型
其实它就是随机效应一元方程分析模型
因为它是将我们感兴趣
的变量分解成第一层
是由个体差异造成的部分
第二层有几个差异造成的部分
第一层和第二层它都没有
纳入一个解释变量
所以它实质上就是在进行
多层样本均值差异
的一个显著性检验
所以也就是ANOVA方差分析
第二个方差模型就是随机截距
也叫随机效应单因素协方差分析
这两个应该是一个东西
然后它相较于空模型的话
它其实在第一层上纳入了一个解释变量
所以他在第二层上就允许不同
组别拥有不同的结局
但是解释变第一层解释变量的系数
在第二层里面是一致的
就没有加一个随机项
所以就意味着而且是变量对因变量
的回归系数是逐渐一致的
也就是说斜率是固定的
第三种模型就是随机斜率模型
这种模型他在
第二层的斜率上也加入了随机项目
所以它的目的相较于上一个
它就是在寻找第一层截距斜率
在第二层单位上的变异
这样的话就意味着第一层回归模型
里面的两个系数都是随机的
所以它又被叫做随机系数回归模型
这两个也是一个东西
最完整的就是full model
它里边在第一层和第二层
里面都加入了解释变量
然后如果大家有问题的话
可以随意的打断我
但是我们现在看到的这4种模型
它都是一个2层的模型
而在实际的一个教育数据收集
过程中会有很多模型
它不只有两层的嵌套
我们更常见的可能有学生层面的
学生层面在一个班级的水平
而班级又分布在不同的学校
所以就会出现一个三层的模型
下一个问题就是如何把两层的模型
推广到三个level上
这是我们用了一个空模型去大概的
解释一下
因为会比较直观
首先第一层在这个里面我们想要探究的
是学生的学业成绩
其中的i就是指这个学生
这就是指这个班级
k就是指这个学校
首先第一层就是学生层面的一个模型
它指的就是学生的成绩等于
他所在班级的一个均值
加上
学生
的随机效应
而第二层模型就是上升
到了一个班级的层面
那就是指的班班级的一个
成绩
就等于它所在学校的均值
加上班级的学习效应
第三层就是学校的层面
就指学校的成绩等于总体的均
值加上学校的一个随机效应
所以他其实就是做了一个
学生
个体学生个体嵌套在班级
而班级嵌套在学校的这样一个三层模型
这三个公式就是整合起来的话
就可以发现其实三层模型
把我们的总方差分解成了三个部分
一个是学生层面的差异
一个是班级层面的差异
最后是学校层面的差异
当然因为我们是用空模型做的解释
所以它每一层里边都不包含着解释变量
因此这个方程形式不会显得特别复杂
但其实如果是一个完整模型的话
它每一层都包含着解释变量
整个方程就会变得特别复杂
因为他在第一层上解释变量的技术
就会在第二层和第三层发生变化
第二层的解释变量的系数也
会在第三层上发生变化
这就意味着我们需要更多的方程数量
而且在不同层之间可能也会存在交互项
而且交互项的系数有可能会在更高层上
进行变化
所以而且有些很多变量可能是我们
在实际生活中没有办法测量到的
因此整个三层模型就会非常的复杂
是不是要选用三个模型
以及我们到底应该如何设定模型的形式
可能就要取决于理论基础以及
我们的研究目的和研究兴趣
而三次模型的一个完整方摸到如何写
应该是老师
这节课等会讲
所以我们可以到时候再讨论
然后下一个关于HLM模型的就是
logic和probit的
回归的适用条件
我们请**同学来给大家讲
好的 老师同学们大家好
下面我来回答一下这个问题
然后这个问题是在多层线性模型
中logic回归和
profib回归的适用条件分别
是什么
然后这个问题之前在倾向性得分
匹配中已经有同学提过了
在多层线性模型中二者的使用
仍旧不存在明显的区别
然后我们简单回顾一下这二者的异同点
首先这二者都是常见的离散选择模型
当因变量是01变量的时候
二者没有本质的区别
一般情况下是可以换用的
从分布的角度来说
logic和probit
的函数几乎是重叠的
但是二者残差项的分布是不同的
logit回归的残渣项
服从的是逻辑概率会
probit的残差
项服从标准正态分布
同时他们在系数解释上有一些差异
具体可以看一下
上次的PPT这里就不多说了
然后总体来说probit它可能
更多的用于二元元变量的解释
logit它计算更加方便
更易于解释
所以它是使用
最为广泛的离散选择模型
然后下面由**同学为大家
带来第二大题的讲解
好
第二大题同学问了很多问题
是关于
H M的两种估计收缩
估计和极大似然估计
然后首先我们先来看一下收缩估计
第一个最重要的问题是我们
估计是想估计什么
我们要估计的
待定系数主要有两个
一个是γ00
另一个是随机效应的系数
β0j因为这里是空模型
所以
没有包括β1j β2j这些
其他的系数
然后我们看到老这是老师
的PPT里截出来的
其实老师已经讲得非常清楚了
我们看到在第一层的
方程里面
我们关心的是
个体随机效应的方差
然后第二层里面我们关心的是
组组间的
方差
我们为什么只关注方差
因为根据假设他们的均值应该都等于0
所以我们关注的是这两者的方差
这是我们
一个基本的方程以及设置
的一些基本的参数
下意识的意识
然后我们再详细说明一下怎么样来估算
首先看到level1的方程
我们在
上一页的上一批的方程基础上
对他进行了一个平均值的处理
那么左边的
yij就变成了yj
具体到一个学校里的例子的话
就是由每个同学的成绩
变成了学校的平均分
然后在我们的假设里β0j是不变的
所以
是一个恒定值
所以
取平均值相应以后
它依然是β0j
然后eij真是
每个同学的一个
每个同学的一个个体的
差异 随机波动
然后取均值之后是ej
然后在上面这个方程里面
我们去计算各项的方差的话
β0j是一个常数
所以它是没有方差的
那么就变成了dj的方差
我们之前一页的PPT已经
就是σ等于平方就是eij的方差
那么我们在这里取平均值以后
ej均值的方差就应该是σ平方
除以nj也就是这个学校的人数
好 我们得到这个方差
我们再来看下面注意打错了
不好意思把level
2带入level1
也就是把下面这个level2的方程
β0j等于γ00加
μ0j
这个地方
level2 带入level 1
我们把它带进去之后得到第三个方程
这个也很好理解
然后我们在这上面第三个方程
求方差就可以得到第4个式子的式子
首先
ej
均值
的方差我们上面已经求了
是σ平方除以nj
然后γ00在我们的假设
里面也是一个常数
所以它方差是0
然后μ0j的方差
我们看到最下面一行
我们规定它是τ00
这样我们就得到了
对
这样我们就得到了
Δj
然后有同学问
这个Δj是什么意思
一会我们就知道它是什么意思
实际上这个地方是我们自己规定的
然后precision
我们叫它精确度
它是δj的倒数
这个是我们人为定义的
好 我们回到右边
我们来想思考一下
我们为什么要计算δ
和precision
我们是为了对γ00作出更准确的估计
我们到目前为止做的所有事情都是为了
估计我们两个待定参数中的γ00
我们希望用加权平均的方法来计算
你得到更准确的γ定理的估计
那么加权平均中如何确定
好 **等一等
**讲的特别好特别细
我这里补充一句
正好是在逻辑点上
我们上节课没有讲
大家想一下
γ00是一个常数
那么我们叫它grand
mean整个样本的均值
为什么我们不能直接用整个
样本里所有学生的
平均分
各个学校合在一起
所有学校的评所有学生的平均分
来作为γ00的一个估计
这个是非常
straightforward的
一个想法
为什么我们不去
用那个数
而是在考虑用一个更复杂的加权平均
这个是我们上节课没有讨论的
正好**讲到这个地方
是因为
它是一个多层级结构 对不对
它有组内的相似性
所以
我们如果简单的用一个全样本上面所有的
学生的平均分作为γ00的估算值的话
我们就忽略了
它的这样一个组内组间的方差结构
是因为这个原因我们不能这么做
因此我们才考虑其他方法
就是用
各个组的平均值来去估算杠γ00
也就是说各个学校的平均值
来估算干嘛00
那么这个时候就牵扯到
我用什么样的权重的
我不加权也是一种权重
那个就是一个平均相等的权重
是这个逻辑
我们上次是跳过了
在这里补充一下
可能很多同学不知道为什么
我们要这么去算干嘛
00
**也讲得很好
好的
然后我们为了确定加权平均的权重
才进行了上面这一部分的计算
Precision就是我们确定的权重
实际上是
我们看到 δj的结构
实际上是yj如果它的
组内的均值方差越大
y j组它的均值在我们
的加权平均的估算中
它的权重就越小
所以我们的γ00最后是
得到这样一个
式子
它其实就是一个加权平均
我们把权重
结出来
不好意思 感觉有点丑
实际上就是每个组的平均
值乘以这个组的权重
之和
再除以权重之和就是加权平均值的一个
经典的一个公式
然后我们上面计算这么多
precision
就是为了确定每个组的权重
然后这个就是对γ00的一个估计
好
下一个问题对权重的逻辑就是什么呢
周六回来
权重的逻辑就是说
大家想既然我用各个学校的平均分
来去计算整个样本的均值干嘛
00
每一个学校我给他付多大的权重对吧
这个逻辑就是说
他越精确
我就给他权重越高
它越不精确
我就给它权重越低
精确度就是这么样来去使用的
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM