当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 7.4 Estimation 1
Estimation
刚才只是说这个模型怎么写对吧
相当于我们怎么去设计这个模型
我们的分析思路是什么
但这个模型写好了怎么
估算当然是很重要的
虽然有软件来帮我们跑
但是它背后的逻辑是什么
大家要了解要掌握
这个是
我们的
很重要的一个考虑
背后的他它的思想是什么
那么对于 hlm的估算
整体上讲我们可以有两种思想
第一个叫收缩估计 shrinkage
estimation
这个思想非常重要
我们之前并没有去太多讨论过
那么它体现出了
我们对数据结构的理解
我们主要探讨就这一个
第二个
极大似然
估计大家这个思想大家都已经很清楚了
我们就不准备再多讲了
所以主要是讲第一种
我们用最简单的例子用空模型来去探讨
因为空模型里面
第一个它的参数比较少
第二个参数的估算很简单
就是均值
因为β0j这本身就是斜率
就是截距就是均值的意思
所以我们就用空模型来去探讨
shrinkage
estimation
咱们课本上有更详细的加入
自变量以后的估算
它的逻辑是一样的
只不过是表述会更复杂一些
大家感兴趣的话
这个课下可以自己去了解我们这个课
实在没有这么多时间去讨论这些
丰富的细节
所以我们这里的目标
就说估算两个参数
空模型里面就两个参数
一个是β0j
一个是γ00
我们来看这两个参数
我们怎么去估算它
当然还有两个方差的参数也需要去估算
但是我们这里主要考虑的是
fixed effect
这里所谓的fixed effect就是指
常数参数
这个random effect
这里是特指的是随机项
就是
eij和μ0j的相关的参数
主要是它们的方差 因为它们的
均值是0
所以在 hlm的话语体系下
fixed effect random
effect
和我们之前 rct
里面说的聚类的时候
说的 fixed effect和
random effect不是一个
意思
这里的fixed effect
就是指待估参数这些
点估计
Coefficient
而 random effect
特指的是
残差的方差这一块
残差的参数的估计
这个是在hlm这本书里面它的这样的一个
定义 terminology
大家就搞清楚 不要混了
Ok
我们来看一下
这个是
第一个方程是
这个yij等于β0j加上
eij这是
某一个学生 individual i
in school j
那么他
它的乘积是等于β0j
加上eij的
我们要估算
β0j的话
不可能是只用这一个学生的成绩去估算
那么我们来看
下面一个
大家记住这个方程 因为下一页没有
Ok 到这一页
我们把刚才那个方程
在整个school j里面
school j 里面一共有
nj个学生
我们求平均
其实做了这么一个工作求平均
求平均之后就会出现
这个y点j拔
也就是说是第j个学校的
平均分
是第j个学校的平均分
那么
β0j因为它是一个常数
他
在所有的学生上求平均之后
它还是β0j因为他学校的
intercept
那么
残差这个求平均之后
它还是一个随机项
它就变成了e点j拔
残差跟之前的 eij拔的
区别是什么
是因为它的方差会有变化
它的方差就变成了
nj分之
σ^2之前就是σ^2
现在是nj分之σ^2
大家求一下就可以能求出来
这个比较简单
Ok
那么我们再把
β0j在第二阶段的方程代入的话
就会看到这个方程
这个方程
它的自变量不是yij了
是y点j拔
它等于γ00
加上
e点j拔
再加上μ0j
那么
y点j拔的方差
我们当然就可以算出来
它就是后面这两部分的方差之和
就是这个东西
就这两部分很有意思
大家想一下
其实β0j
我们直观上讲
他是不是就可以
用y点j拔来去估算
是不是
我们一般来讲说
β0j这是一个参数
他的估计值我们往往就用它的均值
就是这一个学校的均值来去估算
所以在这个意义上
e点j拔
其实就是
估算的偏误 error
它就是一个偏误
就是一个随机误差
因此
这一部分我们用v
这个vj就是
e点j拔的方差了
那么它就是一个误差的方差
它是个误差的方差
是用什么的方差
是用y点j拔来去估算β0j的时候
的误差
的方差
那么τ00刚才我们说了
τ00其实是什么
它其实是在第二层
因为我们假设
β0j在第二层是可以变化的
对不对
那么当β0j在第二层可以变化的时候
就是这个式子
那么在第二层的方程
那么μ0j其实是组间方差
是它的variation
这个variation是系统性的
它不是误差 它是
它是它的变化刻画它的变化情况的
这样的一个方差
所以就是τ00
它其实就是缪0j的方法
它其实刻画的是
β0
在第二层的变化情况
变化情况
所以这两部分就是你看可以
看到一个是估算的误差
一个是它的组间的方差
合在一起
就是y点j拔的方差
我们用Δj来表示
好 我刚才只是解释这个意思
为什么我们要考虑这些 我还没说
大家先把这些理解
那么
我们把Δj的倒数
记为这个精确度
那么为什么
为什么后面我们要去考虑的
假设
我们看下一页
好
那么这个就是这么一个精确度
刚才那一页已经估算过的
假设
我们要估算γ00
假设每一个
β0j
都是γ00的无偏估计
那么β0j跟γ00之间的距离
它的关系
它有一个
估算的这样的一个精准度的问题
我们就把Δj
即为精准度
所以
搅一下笔
所以给定这样的一个precision
对于每一个学校
我们都可以算出一个1/Δj
它就是方差的倒数
那么这个方差越大呢
它的倒数就越小
它方差越大它越不精确
我就给它越小的权重
所以我们这个γ00大家可以看到
其实就是对于y点j
的一个加权平均值
对于 y点j求加权平均
作为γ00的
估算值
这个就是shrinkage的一个思想
为什么前面我们对前面
方差的解释把它做得这么详细
就是要解释它可以成为一个
y点j拔
对于这个γ00估算的一个精确程度
大家想
如果
y点j拔的方差越小
那么它就应该是
越精确
我就给它更高的权重
如果它的方差很大
那么它其实就不精确
我就给它很低的权重
那么这个加权平均值就是每一个学校的
平均值
加权之后
每一个学校的均值加权平均之后
我作为 granny作为γ00
的估算值
那么就是这个逻辑
好
那么我们来看下一个
那么
接着我们来估算β0j
刚才估算是γ00
我们来估算β0j
这个是刚才这两个方程方差
都是我们刚才已经算好的
这个是没有什么变化
我们构造一个
reliability统计量
Reliability
他跟之前的 intra-class
correlation非常像
λ
它也是组间方差
u0j的方差
除以总方差
它的含义
跟之前的intra-calss
correlation唯一
的区别
之前我们算的 intra-calss correlation
它是用的eij
的方差是σ^2
这里我们用的是e点j拔的方差就
变成了σ^2/nj
这是唯一的区别
这就是λ
我们叫reliability
那么我们先构造好统计量
然后我们看怎么来去使用
Ok那么这个是具体的
我们来做的加权
怎么来使用
给定λ之后
我对β0j的最优估计是什么呢
他等于λ乘以
y点j拔的
乘以y点j拔再加上
(1-λ)乘以γ00
这里
y点j拔是school mean对不对
就group mean就是每一个学校
的均值叫group mean
λ00是我们刚才算的已经估算好了
整体的
grand mean也好
叫做intercept也好
是这样子
然后
我把λ还是作为一个权重
这个是λ乘以y点j拔加上
(1-λ)乘以γ00
做了这样的一个东西
大家可以看β0j的含义
你就当λ
越大的时候
因为当λ是0~1之间的一个值
当λ越大的时候
我对β0j的估算
就越倾斜于倾向于谁
倾向于Y点j拔 这是不是
因为我给Y点j拔更高的权重
我给λ00更低的权重
什么情况下lambda会很大呢
大家看λ这个公式
当然是组间方差越大的时候
组间方差越大的时候
λ就会越大
我就给 group mean更大的权重
对不对
说白了就是说什么叫组间方差大
也就是各个学校的均值之间差异非常大
我们很难用一个
统一的
overall的intercept
γ00
来去估算
每一个学校的β0j
这个时候我们就更多的依赖于每个
学校的样本均值y0j y点j拔
来去估算β0j
就这个意思
那么当λ
很小的时候
比如趋向于0的时候
那么显然我们就会给y点j拔
更低的权重
给这个γ00更高的权重
那么使用的情况下
λ
会趋向于0
肯定
这个组间方差很小
组内方差比较大的时候
λ
它就会趋向于0比较小
这种情况也就是说
组间方差比较小
各个学校之间的差异没有这么大
主要的差异来自于学校内部
对不对
这个时候
我们就可以更多的依赖于整个
整个样本的均值
就γ00更多的依赖于整个样本的均值
而不需要太多的依赖
一个小样本就是group mean
因为小样本它样本量少对不对
它估算是不精确的
所以当学校之间的差异确实
没有这么大的时候
我们就给
整个一让我们就给γ00更高的权重
那么
当这个学校之间差异特别大的时候
我确实没有办法用
这个γ00来去估算
β0j我就给group mean
group mean给学校的均值
更多的权重
未来估算β0j
这个就是这个逻辑
这个叫什么叫shrinkage
estimate
其实它就是一个推拉的关系
对吧
根据数据结构的特点
那么根据组间方差的特点
我来去看我更多的依赖于group mean
还是 grand mean
来去估算β0
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM