7.4 Estimation 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

Estimation

刚才只是说这个模型怎么写对吧

相当于我们怎么去设计这个模型

我们的分析思路是什么

但这个模型写好了怎么

估算当然是很重要的

虽然有软件来帮我们跑

但是它背后的逻辑是什么

大家要了解要掌握

这个是

我们的

很重要的一个考虑

背后的他它的思想是什么

那么对于 hlm的估算

整体上讲我们可以有两种思想

第一个叫收缩估计 shrinkage

estimation

这个思想非常重要

我们之前并没有去太多讨论过

那么它体现出了

我们对数据结构的理解

我们主要探讨就这一个

第二个

极大似然

估计大家这个思想大家都已经很清楚了

我们就不准备再多讲了

所以主要是讲第一种

我们用最简单的例子用空模型来去探讨

因为空模型里面

第一个它的参数比较少

第二个参数的估算很简单

就是均值

因为β0j这本身就是斜率

就是截距就是均值的意思

所以我们就用空模型来去探讨

shrinkage

estimation

咱们课本上有更详细的加入

自变量以后的估算

它的逻辑是一样的

只不过是表述会更复杂一些

大家感兴趣的话

这个课下可以自己去了解我们这个课

实在没有这么多时间去讨论这些

丰富的细节

所以我们这里的目标

就说估算两个参数

空模型里面就两个参数

一个是β0j

一个是γ00

我们来看这两个参数

我们怎么去估算它

当然还有两个方差的参数也需要去估算

但是我们这里主要考虑的是

fixed effect

这里所谓的fixed effect就是指

常数参数

这个random effect

这里是特指的是随机项

就是

eij和μ0j的相关的参数

主要是它们的方差因为它们的

均值是0

所以在 hlm的话语体系下

fixed effect random

effect

和我们之前 rct

里面说的聚类的时候

说的 fixed effect和

random effect不是一个

意思

这里的fixed effect

就是指待估参数这些

点估计

Coefficient

而 random effect

特指的是

残差的方差这一块

残差的参数的估计

这个是在hlm这本书里面它的这样的一个

定义 terminology

大家就搞清楚不要混了

我们来看一下

这个是

第一个方程是

这个yij等于β0j加上

eij这是

某一个学生 individual i

in school j

那么他

它的乘积是等于β0j

加上eij的

我们要估算

β0j的话

不可能是只用这一个学生的成绩去估算

那么我们来看

下面一个

大家记住这个方程因为下一页没有

Ok 到这一页

我们把刚才那个方程

在整个school j里面

school j 里面一共有

nj个学生

我们求平均

其实做了这么一个工作求平均

求平均之后就会出现

这个y点j拔

也就是说是第j个学校的

平均分

是第j个学校的平均分

那么

β0j因为它是一个常数

他

在所有的学生上求平均之后

它还是β0j因为他学校的

intercept

那么

残差这个求平均之后

它还是一个随机项

它就变成了e点j拔

残差跟之前的 eij拔的

区别是什么

是因为它的方差会有变化

它的方差就变成了

nj分之

σ^2之前就是σ^2

现在是nj分之σ^2

大家求一下就可以能求出来

这个比较简单

那么我们再把

β0j在第二阶段的方程代入的话

就会看到这个方程

这个方程

它的自变量不是yij了

是y点j拔

它等于γ00

加上

e点j拔

再加上μ0j

那么

y点j拔的方差

我们当然就可以算出来

它就是后面这两部分的方差之和

就是这个东西

就这两部分很有意思

大家想一下

其实β0j

我们直观上讲

他是不是就可以

用y点j拔来去估算

是不是

我们一般来讲说

β0j这是一个参数

他的估计值我们往往就用它的均值

就是这一个学校的均值来去估算

所以在这个意义上

e点j拔

其实就是

估算的偏误 error

它就是一个偏误

就是一个随机误差

因此

这一部分我们用v

这个vj就是

e点j拔的方差了

那么它就是一个误差的方差

它是个误差的方差

是用什么的方差

是用y点j拔来去估算β0j的时候

的误差

的方差

那么τ00刚才我们说了

τ00其实是什么

它其实是在第二层

因为我们假设

β0j在第二层是可以变化的

对不对

那么当β0j在第二层可以变化的时候

就是这个式子

那么在第二层的方程

那么μ0j其实是组间方差

是它的variation

这个variation是系统性的

它不是误差它是

它是它的变化刻画它的变化情况的

这样的一个方差

所以就是τ00

它其实就是缪0j的方法

它其实刻画的是

β0

在第二层的变化情况

变化情况

所以这两部分就是你看可以

看到一个是估算的误差

一个是它的组间的方差

合在一起

就是y点j拔的方差

我们用Δj来表示

好我刚才只是解释这个意思

为什么我们要考虑这些我还没说

大家先把这些理解

那么

我们把Δj的倒数

记为这个精确度

那么为什么

为什么后面我们要去考虑的

假设

我们看下一页

好

那么这个就是这么一个精确度

刚才那一页已经估算过的

假设

我们要估算γ00

假设每一个

β0j

都是γ00的无偏估计

那么β0j跟γ00之间的距离

它的关系

它有一个

估算的这样的一个精准度的问题

我们就把Δj

即为精准度

所以

搅一下笔

所以给定这样的一个precision

对于每一个学校

我们都可以算出一个1/Δj

它就是方差的倒数

那么这个方差越大呢

它的倒数就越小

它方差越大它越不精确

我就给它越小的权重

所以我们这个γ00大家可以看到

其实就是对于y点j

的一个加权平均值

对于 y点j求加权平均

作为γ00的

估算值

这个就是shrinkage的一个思想

为什么前面我们对前面

方差的解释把它做得这么详细

就是要解释它可以成为一个

y点j拔

对于这个γ00估算的一个精确程度

大家想

如果

y点j拔的方差越小

那么它就应该是

越精确

我就给它更高的权重

如果它的方差很大

那么它其实就不精确

我就给它很低的权重

那么这个加权平均值就是每一个学校的

平均值

加权之后

每一个学校的均值加权平均之后

我作为 granny作为γ00

的估算值

那么就是这个逻辑

好

那么我们来看下一个

那么

接着我们来估算β0j

刚才估算是γ00

我们来估算β0j

这个是刚才这两个方程方差

都是我们刚才已经算好的

这个是没有什么变化

我们构造一个

reliability统计量

Reliability

他跟之前的 intra-class

correlation非常像

它也是组间方差

u0j的方差

除以总方差

它的含义

跟之前的intra-calss

correlation唯一

的区别

之前我们算的 intra-calss correlation

它是用的eij

的方差是σ^2

这里我们用的是e点j拔的方差就

变成了σ^2/nj

这是唯一的区别

这就是λ

我们叫reliability

那么我们先构造好统计量

然后我们看怎么来去使用

Ok那么这个是具体的

我们来做的加权

怎么来使用

给定λ之后

我对β0j的最优估计是什么呢

他等于λ乘以

y点j拔的

乘以y点j拔再加上

(1-λ）乘以γ00

这里

y点j拔是school mean对不对

就group mean就是每一个学校

的均值叫group mean

λ00是我们刚才算的已经估算好了

整体的

grand mean也好

叫做intercept也好

是这样子

然后

我把λ还是作为一个权重

这个是λ乘以y点j拔加上

(1-λ）乘以γ00

做了这样的一个东西

大家可以看β0j的含义

你就当λ

越大的时候

因为当λ是0~1之间的一个值

当λ越大的时候

我对β0j的估算

就越倾斜于倾向于谁

倾向于Y点j拔这是不是

因为我给Y点j拔更高的权重

我给λ00更低的权重

什么情况下lambda会很大呢

大家看λ这个公式

当然是组间方差越大的时候

组间方差越大的时候

λ就会越大

我就给 group mean更大的权重

对不对

说白了就是说什么叫组间方差大

也就是各个学校的均值之间差异非常大

我们很难用一个

统一的

overall的intercept

γ00

来去估算

每一个学校的β0j

这个时候我们就更多的依赖于每个

学校的样本均值y0j y点j拔

来去估算β0j

就这个意思

那么当λ

很小的时候

比如趋向于0的时候

那么显然我们就会给y点j拔

更低的权重

给这个γ00更高的权重

那么使用的情况下

会趋向于0

肯定

这个组间方差很小

组内方差比较大的时候

它就会趋向于0比较小

这种情况也就是说

组间方差比较小

各个学校之间的差异没有这么大

主要的差异来自于学校内部

对不对

这个时候

我们就可以更多的依赖于整个

整个样本的均值

就γ00更多的依赖于整个样本的均值

而不需要太多的依赖

一个小样本就是group mean

因为小样本它样本量少对不对

它估算是不精确的

所以当学校之间的差异确实

没有这么大的时候

我们就给

整个一让我们就给γ00更高的权重

那么

当这个学校之间差异特别大的时候

我确实没有办法用

这个γ00来去估算

β0j我就给group mean

group mean给学校的均值

更多的权重

未来估算β0j

这个就是这个逻辑

这个叫什么叫shrinkage

estimate

其实它就是一个推拉的关系

对吧

根据数据结构的特点

那么根据组间方差的特点

我来去看我更多的依赖于group mean

还是 grand mean

来去估算β0

7.4 Estimation 1在线视频

7.4 Estimation 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

7.4 Estimation 1笔记与讨论

也许你还感兴趣的课程: