当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 1.12 FAQs of regression:discussion
还有一个问题需要大家集中注意力
这个问题之前我不知道是不是讨论过
就是说我们刚才提到的
对x
自变量
如果有测量误差
对我们的估算值是有什么样的影响
它会不会使我们的估算值
产生偏误
那么答案是什么
不要求给大家回答,这个答案是什么
第一个
如果对x的测量是有
很大的测量误差的话
第一
它会使我们的估算值有偏
偏向哪呢
偏向于0
第二
它会增大我们估算的标准误
也就是说系数会
向零趋近
假设这个系数是正的
它这个系数就会变小
同时它的标准误会变大
大家想 t检验就是用
它的系数除以标准误
对不对
分子变小 分母变大
这个t统计量
就会变得非常小
使得我们估算的值当然就不显着
所以说这个后果是很严重的
我们来看一下具体的这样的一个推导
这是结论
我们先设立一下模型
那么大家看一下
推导我希望你们能够掌握能够看懂
因为它其实是一个非常好的训练
当你们怎么去把这样的一些实际问题
把它用数学的方法去推导出来
你知道
这是一个真实的方程 x
x*是x的真实值
但是我们观测不到
这是回归方程
我们观测到的值是x
x是由x的真实值
加上一个测量误差构成的
我们怎么去描述测量误差
就是我们的观测值x
是真实值x*加上一个误差
这个应该是可以理解的
Ok
我们有几个假设
第一个
真实值跟测量误差是
不相关的
第二个
回归方程里面的残差
跟测量方程里面的残差
也是不相关的
第三个真实值本身跟它
的回归方程里的残差
也是不相关的
有三个假设
这样我们来推导
首先我们来证明
如果存在x的测量误差的时候
我们最后估算值
β的估算值
它的standard error会变得更大
那么首先
我们看一下我们做了一个很简单的运算
我们把 x*回归方程
里的x*用x来替代
这可以理解
因为跟给定上面这个方程
我们把x*
等于x减去e代入就可以了
替代了一下
这样的话我们就构成了一个新的
这是自变量x它那是观测值
我们的残差结构发生了变化
之前的残差是只有u
现在就变成了
u减去β
1乘以e,残差结构就发生了变化
这个时候我们求y关于x的条件方差
那么
大家看
像显然我们把y的等式带过去就可以了
x关于x的条件
条件期望值当然是
它就是没有
它是没有variation的
我们是求它这个variation
就是y关于x这个条件函数
这个variation
那么
β0是一个常数
也没有variation, variation等于0
所以说
这个variation
就是y给定x这个条件
它的variation
u减去
β1乘以e的
这样的一部分两个
随机干扰项的一个线性组合
它的variation
那么对这个线性组合的
variation就等于u的
variation
加上β1的平方乘以这个
e的方差,σ就是方差的意思
那么显然
它是大于等于
u自己的方差的
因为e的方差它是大于等于0的
β1的平方也是大于等于0的
所以说
这个就证明了说
给定有测量误差
x有测量误差
我们的估算值
它的残差这一部分它会变大
整个方程的残差变大
β0跟β1的
估算值的标准误
都是以残差的估算值以它为基础来计算的
那么都会变大
这个有没有问题
没有问题的话
我们再接着证明attenuation 就是我们的
当我有测量误差的时候
我们最后估算的值
它会向零去偏误
也就是说
β1 hat就是我们估算的β值
它等于xy的协方差除以x的方差
刚才我们写的外的方程式把它带进去
y就等于β0加上β1x
带上没有减去β1e刚才我们
带进去的这样一个形式
我们来求 x跟式子的协方差
这是分子
分母是x的方差
它要
因为这个里面 x跟常数项β0
的协方差当然是0了
这部分
么x跟β1x的协方
差就是它的方差本身
对吧
那么β1乘以x的方差除以它的方差
这部分β1就给
单独拎出来了
剩下的
x
跟残差的协方差
除以
它的方差
这样子的
那么这个时候我们想
x等于什么
X等于
x*加上它的测量误差
是不是我们把再带进来
那么这个时候
我们根据刚才的前面假设123
假设123是什么呢? x*
跟e是不相关的
跟μ也是不相关的
e跟μ也是不相关的
根据这三个假设
把这个带进去
我们就可以算出这一部分
最后
只剩下
e跟e自己的协方差了
就是它的方差部分了
那么还出来个负号
因为这个是个负的
这里有一个负号
所以说最后又出来个负号
当然我们重新把它写成一个
这样的
比例的形式就等于β1
乘以这样的一个比例
那么这个比例
它是一个小于1的值
因为它的分子
x*的
这个方差
分母是x*的方差加上e的方差
但它显然是
小于等于β1的
那么这个时候我们如果有测量误差的时候
那么我们估算的β1
它是小于真实的
大家想
这个比例很有意思
因为x的这个
x*的 variation是固定的
它是给定的
只不过是我们观测不到而已
而e的方差它其实代表了
我们测量误差的大小
对不对
因为这个是它的测量误差
当e特别大的时候
e的方差特别大的时候
是不是这个比例就趋向于0
也就是说当我们测量误差
相对于x这个变量本身的方差
是非常大
比如说它的10倍100倍
等等这样的情况
那么这个时候比例就趋向于0
那么β1的取值趋向于0
那么因此我们也是专门把这个
比例把它叫设成一个λ
这个叫它λ
把它叫做一个reliability
ratio
那么
大家想一下这个事情在我们的
教育研究里面是不是常见的
因为在教育研究里面
我们很多自变量是人的某种特征
的测量
比如说努力程度
或者说是
其它的比如说motivation
engagement
等等
就是这样的一些特征
它其实都是很难测量的
换句话说测量误差
往往都是很大的
且不说它测的是不是
真的就是这个概念
就是内容效度的问题
如果测的是这个概念
它的测量误差往往也很大
当测量误差足够大的时候
我们对变量的回归系数的估算
就会趋向于0
而且这个标准误也会变大
这时候我们就容易怎么样
得出一个不显著的结论
所以说有的时候这个结论不显着
它可能也不是方程的问题
也不是理论问题
而是测量误差的问题
这个就是我们
非常详细的做了这样的一个
剖析
希望大家能够掌握这样的一个推导
因为它没那么复杂
你能够稍微理解一下它就可以了
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM