当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 1.6 Classical assumption of OLS
我们来说
假设。OLS的估算
它是需要一系列假设的
假设非常重要
不满足的话我们的模型就不成立
所以所有的模型都是有假设的
那么我们来看一下OLS有哪些假设
第一个
no specification
error就是说你这个方程的设定
是根据理论来讲是对的
这个很重要
但是往往被我们忽略
我们上来直接就开始跑回归了
如果我们在方程的形式的设定上
没有选择对的话
我们这个结论会非常的离谱
给大家显示一下很多
很有意思的
笑话
可以
那么大家看
这个散点图当然还是x和y的散点图不变
但是如果我们选择不同的方程形态
我们就会得出完全不同的
拟合曲线来
这个故事就是完全不一样的
第一个那是一个线性的
这是个线性的
那么到第二个
我们其实
可以看到说它依然可以拟
合出一个非线性的图来
那么第三个是反过来的
二阶导的形式是不一样的
二阶导是正的
那么
完全不一样的方程假设
那么这个还来了一个指数
而指数的话其实会告诉我们
一个非常超快的增长速度
是不是
哗就上去了
这个是跟线性函数所讲的
故事是完全不一样的
那么还有其它的方式形态这种非线性的
那么更多是吧
当我们
包括大家可以看到说
这个只是做了一个这种
smooth lines
它得到的是一个没有总结出任何规律的
把所有点都连接起来的这样的曲线
当然这种图就有的像什么
有的像
像滤波
我选了一些点把一些点抛弃了
还有的它会发生在一些极值的位置
发生很大的震荡
所以当我们选择不同的方程形态的时候
我们得出的结论是完全不一样的
我们讲的故事也完全不一样
有的它就不得出方程形态
它只是给出一个置信区间来,像上面这张图
因此
这个方程形态的选择是第一重要的
那么我们要选择什么形态
我们要理论支持
那么这个是第一步要讨论的
我们具体到一个研究里面会看到
有的时候我要选择二次项
有的时候要选择指数
有的时候选择对数
它是有原因的
这是第一步要考虑的
否则的话有些结果会非常的
奇怪
第二个就是说
样本
是总体的一个代表性样本
这个假设
往往也被我们忽略
我们
当然了
如果我们抽的这个样
它不是代表性样本
我们可以用权重
来去调整
如果我们不调整的话 这个结论
无法推广到整体
这是第一点
这个比较好理解
那么还有一点是什么呢
就是说当我们的样本的选择
它是系统性的忽略了一部分人
这部分人本来也在我们的分析之内的话
我们做出来
做出来这个结果它就是
有偏的,偏误会非常大
后面我们有时间的话在
truncated data里面会
再单独讨论一下
那么第三个我们刚才看到了
就是说我们对于残差项
我们是有一个假设的
那么残差项它一般是服从正态分布
均值为0
标准差为σ
这样的一个正态分布
那么正态分布用n的形式来表示
我们是上节课讨论过
而且
残差
它是不相关的
它是互相没有相关性的
不线性相关
也就是说第i个样本的残差
跟第j个样本的残差是不相关的
这个是很重要的一点
它们的相关系数为0
那么这就使得说我们可以想象
在协方差矩阵里面
对角线上是方差
对角线以外就是协方差
那么
对于不相关的就是对于不
相关的随机变量来讲
它在对角线以外的地方
是不是它应该都取0
而且对角线上的这些方差应该相等
都是同方差
这个是很
很重要的一点
也就是说第5条假设
也就是说
第i个样本的残差
跟第j样本的残差
它们都相等
它们都是σ方是一个常量常数
也就是说μ如果作为一个矩阵来讲
作为一个向量来讲
它其实是服从这样的一个分布
就是说
均值都是0
那么
它们只在
对角线上,I是一个什么
I是个单位阵 对不对
大家还记不记得
I是一个单位阵,只在对角线上等于1
其它位置都等于0的一个单位阵
那么任何常数乘以这个单位阵的话
对角线上就是σ方
其它地方就全部是0
这个是μ的一个方差协方差矩阵
用这样的一个矩阵的形式来表达的
这个是非常重要的
第6条也很重要
但是也往往被我们忽略
把这点讲完
那么
自变量的测量应该是没有测量误差的
也就是说
当自变量的测量有误差的时候
那么它会引入额外的噪音
那么会使得我们的结果会有偏
后面我们会专门的讨论事情
还有μ跟x
它是独立的
以及所有的x,所有的
predictors
它们是线性独立的
也就是说一其中的一个x不能
被其它的x线性表出
如果能够做到这一点的话 就是什么
多重共线
那么矩阵奇异的我们就不能去做分析了
那么上述这些假设是非常重要的
只有这些假设满足我们做的OLS的估算
它才是无偏的一致的有效
的方差会标准误比较小
但实际上在真正的现实中
这些假设其实是经常
不能够被很好的满足的
这个是很常见的事情
但是 OLS选第一个是相当稳健
很多时候它还是能够帮我
算出非常好的结果
第二个如果遇到非常重要
的对于假设的这种
那么不满足
我们会有不同的方法来去尝试解决
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM