当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 1.9 Goodness of fit
下面我们来讨论对估算结果的诊断
这个很重要
作为任何模型它都是有它的边界的
第一个它有假设
第二个它的性质是不是优良
这个是我们都要去评估的
不是做完回归就拉倒了
那么这个里面最常见的三个评估的方法
就是拟合优度,f检验和t检验
这三个都是我们一定要都做的
Ok
那么有谁愿意来帮助我解释
一下拟合优度 R,R方
那么它是在检验什么东西
可以用这张图来帮你来去回答这个问题
有的同学来帮我们解释一下
拟合优度在讲它的
跟那条线的
它的
可以解释多少
你看这里面有几条线
首先有散点图了
x和y的散点图
那么绿色的线
我已经标了,绿色的线是这个是y的期望值
也就是y的均值 对不对
它当然是条直线了
平着的直线
那么这条蓝色的线是fitted line对不对
这个是拟合曲线是条件期望望
那么还有一些散点
你来解释一下 R方的计算
它是想帮我们来评估模型的什么性质
那个
跟这个
然后这个除以这个
对 你说的很对
你能用语言的方式来解释一下
就是ESS是个什么东西
RSS是个什么东西吗
ESS就是它可以被解释的变量在这边
因为我们是猜测
对
你像你画的是蓝色的线跟
绿色的线之间的距离
对不对
对
这是我们的模型能解释的部分
因为蓝色的线是我们的模型估算出来的
好好
这个就解释不了
这个红色点点到蓝色的
线是我们解释不了的
对
然后
我们怎么评估一个模型
是不是一个好的模型呢
看看它的R square
那么
而R square是想说的是什么呢
我们模型能够解释的variation
占什么的比例
模型能...老师可以再说一次吗
你看ESS是不是
模型能够解释的部分
对
然后 RSS是模型不能解释的部分
对不对
对
那么你想说的是R square 的
计算方式是什么呢
它不能解释的占总体的多少
不能解释的占总体的多少
总体是谁
总体没画出来
总体是这个
非常好
好 谢谢*
就*讲的非常好
大家看一下它把这三个画出来
这三个是最重要的
那么也就是说我们希望这个模型能够解释
y的变化
这个是我们最早说的对不对
我们的
非常朴素的一个想法
就是我们看到y
不同的人取的y的取值是不一样的
它为什么会有这种variation
我们需要建模来去解释这种
variation
那么我们建好模了
这个模型分析完了就是蓝色的线
但是我们发现
我们并不能解释所有的变化
所有的变异
那么这个时候我们来评估模型的时候
我们就会用ESS来处理TSS
就是用模型能够解释的
variation
除以总的 variation
那么这个就是模式模型的解释力度
我们可以这么来讲
那么这个是R方的这样的一个朴素的思路
所以这样的话
这是刚才说的离差平方和
所以刚才这个跟图上画的是对应的
也就是TSS是y减去y的均值的平方和
y的均值
就是期望
那么这个是总体的平方和
那么
能够解释的模型能够解释的这一部分
我们用 y hat
就是拟合曲线上的值减去 y的均值
它的平方和这是模型可以解释的
模型解释不了的是y的真实
值减去y的拟合值
它的这一部分
那么这个叫残差平方和
那么可以证明 TSS是
等于ESS加上RSS的
这个时候我们要构造一个统计量
那么
ESS除以TSS
它就告诉我们我们这个模型能够
解释y的变异的百分之多少
大概是这样的一个概念
那么这个就能够帮助我们
去评估模型的解释力度
那么它不是 RSS除以TSS它是
1减去RSS除以TSS
我们叫它判定系数
大家都是
马上就要你看到任何的回归结果
都要去看的这样的一个
统计量
那么可见显然R方的值域
它是在0~1之间的
当然越高越好
但是大家想一下
R方等于1的时候你会相信吗
什么时候R方等于1
其实你的模型能够解释所有的变异
是不是
这个时候
这么讲你们见过的比较大的R方是多少
R方
如果等于1
到底是模型好还是模型出问题了
反正我是没见过特别好的
这种R方很大的
你们见过0.4,0.4是一个非常
理想非常现实的好的结果
对
社科类55%
其实0.2~0.4都是很好的结果了
0.1都没有关系
做实验0.999 这是生物实验
是不是
大家想如果你只有两个点
你只有两个观测点 R方是多少
两点一线对不对
两点一线R方肯定是1
这个时候你相信这个结果吗
你靠两个点得出一个关系
肯定不相信
那么所以说这个是
我们第一个要考虑的
第二个就是说我们刚刚才可以看到
我们在说方程的形式的时候
如果你
做了一个过于
就过于平滑的曲线去连接所有的点
它虽然能很好的去估测这些点
它是不是有一个
过拟合的一个现象
过拟合的时候R方也会非常高
所以说并不是R方高的时候
我们就会非常放心
我们要首先考虑它是不是
高得有点离谱
那么还有一个问题
我们在实际的应用中也经常常见
当我们扔入
往我们回归方程里面扔更多的变量的时候
自变量的时候
R方一般都会提高
都会提高一些
这个时候是不是我们扔
更多的变量进取来提高R方是
一件永远值得去尝试的事情
我们比如本来是三个变量
那么我们现在这10个变量
100个变量进去
大家都觉得不是没这么简单
要考虑变量的个数
然后要考虑变量之间的关系
还有什么是不是还要符合理论非常好
要符合理论模型
等等
非常好
*把这个答案都说出来了
显然刚才说的是不行的
我怎么解决就怎么解决这个问题
要平衡变量的个数
跟R方之间的关系
我们用调整的R方 adjusted
R square
那么我们自由度来去调整刚才我们的公式
来保证说不是说我随便增加的变量个数
我就能够得到更高的R方
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM