当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 1.11 FAQs of regression:practice
第一个是我们要了解的就是说
law of iterated
expectations
我们在做回归的时候
我们算的是条件期望
Y关于x的条件期望
大家想刚才我们费了半天劲来解释
y关于x的条件期望
它是不是一个也是个函数
是不是
它是一个关于x的函数
对不对
那条fitted line
fitted line我们叫它拟合曲线
这个是关于x的一条函数
我对这个函数再求一次期望
得到的是什么
y的期望, x就没了
因为大家想
你脑子想一下拟合曲线
横轴是x所取的所有的值
纵轴是y的所有的值
当你在对一个曲线做一次期望的时候
那么其实
其实x就在这个过程中它就被全都用掉了
那么剩下的还是y的整体的均值
形象地来说
所以那么对于条件期望再求一次期望
还是y的期望本身
*说得很对, 总体的均值
那么下面是一个思考题
请大家来做一个判断
在一个多元回归方程里面
如果我有一个协变量
被我们丢掉了
我们没有放到回归方程里面
那么其它协变量的
系数
会不会受到影响
会不会变得有偏
假设原来是无偏的
现在会不会变得有偏
这个是一个选择题
请大家来
选一下
我们来看
回归方程里面
比如说我们两有两个自变量
x1和x2
那么这个回归结果假设是无偏的
这个时候我把x2抛掉
x1的系数会不会受影响
那么选择
depends的同学有没有同学愿意
回答一下你是怎么想的
*
*你答的是c是不是
来 你说一下
对老师其实我也是蒙的
但是我
我觉得是不是那两个自变量之间它
有可能存在相关的
然后有可能是独立的
好 谢谢你
非常好 我们来看一下
我现在在屏幕上敲字你们能看到吗
好
有人拿出猪的理论了
好
我们来看一下我在屏幕上敲的字
你们能看到吧
y等于β0加上β1
x1加上β2
x2加上e
那么
如果这个时候x1
和x2的参数,就是β1
和β2是无偏的
Ok
这个时候我把
我把β2
我把x2给删掉
把这块拿掉
这个时候我问β1的系数会不会受影响
It depends是对的
为什么 大家想一下
当然取决于x1和x2的关系
如果x1和x2独立
这个时候如果我把x2漏掉了
x2进哪了
是不是进到残差里面了
对不对
因为漏掉了你这个方程
里面就变成了y等于
β0加上β1对吧
β0
加上β1
x1
写字还是
还是不如打字
所以说当我把x2漏掉的时候
x2就是进到残差里面了
这个是要想清楚的
那么这个时候如果x1和x2
本来它们俩是独立的
那么 x2在残差里面
那么这时候x1跟残差是不是还是独立的
那么只要x1跟残差是独立的
β1的估算是怎么样
它就是无偏的
对不对
这个时候
即便我把x2漏掉了
x1的系数呢
也是没有问题的 它是无偏的
但
如果x1跟x2是相关的
它们相关系数不一定很大
比如说0.2,0.2相关还可以
它不构成
多重共线性
这个问题
多重共线性的问题
不构成多重共线性的问题
这个时候如果x2被我们抛弃了
x2还是在残差里面
那么x1就跟x2怎么样
相关了
这个时候x1跟残差相关
我们前面做的估算是不是就不对了
就有限了
所以说it depends
on what
On x1跟x2的独立性的问题
好
那么这个是
这个问题
我们再看下一个问题
我们能不能在做这个方程设计的时候
只把我们感兴趣的变量放进去
而 omit
其它的协变量
那么大部分同学
答对了是b,这次不是It
depandes了,是no
为什么
我们把这个答案解析发给大家
首先
虽然我们作为研究者有感兴趣的变量
但
我们在选择模型的时候
也就是在选择我们自变量的时候
首先要根据什么
要根据理论
那么理论里面有一个非常重要的变量
我们是要考虑的
这是第一点
第二点虽然有一些变量
并不是我们感兴趣的
比如说一些控制变量
但是为什么要控制变量呢
我们又回到上节课说的
power的问题
我们希望增加statistsic power 统计力
怎么样增加statistic power
是不是其中很重要的一项就是要降低什么
降低标准误
是不是
怎么样降低标准误呢
要
降低残差的方差
是不是
因为残差的方差是我们计算每
一个系数的标准误的时候
所主要依据的它是这个公式
里面的主要的这一部分
怎么样降低残差
但它的标准差
把尽量的
多的变量加进去
这些variation是不是就少了
是不是
这个很重要
这个也没有问题
Ok明白好
那么还有一条当然就是要
防止什么呀,OVB的问题
我们是不是第一刚才前面
那个问题提出的是
omitted variable
bias的问题
就是说虽然我们有些变量我们不感兴趣
但是如果这些变量跟我们
感兴趣的变量是相关的
但是我没有把它遗漏在了残差项里面
就使得我们感兴趣的变量跟残差项怎么样
就相关了
这个时候我们感兴趣的变量
它的系数估算值
也会有偏
所以基于上述三种考虑
第一个要 based on
theory
要根据理论
第二个要尽量的减少残差
以增加我们对系数估算值的
在假设检验中的这样的一个
power
第三个就是防止OVB的问题
即便有些变量我们不感兴趣
我们还是应该把它放到方程里
好 有没有问题
好 没有问题的话我们
再来一道题
这个问题是说
我们确实放了一堆变量进去
跑完回归以后有一些变量的系数不显著
这个时候我要不要把这些变量扔掉
有很大分歧 同学们
来看一下正确率低于40%
我们来看一下
这道题跟上面这道题本质上是什么样
对 这样是不是一样的
这道题跟上面的题本质是一样的
但是跟
跟再往前那道题跟第一道题是不一样的
第一道题只是问说
是不是有偏
点估计是不是有偏
但
我们刚才那道题,就是上一道题
我们已经开始讨论说除了有偏之外
我们还要考虑什么
考虑power的问题
Power跟有偏是没有关系的
对不对 就是说
我们的点估计是正确的
但是我希望它更精确
也就是它的标准误更小
这样我能够少犯第二类错误
这个是power
power跟点估计是两回事
所以说当我们综合考虑的时候
因为第一个问题我们来看一下
你们可以直接翻到前面是不是
你看
这道题,就是标着2的这道题
我只是问它
这个估计值是不是有偏
是
那么这是点估计的概念
那么当我们做
这道题的时候
刚才第二道题的时候标号为三
我们在做一个决策的时候
我不能只考虑只考虑点估计
我还要考虑什么考虑方差估计
所以方差估计
我们最后给残差估算的方差
以及我们怎么用这个方差
来计算每一个参数的
标准误
那么我们它来做 power的分析
所以说这是一个更加综合的判断
所以第二道题跟第三道题
刚才这两道题它是不一样的
其实4
第四这个题
跟第三它其实是很类似的
只不过是说
在做决策的环节不一样
这道题是说
第三道题是说我在设这个模型的时候
我选变量 我选哪些
是这么考虑的
这道题是说我模型跑完了
跑完之后
我看到有些变量不显著
我是不是可以把它扔掉重新跑
这个是你在做决策的环节
step是不一样的
阶段是不一样的
但是这个问题的本质也是一样的就是说
我们不能随便扔掉
哪怕它不显着
但是according
to theory
它是一个变量
只不过可能在你的样本里面不显著
本来它是有影响的
这是第一点
第二点
那么它可能也是会减小
残差的方差的
它能够增加我们的power
第三点当然它不显著的话
它增加的不会那么大
那么第三点就是说
它虽然不显着
但是它也许跟我们的其它感兴趣
的自变量是相关的
这时候我不能随便把它扔掉
扔掉之后它就跑到残差项里面去了
那就搞的我
感兴趣的变量就跟我的残差相关了
所以不能扔掉
这个
在基于理论的前提下
我们要对这些变量要有
一个非常明确的判断
不能随便扔是不能扔吗
一般就不要扔
如果是在理论上它很重要的变量
你就不要把它扔掉
如果你有这个变量
但你如果数据里没有这个变量
那是另外一回事情
当然这个跟我们前面说的
扔掉就显着
扔掉其它变量就显着
对不对 那你想啊
就是x1和x2
x1是你感兴趣的变量
x2是你的控制变量
就是你不感兴趣的变量
如果x1和x2都放在方程里
x1的系数不显著
但是你把x2扔掉之后
x1的系数就显着了
这说明什么
这说明x1跟x2是有
很强的这种相关性的
而且扔掉之后它这个结果不稳定
是不是 你更不能随便扔掉
这说明你的回归结果是有问题的
哪个结果可信
还不一定
这个时候
你要更加仔细的去考察
x1和x2的相关性
这个没有问题吧
不是说绝对不能扔 就是说你
不能
随意的扔
就是说比如说我有10个变量
跑完之后5个显著5个不显著
我想都不想把5个,把那
5个不显著的就扔掉了
这种决策是
不能这么随意做的
会的
就是有的扔掉之后方确实没有太大的变化
但是如果这个变量它在理论上
它是一个影响y的重要变量
你又有变量的值
你就应该把它放在哪里
比如说性别等等
我们一些人口学变量
它可能不显着
但是理论上
它可能会对你的y是有影响的
你就把它放在那就好了
如果它跟其它变量不相关的话
在系数上其实不会有太大影响
我的意思就是说你的决策不是data driven的
不是说我看到一个结果就可以把
不显著的变量扔掉这么简单
而是说第一个是
according to
theory
第二个你要去考察它跟其它自变量的关系
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM