1.11 FAQs of regression：practice慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

第一个是我们要了解的就是说

law of iterated

expectations

我们在做回归的时候

我们算的是条件期望

Y关于x的条件期望

大家想刚才我们费了半天劲来解释

y关于x的条件期望

它是不是一个也是个函数

是不是

它是一个关于x的函数

对不对

那条fitted line

fitted line我们叫它拟合曲线

这个是关于x的一条函数

我对这个函数再求一次期望

得到的是什么

y的期望, x就没了

因为大家想

你脑子想一下拟合曲线

横轴是x所取的所有的值

纵轴是y的所有的值

当你在对一个曲线做一次期望的时候

那么其实

其实x就在这个过程中它就被全都用掉了

那么剩下的还是y的整体的均值

形象地来说

所以那么对于条件期望再求一次期望

还是y的期望本身

*说得很对, 总体的均值

那么下面是一个思考题

请大家来做一个判断

在一个多元回归方程里面

如果我有一个协变量

被我们丢掉了

我们没有放到回归方程里面

那么其它协变量的

系数

会不会受到影响

会不会变得有偏

假设原来是无偏的

现在会不会变得有偏

这个是一个选择题

请大家来

选一下

我们来看

回归方程里面

比如说我们两有两个自变量

x1和x2

那么这个回归结果假设是无偏的

这个时候我把x2抛掉

x1的系数会不会受影响

那么选择

depends的同学有没有同学愿意

回答一下你是怎么想的

*你答的是c是不是

来你说一下

对老师其实我也是蒙的

但是我

我觉得是不是那两个自变量之间它

有可能存在相关的

然后有可能是独立的

好谢谢你

非常好我们来看一下

我现在在屏幕上敲字你们能看到吗

好

有人拿出猪的理论了

好

我们来看一下我在屏幕上敲的字

你们能看到吧

y等于β0加上β1

x1加上β2

x2加上e

那么

如果这个时候x1

和x2的参数,就是β1

和β2是无偏的

这个时候我把

我把β2

我把x2给删掉

把这块拿掉

这个时候我问β1的系数会不会受影响

It depends是对的

为什么大家想一下

当然取决于x1和x2的关系

如果x1和x2独立

这个时候如果我把x2漏掉了

x2进哪了

是不是进到残差里面了

对不对

因为漏掉了你这个方程

里面就变成了y等于

β0加上β1对吧

β0

加上β1

写字还是

还是不如打字

所以说当我把x2漏掉的时候

x2就是进到残差里面了

这个是要想清楚的

那么这个时候如果x1和x2

本来它们俩是独立的

那么 x2在残差里面

那么这时候x1跟残差是不是还是独立的

那么只要x1跟残差是独立的

β1的估算是怎么样

它就是无偏的

对不对

这个时候

即便我把x2漏掉了

x1的系数呢

也是没有问题的它是无偏的

但

如果x1跟x2是相关的

它们相关系数不一定很大

比如说0.2，0.2相关还可以

它不构成

多重共线性

这个问题

多重共线性的问题

不构成多重共线性的问题

这个时候如果x2被我们抛弃了

x2还是在残差里面

那么x1就跟x2怎么样

相关了

这个时候x1跟残差相关

我们前面做的估算是不是就不对了

就有限了

所以说it depends

on what

On x1跟x2的独立性的问题

好

那么这个是

这个问题

我们再看下一个问题

我们能不能在做这个方程设计的时候

只把我们感兴趣的变量放进去

而 omit

其它的协变量

那么大部分同学

答对了是b，这次不是It

depandes了，是no

为什么

我们把这个答案解析发给大家

首先

虽然我们作为研究者有感兴趣的变量

但

我们在选择模型的时候

也就是在选择我们自变量的时候

首先要根据什么

要根据理论

那么理论里面有一个非常重要的变量

我们是要考虑的

这是第一点

第二点虽然有一些变量

并不是我们感兴趣的

比如说一些控制变量

但是为什么要控制变量呢

我们又回到上节课说的

power的问题

我们希望增加statistsic power 统计力

怎么样增加statistic power

是不是其中很重要的一项就是要降低什么

降低标准误

是不是

怎么样降低标准误呢

要

降低残差的方差

是不是

因为残差的方差是我们计算每

一个系数的标准误的时候

所主要依据的它是这个公式

里面的主要的这一部分

怎么样降低残差

但它的标准差

把尽量的

多的变量加进去

这些variation是不是就少了

是不是

这个很重要

这个也没有问题

Ok明白好

那么还有一条当然就是要

防止什么呀，OVB的问题

我们是不是第一刚才前面

那个问题提出的是

omitted variable

bias的问题

就是说虽然我们有些变量我们不感兴趣

但是如果这些变量跟我们

感兴趣的变量是相关的

但是我没有把它遗漏在了残差项里面

就使得我们感兴趣的变量跟残差项怎么样

就相关了

这个时候我们感兴趣的变量

它的系数估算值

也会有偏

所以基于上述三种考虑

第一个要 based on

theory

要根据理论

第二个要尽量的减少残差

以增加我们对系数估算值的

在假设检验中的这样的一个

power

第三个就是防止OVB的问题

即便有些变量我们不感兴趣

我们还是应该把它放到方程里

好有没有问题

好没有问题的话我们

再来一道题

这个问题是说

我们确实放了一堆变量进去

跑完回归以后有一些变量的系数不显著

这个时候我要不要把这些变量扔掉

有很大分歧同学们

来看一下正确率低于40%

我们来看一下

这道题跟上面这道题本质上是什么样

对这样是不是一样的

这道题跟上面的题本质是一样的

但是跟

跟再往前那道题跟第一道题是不一样的

第一道题只是问说

是不是有偏

点估计是不是有偏

但

我们刚才那道题，就是上一道题

我们已经开始讨论说除了有偏之外

我们还要考虑什么

考虑power的问题

Power跟有偏是没有关系的

对不对就是说

我们的点估计是正确的

但是我希望它更精确

也就是它的标准误更小

这样我能够少犯第二类错误

这个是power

power跟点估计是两回事

所以说当我们综合考虑的时候

因为第一个问题我们来看一下

你们可以直接翻到前面是不是

你看

这道题，就是标着2的这道题

我只是问它

这个估计值是不是有偏

是

那么这是点估计的概念

那么当我们做

这道题的时候

刚才第二道题的时候标号为三

我们在做一个决策的时候

我不能只考虑只考虑点估计

我还要考虑什么考虑方差估计

所以方差估计

我们最后给残差估算的方差

以及我们怎么用这个方差

来计算每一个参数的

标准误

那么我们它来做 power的分析

所以说这是一个更加综合的判断

所以第二道题跟第三道题

刚才这两道题它是不一样的

其实4

第四这个题

跟第三它其实是很类似的

只不过是说

在做决策的环节不一样

这道题是说

第三道题是说我在设这个模型的时候

我选变量我选哪些

是这么考虑的

这道题是说我模型跑完了

跑完之后

我看到有些变量不显著

我是不是可以把它扔掉重新跑

这个是你在做决策的环节

step是不一样的

阶段是不一样的

但是这个问题的本质也是一样的就是说

我们不能随便扔掉

哪怕它不显着

但是according

to theory

它是一个变量

只不过可能在你的样本里面不显著

本来它是有影响的

这是第一点

第二点

那么它可能也是会减小

残差的方差的

它能够增加我们的power

第三点当然它不显著的话

它增加的不会那么大

那么第三点就是说

它虽然不显着

但是它也许跟我们的其它感兴趣

的自变量是相关的

这时候我不能随便把它扔掉

扔掉之后它就跑到残差项里面去了

那就搞的我

感兴趣的变量就跟我的残差相关了

所以不能扔掉

这个

在基于理论的前提下

我们要对这些变量要有

一个非常明确的判断

不能随便扔是不能扔吗

一般就不要扔

如果是在理论上它很重要的变量

你就不要把它扔掉

如果你有这个变量

但你如果数据里没有这个变量

那是另外一回事情

当然这个跟我们前面说的

扔掉就显着

扔掉其它变量就显着

对不对那你想啊

就是x1和x2

x1是你感兴趣的变量

x2是你的控制变量

就是你不感兴趣的变量

如果x1和x2都放在方程里

x1的系数不显著

但是你把x2扔掉之后

x1的系数就显着了

这说明什么

这说明x1跟x2是有

很强的这种相关性的

而且扔掉之后它这个结果不稳定

是不是你更不能随便扔掉

这说明你的回归结果是有问题的

哪个结果可信

还不一定

这个时候

你要更加仔细的去考察

x1和x2的相关性

这个没有问题吧

不是说绝对不能扔就是说你

不能

随意的扔

就是说比如说我有10个变量

跑完之后5个显著5个不显著

我想都不想把5个，把那

5个不显著的就扔掉了

这种决策是

不能这么随意做的

会的

就是有的扔掉之后方确实没有太大的变化

但是如果这个变量它在理论上

它是一个影响y的重要变量

你又有变量的值

你就应该把它放在哪里

比如说性别等等

我们一些人口学变量

它可能不显着

但是理论上

它可能会对你的y是有影响的

你就把它放在那就好了

如果它跟其它变量不相关的话

在系数上其实不会有太大影响

我的意思就是说你的决策不是data driven的

不是说我看到一个结果就可以把

不显著的变量扔掉这么简单

而是说第一个是

according to

theory

第二个你要去考察它跟其它自变量的关系

1.11 FAQs of regression：practice在线视频

1.11 FAQs of regression：practice课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

1.11 FAQs of regression：practice笔记与讨论

也许你还感兴趣的课程: