3.13 Q&A 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

下一部分是黄丽来回答

好

接下来第二题问的是在回归模型中是否应当尽可能

包含协变量来增加模型解释力

在理论上只要符合理论模型

满足ols假设的协变量是都可以放进回归模型的模型中

的

但是虽然这样可以提高它获得因果解释的可能性

但是并非越多越好

这里需要注意的是要剔除不合格的一个控制变量

不合格的控制变量有两个判断依据

主要的依据一是它本身可以作为解释变量

如果把经验研究想象成一个实验不合格的控制变量

就是那些可以作为实验结果的变量

依据二是根据控制变量被决定的时间

一般就是在treatment之前就被决定的变量都是

一个好的控制变量

反之则是不合格的

另外在数量上要选择多少的变量作为协变量

是取决于模型的一个复杂程度和样本量还有对应的自由度

比如说在比如说在多元回归中又要得出唯一解的时候变量

个数小于等于方程的数量

这一题是我们组得出的一个的一个回答

对

像大家想一下

如果是一个小规模的rct的话

样本量就几十个或者是100来个的时候

这个时候你想放太多的控制变量也不太现实是吧

放一些关键的控制变量就可以了

好

现在是10：20

咱们严格遵守30分钟的课堂的长度

保证大家不要疲劳

咱们休息5分钟

然后第三组再接着给我们解答

好吗

休息5分钟

手机跟电脑可能不是很同步

好

咱们接着讲

老师

各位同学

那是第三题

对

我们接下来看一下第三个问题

然后这个问题对老师我是张迅

然后我们可以开始吗

好

开始

第三个问题说的是前测成绩是否可以合理地成为回归模型

的协变量

具体来说就是说Y等于β0加β1

x加β2 pretest的

然后系数β1说的是其他条件不变的情况下

treatment可以使学生多β1分

但是这里有一个问题

同样是提高β1分

对于前测成绩不同的人来说

它也就是他们的基础不一样

比如说有的人得60分

有的人得90分

同样是提高β1分

然后对他们来说意义是不一样的

毕竟我们从99分到100分是一个质的飞跃

但是从60分到61分可能那种举手之劳很容易的事情

然后我们把这个问题拆解为两个小问题

然后我们接下来看一下

首先第一个小问题说的是我们可以翻一下PPT

第一个问题想问你说的是前测成绩作为协变量的问题

首先我们说协变量它我们协变量是这样一种变量

它实验者不能操纵或者我们压根不感兴趣

但是它仍然会影响实验的结果

比如说在本例当中

学生现在考试成绩会受到他们自身知识基础的一个影响

而衡量他们自身的知识基础

我们可以用前测成绩来加以衡量

所以说我们在做在跑回归

然后做研究的时候必须排除这种影响

因此就需要将前测成绩作为协变量加入模型

也排除这种影响

然后在实践当中常用的协变量也包括一些比如说我们因变量

的前测分数

人口统计学特征

然后的话协方差分析的手动计算过程比较复杂

但是我们用软件可以比较轻松地实现这一点

所以说对第一个小问题回答是我们应该将协变量作为一个

做一将前测成绩作为协变量加入这个模型

也排除他的自身知识基础对成绩的影响

然后是第二个小问题

就说也就是高分段低分段的影响问题

然后我们首先说传统线性回归

其中以最小普通二乘法应用作为广泛研究的是自变量x对

因变量y的一个条件期望

条件期望的影响

这条件期望期望也就是均值

实际上它是一个均值回归

而最小二乘法它是以最小化残差平方和为目标

它这种情况下容易受到一个极端值的影响

而且对于大量数据而言

最小二乘法回归只能得到一条回归线

它反映的信息是极其有限的

也就是说它实际上延续的是一个平均的影响

那么我们怎么才能分清高分段和低分段的不同影响

也就是我们感兴趣的是在人群当中不同分位数

也就是或者说末端顶端人群的一个异质性影响

那么我们这里建议采用一个分位数回归

而分位数数回归它本身比较复杂

具体情况大家可以看一下

我们去年就说郭菲老师课上分享的那本书叫高级计量

经济学

stata应用的26章

分位数回归研究的是自变量x对因变量y的条件分位数的

影响

他的不是通过最小化残差平方和主要是通过一个最小化残差

绝对值的加权平均为目标

然后不易受到极端值的影响

而且比起ols它的前提假设

要求很宽泛

不要求误差项

符合一个均值

为零的

和也不要求同方差

它的前提假设很宽泛

然后最大的优点它是能够提供关于条件分布的一个全面的

信息

它可以得到比如说我们不同分位数条件下的一个很多条

回归线

实际上在不同分位数上

因为解释变量对被解释变量可能产生的影响不同

也就是说分位数回归系数可能和ols回归系数就是

不一样的

然后我们可以看一下下面这张图

这张图是在知乎上摘下来的

他这个是算了一个恩格尔系数

横轴是一个收入

然后纵轴是一个食品支出

然后中间这条紫色的线是说的就是做的一个ols回归

然后其他的其他的各个县做的不同分位数的一个回归

然后的话比如说中间这条虚线做的是一个是一个中位数

也就是50%分位数

然后其他的一次是10~90分位数

然后我们可以看出其实它不同分位数条件下

它的回归系数是不一样的

也就是说我们从我们可以从平均的一个影响

然后看出其它的一个不同分位数下面一个不同的影响

它实际上是一个分位数回归的优点

然后的话大家有问题可以下来跟我交流

因为我感觉这个东西好像我几句话也说不太清楚

其实大家可以在私下交流一下分位数回归的问题

好的

谢谢大家

刚才那张图其实stata可以跑得更漂亮

它可以跑出一个非线性也好或者异质性的一个分位点系数

的一张图

比要更形象一点

大家可以试一试

3.13 Q&A 2在线视频

3.13 Q&A 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.13 Q&A 2笔记与讨论

也许你还感兴趣的课程: