当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.13 Q&A 2
下一部分是黄丽来回答
好
接下来第二题问的是在回归模型中是否应当尽可能
包含协变量来增加模型解释力
在理论上只要符合理论模型
满足ols假设的协变量是都可以放进回归模型的模型中
的
但是虽然这样可以提高它获得因果解释的可能性
但是并非越多越好
这里需要注意的是要剔除不合格的一个控制变量
不合格的控制变量有两个判断依据
主要的依据一是它本身可以作为解释变量
如果把经验研究想象成一个实验不合格的控制变量
就是那些可以作为实验结果的变量
依据二是根据控制变量被决定的时间
一般就是在treatment之前就被决定的变量都是
一个好的控制变量
反之则是不合格的
另外在数量上要选择多少的变量作为协变量
是取决于模型的一个复杂程度和样本量还有对应的自由度
比如说在比如说在多元回归中又要得出唯一解的时候变量
个数小于等于方程的数量
这一题是我们组得出的一个的一个回答
对
像大家想一下
如果是一个小规模的rct的话
样本量就几十个或者是100来个的时候
这个时候你想放太多的控制变量也不太现实是吧
放一些关键的控制变量就可以了
好
现在是10:20
咱们严格遵守30分钟的课堂的长度
保证大家不要疲劳
咱们休息5分钟
然后第三组再接着给我们解答
好吗
休息5分钟
手机跟电脑可能不是很同步
ok
好
咱们接着讲
老师
各位同学
那是第三题
对
我们接下来看一下第三个问题
然后这个问题对老师我是张迅
然后我们可以开始吗
好
开始
第三个问题说的是前测成绩是否可以合理地成为回归模型
的协变量
具体来说就是说Y等于β0加β1
x加β2 pretest的
然后系数β1说的是其他条件不变的情况下
treatment可以使学生多β1分
但是这里有一个问题
同样是提高β1分
对于前测成绩不同的人来说
它也就是他们的基础不一样
比如说有的人得60分
有的人得90分
同样是提高β1分
然后对他们来说意义是不一样的
毕竟我们从99分到100分是一个质的飞跃
但是从60分到61分可能那种举手之劳很容易的事情
然后我们把这个问题拆解为两个小问题
然后我们接下来看一下
首先第一个小问题说的是我们可以翻一下PPT
第一个问题想问你说的是前测成绩作为协变量的问题
首先我们说协变量它我们协变量是这样一种变量
它实验者不能操纵或者我们压根不感兴趣
但是它仍然会影响实验的结果
比如说在本例当中
学生现在考试成绩会受到他们自身知识基础的一个影响
而衡量他们自身的知识基础
我们可以用前测成绩来加以衡量
所以说我们在做在跑回归
然后做研究的时候必须排除这种影响
因此就需要将前测成绩作为协变量加入模型
也排除这种影响
然后在实践当中常用的协变量也包括一些比如说我们因变量
的前测分数
人口统计学特征
然后的话协方差分析的手动计算过程比较复杂
但是我们用软件可以比较轻松地实现这一点
所以说对第一个小问题回答是我们应该将协变量作为一个
做一将前测成绩作为协变量加入这个模型
也排除他的自身知识基础对成绩的影响
然后是第二个小问题
就说也就是高分段低分段的影响问题
然后我们首先说传统线性回归
其中以最小普通二乘法应用作为广泛研究的是自变量x对
因变量y的一个条件期望
条件期望的影响
这条件期望期望也就是均值
实际上它是一个均值回归
而最小二乘法它是以最小化残差平方和为目标
它这种情况下容易受到一个极端值的影响
而且对于大量数据而言
最小二乘法回归只能得到一条回归线
它反映的信息是极其有限的
也就是说它实际上延续的是一个平均的影响
那么我们怎么才能分清高分段和低分段的不同影响
也就是我们感兴趣的是在人群当中不同分位数
也就是或者说末端顶端人群的一个异质性影响
那么我们这里建议采用一个分位数回归
而分位数数回归它本身比较复杂
具体情况大家可以看一下
我们去年就说郭菲老师课上分享的那本书叫高级计量
经济学
stata应用的26章
分位数回归研究的是自变量x对因变量y的条件分位数的
影响
他的不是通过最小化残差平方和主要是通过一个最小化残差
绝对值的加权平均为目标
然后不易受到极端值的影响
而且比起ols它的前提假设
要求很宽泛
不要求误差项
符合一个均值
为零的
和也不要求同方差
它的前提假设很宽泛
然后最大的优点它是能够提供关于条件分布的一个全面的
信息
它可以得到比如说我们不同分位数条件下的一个很多条
回归线
实际上在不同分位数上
因为解释变量对被解释变量可能产生的影响不同
也就是说分位数回归系数可能和ols回归系数就是
不一样的
然后我们可以看一下下面这张图
这张图是在知乎上摘下来的
他这个是算了一个恩格尔系数
横轴是一个收入
然后纵轴是一个食品支出
然后中间这条紫色的线是说的就是做的一个ols回归
然后其他的其他的各个县做的不同分位数的一个回归
然后的话比如说中间这条虚线做的是一个是一个中位数
也就是50%分位数
然后其他的一次是10~90分位数
然后我们可以看出其实它不同分位数条件下
它的回归系数是不一样的
也就是说我们从我们可以从平均的一个影响
然后看出其它的一个不同分位数下面一个不同的影响
它实际上是一个分位数回归的优点
然后的话大家有问题可以下来跟我交流
因为我感觉这个东西好像我几句话也说不太清楚
其实大家可以在私下交流一下分位数回归的问题
好的
谢谢大家
刚才那张图其实stata可以跑得更漂亮
它可以跑出一个非线性也好或者异质性的一个分位点系数
的一张图
比要更形象一点
大家可以试一试
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM