当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 2.15 Q&A 1
大家好
能听到我的声音吗
可以
大家好
我们是第一组
然后我们的答疑主要包括前8道题
然后我们的分工大概是这样
然后现在就请*师姐来回答第一题
好的
我们看一下一第一题同学问的是如何找到一个合适的工具
变量
那么就我们组的讨论来看
其实就是很难找到一个特别完美的工具变量
但是我们在找工具变量的过程中可能也会有一些套路
然后我们主要分了以下的几类
第一类是分析上层的一个工具变量有几句数据
我们主要就是可以把州县或者大都会等地区层面的一个
截距数据
作为学校
班级
邻里等层面的一个解释数据的工具变量
具体的例子我们就不不解释了
然后第二类是自然界的物候天象
比如说坡度
河流
地震
降雨
自然灾害等等自然现象
那么因为它们是有一些随机性和外生特性
所以经常被作为工具变量
那么这一点在研究中还是挺经常出现的
第三类是生理现象的一个工具变量
比如说是出生日期
季度
性别
死亡率等等
然后因为这些虽然是自然历程
但是它具有一定的随机性
它往往又和特定的一个经济社会过程相关
可以用来做工具变量
第4类是社会空间的工具变量
比如说距离
价格等等
然后包括具象的城市乡村
还有非具象的市场空间等等
这些也都可以从这些角度来考虑
第5类是实验类的工具变量
比如自然实验和虚拟实验
那么能够给我们提供工具变量的实验
包括有政策干预改革创新这样的一些社会实践
然后又有一些假想的虚拟实验
我看了一下
好像在研究中也挺经常出现的
那么我们组就对第一题主要是总结了以下这么5类
好的
然后可以跳到第二题
谢谢
对
第二题同学提的包括两个小问
第一个问题是黄色部分占椭圆x的比例越大越好
是吗
那么我们的理解是的
因为我们认为就是图中我们看一下红色的阴影部分面积
就是我们所说的坏苹果
那么我们是想要把剩下的变量就是和残差不相关的变量
要尽可能多的给用工具变量给抠出来
那么这样子的情况我们就是希望黄色的阴影部分面积
尽可能占x除了红色部分的面积越多越好
所以我们认为第一题应该是的
那么第二题就是我们在这边举了一个例子
在实际上来看
我们其实是用我们可以看一下右边的这张图
我们是想要用黄色部分的一个阴影面积与y重叠的部分来
估计y而不是说因为我们看一下它题目中问的是y和z
重叠面积
那么y和z的重叠面积在这张图上面我们可以看出它其实
包括了我画的红色的一小部分和黄色的部分
就是重叠的这部分
但其实我们是不关心
不太关心
红色的阴影部分主要还是关心另外的,黄色与y相交的这么
一部分
所以对于第二个问题
我们组认为它是不是的
请跳到第三题
慢一点
其它同学有想法的话就可以马上提出来
因为正好可能是解答的你们的问题
然后你觉得它没有答清楚
或者说是你有其它的问题可以马上问
我们这个是讨论环节
大家都可以直接把麦克打开问
好的
那么第三题我们可以看一下
这个同学问的是工具变量与因变量在理论上没有相关性
但在实际上有相关性
那么我们认为说在因果关系的一个理论上来说
我们可以看一下右边的这一张图
就是 z是通过x和y相关
这是y z和y是没有直接的相关性的
它只能通过x来间接的影响y那么我们认为因果关系主要
是在x和y之中的
所以对于第一个就是在理论上没有相关性
这是没有问题的
但是在实际过就在一个统计意义上来说
z和x相关
x和y相关
那么我们在做统计的时候
多多少少会发现么z会和y呈现一定的一个相关性
但是统计意义上的相关性
它实际上我们很难用理论去解释
所以它可能没有什么意义
然后我们也可以再看一下左边的这张图
我们可以以为例工具变量和y其实一定是要有相关性的
就是我们在图中画的绿色的就是比较大绿色的阴影部分
因为我们是要用黄色的阴影部分
然后来和外做相回归相关做回归
那么如果说没有绿色阴影部分
也就是说z和y不相关的话
那么没有办法来做
第二就是它的第二步了
我们是这样理解的
对于这条是否可以发现工具变量
那就是在我们看的几篇和工具变量有关的文献中
其实我的理解是我们在找工具变量的时候
其实首先会考虑说工具变量和和x相关
然后它和y无关
要满足这两个条件
然后最后我们在做工具变量的外生性检验的时候
会在用定量和定性的方法来说明工具变量z和其它的
别的同学提到的残差之间的一个不相关
所以我觉得我们最开始可能像同学说的那样
我们是先考虑工具变量和x以及y之间的一个关系
就到最后的时候才会也不是到最后在最后检验的
但我们在最开始在选择工具变量的时候肯定也要考虑残差
但是在在主要还是和x和y的关系
但在最后检验的时候要检验它的外生性
要考虑和残差之间的关系
对
这是我的三个小问
谢谢
好
第二题同学问的是关于局部处理效应的理解
然后这有一个式子可以帮助大家理解
然后这个是局部处理效应
是因为我们引入了工具变量
然而在工具变量的作用下
个体的处理效应是不同的
就这有一个小例子可以帮助大家理解
就是家里家和学校距离的远近和是否上学的关系
以下一共分为4种人
第一种人是家里远
家距较远也上学
第2种是家离学校近也不上学
第3种是近就上
第4种是远就不上
我们的局部处理效应关注的是后两种情况就是说,引入
距离
然后它就改变了自己的行为
主要是这样
然后第三题
第三题问的是工具变量
使用工具什么的
一上题目
回来回来
你解释得还是我觉得是没有问题的
但是解释得挺快的
我不知道问问问这个问题的同学有没有听明白,局部平均
处理效应的一个最大的区别就是,平均处理效应是对我们所
研究的我们感兴趣的所有研究对象的整体
population来去做的
但是局部处理效应它只是对其中的一部分下的结论
这个是直观上用语言上来表达
是这样子的给了公式
所以说这个局部跟整体的区别
比如说有的学生它就会受到距离的影响
它在做决策的时候
但是有的学生它就不受影响
我们用这个工具变量的时候
其实就最后的结论就下在了上大学的决策受到距离影响的
这群学生的身上
是吧
这个就是局部的含义
但实际上我们的研究兴趣
我们本身所感兴趣的并不只是这一群学生
我们是对所有的学生都都感兴趣是吧
我们的研究兴趣
这个是局部跟整体的差别
有问题大家可以随时问
第三题问的是使用工具变量之后可否删去一些控制变量
然后一般原则上来说是不可以的
因为我们对控制变量的选择是基于理论来说的
并不是说我们变量不显著
就说明我们变量选错了
然后这有两点值得注意
第一点如果是跟其它模型进行并列比较分析的话
那么两个变量要两个模型的变量要保持一致
所以更不能随便删去
如果我们只使用工具变量进行回归
那么可以根据实际情况做一下调整
然后我查了一些资料
然后是这样说的
就第一点就是说可以将被解释变量和控制变量单独做一下
回归
如果显著的话
那么更应当保留了
否则会造成遗漏变量的偏误
但是有一种特殊的情况我们就要删掉了
就是这种情况
单独做了回归之后它不显著
但是与其它变量放在一起会使其它变量显著
这个问题上节课也提到过
这样就会存在多重共线性
所以这个变量应该删掉
我的问题就到这里
谢谢
下面我们来看一下第4题
第4题一共有三个小题
其实主要注重的是我们的概念的一个辨析
我们来看一下第一小题
首先是观测不到的变量都是遗漏变量吗
是否都会引起内生性问题
其实这就是这两对概念的一个辨析
首先观测不到的变量
我们可以说是未观测变量
遗漏变量其实就是这些未观测到的变量里边
对这个模型的构建有实际影响的或者理论上有影响的这些
变量
这些变量才叫做我们的遗漏变量
而遗漏变量和遗漏变量偏差
遗漏变量它和我们的解释变量相关的时候
才会造成我们的遗漏变变量偏差也就是OVB,而OVB是
会导致内生性问题的
所以只有当遗漏变量
它和我们的解释变量相关的时候
才会引起内生性的问题
我们看一下下一题
第二题其实就是工具变量
它如果同时和我们的解释变量 x遗漏变量xy相关的话
那么可能会造成我们的估计结果偏差
首先我们来看一下工具变量它和解释变量相关
这是我们工具变量存在的前提
如果它和我们的遗漏变量x1相关
会造成我们的估计结果偏差的话
这个时候大家可以想象一下
工具变量
通过我们的遗漏变量x1
它和我们的残差项就有了相关
所以这个时候我们的工具变量和残差的协方差
它就不可能是等于0
这个时候工具变量的存在前提就不成立了
所以这个时候我们的工具变量选择我们可以再重新考虑
一下
如何去判断这种情况
首先遗漏变量是我们无法观测到的变量
所以我们没有办法直接去证明它和工具变量是否相关
而且在理论上工具变量和我们的残差项要等于0
在现实中也很难说去完全把它排除
所以我们很难去证明这个是否存在
我们看一下下一题
这题就是一个ATT和ATNT的概念
ATT和ATNT我们先从概念上去看
ATT它是说对这个人群进行一个区分
也就是我们实际观察到的参与了这个项目的人,参与者他的
一个平均处理效应
也就是说但我们实际观察到他是参与项目的人
他参加之后的收入,这是实际上的
然后减去假设他没有参加这个项目的收入
这个是假想上的
所以我们就得到这么一个式子
也就是对于目前观测到的参加项目的人
他是一个条件存在的前提
然后我们对他进行一个调整
希望ATNT他的群体是非参与者的平均处理效益
也就是说他这一群人是我们实际观察到他没有参与到这个
项目里边的
我们假设他去参加了这个项目
然后减去他没有参加的
也就是实际的收入
得到的就是我们的 ATNT就是没有参加项目者的
平均处理效应
而它和ATE是什么关系
ATE它是可以写成我们的ATT加上一个选择
偏差的这么一个部分
这个就是它们之间的关系
当然你也可以把后面式子把它改写成 ATNT再加上
另外一个项
但是这样的话像没有太实际的意义
所以一般我们不提
这样我解释清楚了吗
解释清楚我就下一题
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM