当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.16 Q&A 5
老师同学们大家好
我为大家带来的是19题跟20题的答疑
同学问它说
PSM第一阶段都使用了
probit和logit模型
然后当实验组对照组样本
量比较悬殊的时候
好
比 logit的模型的预测
能力可能表面性表面上很强
然后实则真阳性很低
那么这种情况会导致PSM
的一个估计问题吗
首先这位同学他是注意到了
去年**老师
当时讲
probit跟logit
模型回归的时候
然后对
模型的一个拟合优度的判别的指标
这是它提出来的其中一个指标
然后这个指标的话它
它主要是去检测我们这个
模型它能够政策运
正确预测的一个百分比
我们现在可以简单的看一下
它这个到底是怎么算的
你比如
横向来看的话
大家也看到D
~D
这个的代表的话
D的话就是说这个事情是真的
然后
~D的话实际上是假的
然后classified的话
然后如果是正的话
就是说你是正确预测它
负的话就是负的
没有正确预测它
然后
它这个地方sensitive
4个条件概率
第一的话就是说这个事件是真的
然后同时你要正确预测它
也就是说15
然后又是在
正确的时间里面
15÷266它就占到了
5.64
然后每一个单元格大家都
可以这样把它算下来
然后在这些指标里面
其实最重要的就是一个它
correctly
正确识别的
一个比例到底是多少的
也就是说
它能够把真实实践给正确识别出来
能够把不真实的事件给排除
出去的概率是多少
我们可以看到它这里的
就拿这个图来说的话
它这个的模型你和对标度还是比较高的
还要强调的一点就是说它是判别
了一个模型的拟合优度
而不是我们的倾向性分数本身
计算的一个值的准确性
我们主要要关注的就是刚刚说的指标
当这个指标过低的时候
我们的模型拟合优度就会比较差
然后我们这个时候通过
logit的回归
估计的条件概率值也就是倾向性分数
它的价值就不太高
这个时候我们就可以参考
我们这个模型的另外的联合指标
你比如说极大似然值它是不是显著的
然后还有一个R square
是不是显着的
如果
哪个好看的话
你就报告哪一个
但如果都不好看的话
那就证明你前期的一个理论模型
的设定可能出现的问题
就刚刚**所讲的第一个
步骤里面出现的问题
然后请小心翻到第20题
等等刘健对这个问题的解读
这个没有问题
但是大家想一下
在现实中
是不是经常会出现样本不平衡的情况
也就是两组人它的人数不相等
比如说是151:5可能已经是一个
比较大的unbalance的情况
那么
可能会说1:10或者是1:20等等
这个时候
logistic regulation
它确实在去预测 treatment
probability的时候
准确度会下降
这个是
现实
但是我们
怎么办
不能因此而放弃 因为
probit或者是
logistic model
它是第一步去计算倾向分数的
就是这一步
如果这个倾向分数算错了
p值算错了
那么后面基于它在进行匹配确实会有问题
那么大家其实可以参考一些相关的论文
这个里面其实在这一步是可以进行调整的
有相应的 correction的办法
来去通过调整样本量
相当于类似于
有的是重新调整样本量
有的是通过权重
等等这样的一些方式去调整这两边的人
然后treated 和untreated的人的
不平衡样本不平衡的问题
第二个有的时候
我们也可以采取
boot strap的方法
来做一些相关的分析
不是说我们只是哪个统计要好看
我们报哪一个
它本质上是一样的不平衡的问题
好 谢谢老师的补充
**是翻到20天
20题它主要问了一个PSM跟DID
的一个估计是怎么操作的
这个的话它要用要用到办法的时候
始终
我们是基于这样一个情景
就是说我们的DID它有一个
前提假设
实验组跟对照组它要有一个共同的趋势
但违背这个共同趋势的时候
我们就需要使用 PSM来构建
就有共同趋势的一个两组的测量样本
它主要的步骤的话就是我们在用这个办法
第一步的话
我们肯定要去检测一下我们
DID的一个共同平行趋势的假设
把我们的
把我们的因变量
然后关于实验组和对照组
然后把它给做图做出来
然后去看
因变量
是否存在一个显著的差异
以及在它发展的过程中
它的一个
增减的一个增速是否存在一个显著的差异
如果存在的话 就是说它的功能
就不存在共同趋势
这个时候我们就需要用PSM
然后对我们实验组和对照组样本进行处理
它的方法就是
你选用我们研究里面
关注的若干变量
然后构建一个测量样本是否可以
进入实验组的一个概率函数
也就是刚刚所说的
habit或logit回归模型
你把它
把这个模型给迭代进去
然后给它算出
分数值
这里举了个例子就是说
比如说我们现在要
看
985重点高校建设政策
我们985入选985
重点高校的学校的话
它入选的学校它
高校它的科研水平往往是比较高的
而没有入选的它的科研水平会比较弱
我们这个时候
以是否入选进入作为一个
领域的分布的因变量
然后以
影响
它入选的学术成果
然后作为它的自变量
然后通过这个模型
然后就可以计算一个
它的进入的条件概率
然后当我们报
再把我们这些概率进
相近的语言下进行一个匹配
就可以选出
我们的
实验组中
对照组中跟实验组最为接近的一个样本
配对之后
然后我们的就满足了dI
d的一个平行趋势假设
然后就可以用 DID的分析方法
对我们的干政策进行一个相应的处检验
但是需要注意的
当我们用这个方法
进行匹配了之后
我们会使得原来的样本的
信息量进行一定的损失
因为我们始终找出来是
具有共同缺失的一个样本
然后以上
我们小组关于上面的一个问题的解答
请老师和同学
挺好的 **
最后这一个同学问的问题也很有意思
这个是
相当于也是一个嵌套
把 d I d跟ps的嵌套使用来
去相当于处理我们 DID
时间趋势不满足的
这种情况下怎么样去更正它
所以说这些问题我觉得都是非常好
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM