当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 6.11Q&A 1
请第一位同学开始
大家好
能听见我的声音吗
第一
好的 谢谢
然后第一题就是这个同学他是问
在控制
变量方法中就它配了右边这个图
然后把控制变量视为分类
变量处理的效果好
还是视为连续变量好
首先控制变量里边它本身就是分了
可能有一些控制变量
它是一个连续变量的形式
但也存在有一些变量
它
只有一个分类变量的形式
那么对于分类变量的话
我们就只能够把它作为分类变量来处理
而不能够把它视为一个连续变量
因为它的数字类的数字
它其实是没有意义的
然后对于
控制变量里边的连续变量而言的话
我觉得它应该
一定要看具体的研究问题
你是对于什么
点比较感兴趣
一般来讲我们会把这样的
连续的控制变量作为一个连续变量
直接
加入到回归方程之中
但是如果你对于某一段的
这样的控制变量
感兴趣的话
你也可以类似于像
右边这个图一样把它分成几段
然后
给它计算它的一个
作为
控制变量加入到回归方程之中
这些都是依照你具体的研究问题
或者说你感兴趣的研究的点
决定的
那去
根据我的感觉
如果是你对它进行一个分层的话
那么
你把它作为一个分类变量处理的话
它的过程可能就比较繁琐
但是你可以看到一些你感兴趣的结果
但这样的话从和我们之前
的分层其实有一个
同样的缺点 就是
它可能存在这个层里边它的样本量不足
那么这样就不具有代表性
这个风险也是要考虑到的
然后对于如果你把它当作
连续变量而言的话
你就可以直接把这个变量加到
会不会帮村里边
它的过程是比较简单的
而且它的信息的含量是更大的
但是我没有办法对于某一个你感兴趣
的区段去进行一个结果的显示
作为控制变量这个方法而言
我觉得最重要的它是选择在实质上
或者理论上对于结果确实有
影响的这样的控制变量
也就是它是一个定性更重要的概念
而不是说你把它作为分类变量处理
还是说
作为一个连续变量处理
这个地方**
在回归里面其实并没有面临分层
就是层内样本不足的风险
因为回归有一个很强的假设
他是认为
各个层的它的斜率是相等的
它就是假设做了这样的一个结构性的假设
所以这层样本不足
它其实因为斜率相等
它可以借用其他层估算的斜率来进行估算
所以当时不会受到样本量少的威胁
但是他就是强调的这么
一个假设进去
咱们是哪个讨论过
就跟分层相比
但是分层确实
大家想连续变量可以改成分类变量
但是一个分类变量能不能
把它还原成一个连续变量
其实是不能的是吧
因为分类变量它的信息含量应该是更少的
从这个意义上讲
他的标准误等等都会变大一些
但是如果你对这种子样本感兴趣
人人群对不同的人群感兴趣
那就是跟刚才**说的
根据研究兴趣可以选择分类变量
好的 谢谢老师
对
大家把样本量不足
这句话自动划去
对
所以他的整个选择的话还是
要看具体的研究问题
另外对于
请问
最后半句话
分类变量它的估计值更接近
于分层方法的估计值
我们根据之前
之前大家如果有印象的话
它分层方法的估计值应该是1.50
从这个数字来看的话
他其实也没有说分类的变量
方法的估计只会更接近
所以
下一个看看
可以 我们下一个
这个同学他问的问题是上节课
老师后面没有讲的 PPT
关于
高中教师资格和学生的学业成绩
之间的影响的一个例子
那么我简要给大家讲一下
这个论文的一个背景
他是
他的目的就是去研究在高中阶段
教师的一个资格
比如说教师的工作年限
的教师资格考试的成绩
或者他有没有教师资格证
还有教师的各个方面的一些特质
对于学生成绩的一个影响
为什么会提出这样的研究问题
是因为当时在
应该是美国
你是美国人吗 我也不记得
反正这个国家它是
产生了一个政策的争议
就是说你高中教师
到底是资格证书会比较重要
还是说
它的一些职称的评定会比较重要
也就是说你
国家
给教师的任职摄入这么一个
考试的这么一个门槛的话
他这个证书是不是能够有效的去
识别出合格的一个教师人选
你拥有教师资格证书的人
他是不是
更
更有资格去把这个学生给教好
是这么一个争议的问题
所以
衍生出了一系列的这样的
研究的
方案
研究的课题
我们放下一页
然后作者他选取的是北
卡罗琳娜州的
高中样本
为什么要选这个州
是因为这个州它和其他州不太一样
它长期有一个
课程结束的一个考试的测试
而且这个测试它涵盖有很多的学科
这种
期末的一个测试
它就比较适合于去评定高中学生的学业成
这个成绩是可以直接作为一个学业成就的
代表的
然后在 paper里面
作者是衡量了学生的5项
这样的
end of course
的一个成绩
他的对象是九到十年级就是
高中的这一个阶段
同时他会把这些成绩和学生
教师的
一个特征和他的一个任职资格去进行一个
但是
大家知道高中教师他的一个测量最大
的问题就是这个教师他只能够说
特定人分配到某几个班
或者甚至是某一个班
也就是说学生和学生之间
他的教师是不一样的
那么这样教师带给学生
的影响也是不一样的
这是一个最大的问题
那么如果我们直接去对它进行
一个回归的假设模型的话
我们可以看到
假如说我们看到了这样的一个现象
比如说教师他的资格越高
好相对应的学生的成就就越高
这样的结果到底是不是一个正确的呢
是不是存在问题
其实我们认为它是存在问题的问题
就在于教师他的分配并不
是一个平均的状态
它可能存在两种情况
一种是上篇比如说你教师
他的这些任职资格越
强的话
它对应的学生
他可能就会分配到更好的学生
因为
这样的学生就更能够去
在这样的教师的情况之下带的更好
另外它有一个比较消极的影响
也有可能是
比如说学生他表现的比较差
那么学校可能就为了
提升学生的成绩
把更好的教师分配给他们
就是两个问题
针对这样的问题
我们有两个解决方法
一个是我们有长期的一个观测数据
在不同的年份有不同的
教师给这些学生上课
那么我们就可以去
用这样的
回归的模型
给他进行一个回归
然后
把学生的特质给它分离出来
对
然后第二个方法就是我们如果
没有这样长期的数据的话
我们就可以
去比较
一某一年学生在不同的科目
之间去进行一个比较
不同的科目
它应该对应的是不同的教师
那样教师他
不是平均分配的问题
就可以被巧妙的避免
然后
这个问题的狮子就在这里
我们可以给
这样的数据给它定一个这样的回归模型
一是回归模型
然后a
就是学生的一个职业成绩
然后T就是教师对于学生的一个影响
然后下掉I
这个学生
然后这
某一个科目的
老师
特定一个老师对学生的影响
然后s就是科目
k就是这个学校
然后1a这个式子就是
对于某一个学生而言
他所有的
些因素的一个综合的平均的影响
然后把两个式子减一减去加上一个残差
和减去一个残差就可以得到2式
然后这个问题就在于下面下
标j和k为什么可以去掉
翻到下一页
J和k为什么可以去掉
大家知道这个j它是一个某个学科的教师
对于
学生的学业成绩的影响
而k是学校对于学生成绩的影响
大家想一想
学生的
某个学生i代表
是不是可以
企业
某种程度上去把k的信息含量给它覆盖掉
然后这就是某个学科的教师对学生的影响
其实他就
暗含在
学科s里的
他们之间的信息是可以相互包含的
而且后面我们的狮子里边
也并没有用到这样的
k和j的一个信息
所以我们可以在这里把它给它
做一个简化
大家就是这个样
不知道我有没有说清楚
对**你解释就是
这个k是不是去掉
这个是
没有问题的
但是整个思想大家想一下
因为老师跟学生的匹配
也有一个内生性问题
一个自选择问题
而且这个是观测数据
所以它也是用观测数据来去解决
自选择问题
他的逻辑是什么 说
虽然学生他很有可能
好学生可能会被分配好老师
或者是差学生被分配好老师
这两种
策略都可能有
但是学生
他在不同学科会遇到不同的老师
不同学科被分到的老师不见得都是统一的
都是
同一种水平的
那么这个时候
这个时候用把学生当作一个据点
装到一个fix effect一个中心
那么像个齿轮一样
那么它对应的不同学科的老师
credential是不一样的
那么他在不同学科的学业表现也不一样
这个时候他不同学科之间
的学业表现的差异
就应该不是他个人能力带来的
只要他不是一个严重偏科的学生
那么这个差异就应该是老师的差异带来的
就是逻辑
所以后面就用了很多这样的
一些角标来去区分哪些是
老师带来的影响
哪些是学生自己的 fix
effect
大概是这样子
因为我们时间关系我们就上点课
就没有去详细讨论这个问题
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM