当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 3.19 RCT workshop 1
Ok
大家来看右侧的变量名
这个school id是显然是学校的ID
他能帮我们区分学校的student Id是学校是学每个学生的
ID来区分学生的这个
wattack它是一个考试的名字
你就记住他是考试成绩就可以了
他的考试成绩
sfa是我们的 treatment
对不对
跟刚才这个例子是一样的
就是它是 school level的一个变量
学校是不是接受了 treatment
它是treatment
group还是control group
我们就靠sfa来去鉴别
Ppvt是什么
Ppvt是一个前测成绩
它是一个pre test score
这个school ppvt显然就是每一个学校的前测
成绩的平均分
对不对
所以这样的话
我们就很清楚我们有哪些变量了
Ok那么下面我们来回到 do file
我们回到do file
把这个东西怎么样
往上挪一挪
Ok大家来看一下
首先当我们拿到这个数据以后
我们要先看一下这个数据的一个整体情况
wattack是我们的 y是因变量
它就是乘积
所以我们看一下它的整体的一个描述
我们用sum命令加上detail option
他会报告得非常详细
大家选中这一行之后就直接点运行
你就可以看到这个结果
那么他就报告了数据的情况
包括他在不同的percentile
不同的分位点的样本量
以及它的总的样本量2334个
以及它均值标准差
方差等等
那么这样是一个结构
当然你可以做什么
你也可以做频数分布图来看是吧
用hist的命令也是可以的
我们就不再讲了
Ok
那么接下来我们感兴趣的是什么
显然是组间差异
那么我们来看一下
treatment group和control group分别有什么样的不同
那么我们一点点来看
首先我们做一个总的
大家看看第6行
它就画了一个箱线图
对y画了一个箱线图
box命令就是箱 box
然后变量名
当然后面是option
就是对于这个图的格式我们做出了一些界定
这样能够把这个图画符合我们自己的要求
后面我们就先不解释了
因为时间关系大家跑一下这一行
好像这一行这个应该是出一个箱线图
好
好
因为我是在麦克电脑里面的虚拟机里面性能差很多
大家看你们是不是都跑出这张图来了
这就是整个样本上的箱线图
那么它的中间这条线代表的是什么
是不是代表的中位数
对吧
然后上面两头这两条线
代表的一般是95分位点的值
这些条点点就是它我们的outlier或者是比较奇异的这些值
高于95%分位点的
或者是低于5%分位点的
那么它就其实是有点偏态分布
大家可以看出来
那么这个是一个大概的情况
那么下面这个是关键
我们画这样的图
我们就能够接着画什么图呢
我们最感兴趣的就是说
既然这41个学校
我们假设不同学校之间它的均值有较大的差异
所以我们就希望能够比较好的可视化的来去呈现这样的
一个学校之间的差异
所以大家看一下第8行命令
还是箱线图
但是我们加了一个option是什么
over
Over什么呢
Over school id也
就是说它是每一个school id分别作为一个
分组变量
我们来画一组给每一个学校都画一个箱线图
所以大家跑一下第8行
来看一下你得到的结果
大家是不是得到一个这样的结果
那么这个就是从第一个学校一直到第41个学校
每一个学校
他的学校内部的这些学生样本的这样的一个分布
那么还是中间的这条横线是中位数
那么这两个箱子的上限跟下限
大家可以看一下
分别是每个分位点
默认的是不是75%
然后还有上面线段的头
更偏的更两端的这两个分位点
以及一些小点点
outlier这样的一些值
那么我们可以明显的看到是不是每一个学校它的差异是
非常大的
也就是说每个学校的中位数的差别是非常大的
高低起伏
那么这个就验证了我们的这样的一个设想
猜想就是说它因为组内有相似性
那么组间有差异
那么这张图就非常齐
非常好的体现了组间的差异
接下来一个我们来看一下
treatment是sfa变量
我们来看就是treatment group跟
control group他们之间是有什么差异
那么我们把9第9行是bysort是它按照 sfa
的取值来去因为sfa就两个取值
0和1按照这两组来看 y的基本的信息有什么差异
然后大家可以跑到第9行
他给了我们是统计的结果
跑完第9行的同学就跑第10行
第10行就是我们按照treatment跟control
来去跑箱线图
前面这个结果大家都跑出来了
也就是说你看我们分 sfa等于0
跟sfa等于一这两种情况
我们的y它的取值的差异
包括样本量分别是多少
以及它的均值分别是多少
以及它就分位点上的这些取值等等
最大值最小值等等都报出来了
那么这个是它的一些描述统计
那么我们接着我们接着跑的
箱线图
第10行箱线图
那么第10行大家跑一下
得出来的就是treatment group
跟control group
这两组它的y的差值那么比较简单
没有加太多的 label
那么等于0的这组就是control group
等于1的这组是treatment group
那么我们可以肉眼看到 treatment
group的y它整体上分布是要稍微偏高一点点
这是肉眼的一个观察
Ok
做完这样的观察以后
当然你还可以做更多的这种基本观察
这个都属于描述统计
我们才开始进入一个正式的分析
好吧
大家以后也要记住你拿到任何的数据
不要着急上来就跑回归
做分析
先把数据的特点掌握好
否则的话可能有一些重大的特征
你没有注意到
那可能后面的一些分析结果会错误或者说是很难解释
Ok大家想我们先跑一个
我们先做方差分析
这是空模型
第15行空模型它只有y
这样的话他报告的是y的什么
跑一个空模型跑报告的时候y的截距项
也就是它的均值跟它的残差的方差
我们可以跑一下这一行
Ok那么这就是个空模型的结果
那么截距项是478
那么方差 residual包括在这里了
这个是 sum of the squares
报告的 sum of the
squares
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM