3.19 RCT workshop 1慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

大家来看右侧的变量名

这个school id是显然是学校的ID

他能帮我们区分学校的student Id是学校是学每个学生的

ID来区分学生的这个

wattack它是一个考试的名字

你就记住他是考试成绩就可以了

他的考试成绩

sfa是我们的 treatment

对不对

跟刚才这个例子是一样的

就是它是 school level的一个变量

学校是不是接受了 treatment

它是treatment

group还是control group

我们就靠sfa来去鉴别

Ppvt是什么

Ppvt是一个前测成绩

它是一个pre test score

这个school ppvt显然就是每一个学校的前测

成绩的平均分

对不对

所以这样的话

我们就很清楚我们有哪些变量了

Ok那么下面我们来回到 do file

我们回到do file

把这个东西怎么样

往上挪一挪

Ok大家来看一下

首先当我们拿到这个数据以后

我们要先看一下这个数据的一个整体情况

wattack是我们的 y是因变量

它就是乘积

所以我们看一下它的整体的一个描述

我们用sum命令加上detail option

他会报告得非常详细

大家选中这一行之后就直接点运行

你就可以看到这个结果

那么他就报告了数据的情况

包括他在不同的percentile

不同的分位点的样本量

以及它的总的样本量2334个

以及它均值标准差

方差等等

那么这样是一个结构

当然你可以做什么

你也可以做频数分布图来看是吧

用hist的命令也是可以的

我们就不再讲了

那么接下来我们感兴趣的是什么

显然是组间差异

那么我们来看一下

treatment group和control group分别有什么样的不同

那么我们一点点来看

首先我们做一个总的

大家看看第6行

它就画了一个箱线图

对y画了一个箱线图

box命令就是箱 box

然后变量名

当然后面是option

就是对于这个图的格式我们做出了一些界定

这样能够把这个图画符合我们自己的要求

后面我们就先不解释了

因为时间关系大家跑一下这一行

好像这一行这个应该是出一个箱线图

好

因为我是在麦克电脑里面的虚拟机里面性能差很多

大家看你们是不是都跑出这张图来了

这就是整个样本上的箱线图

那么它的中间这条线代表的是什么

是不是代表的中位数

对吧

然后上面两头这两条线

代表的一般是95分位点的值

这些条点点就是它我们的outlier或者是比较奇异的这些值

高于95%分位点的

或者是低于5%分位点的

那么它就其实是有点偏态分布

大家可以看出来

那么这个是一个大概的情况

那么下面这个是关键

我们画这样的图

我们就能够接着画什么图呢

我们最感兴趣的就是说

既然这41个学校

我们假设不同学校之间它的均值有较大的差异

所以我们就希望能够比较好的可视化的来去呈现这样的

一个学校之间的差异

所以大家看一下第8行命令

还是箱线图

但是我们加了一个option是什么

over

Over什么呢

Over school id也

就是说它是每一个school id分别作为一个

分组变量

我们来画一组给每一个学校都画一个箱线图

所以大家跑一下第8行

来看一下你得到的结果

大家是不是得到一个这样的结果

那么这个就是从第一个学校一直到第41个学校

每一个学校

他的学校内部的这些学生样本的这样的一个分布

那么还是中间的这条横线是中位数

那么这两个箱子的上限跟下限

大家可以看一下

分别是每个分位点

默认的是不是75%

然后还有上面线段的头

更偏的更两端的这两个分位点

以及一些小点点

outlier这样的一些值

那么我们可以明显的看到是不是每一个学校它的差异是

非常大的

也就是说每个学校的中位数的差别是非常大的

高低起伏

那么这个就验证了我们的这样的一个设想

猜想就是说它因为组内有相似性

那么组间有差异

那么这张图就非常齐

非常好的体现了组间的差异

接下来一个我们来看一下

treatment是sfa变量

我们来看就是treatment group跟

control group他们之间是有什么差异

那么我们把9第9行是bysort是它按照 sfa

的取值来去因为sfa就两个取值

0和1按照这两组来看 y的基本的信息有什么差异

然后大家可以跑到第9行

他给了我们是统计的结果

跑完第9行的同学就跑第10行

第10行就是我们按照treatment跟control

来去跑箱线图

前面这个结果大家都跑出来了

也就是说你看我们分 sfa等于0

跟sfa等于一这两种情况

我们的y它的取值的差异

包括样本量分别是多少

以及它的均值分别是多少

以及它就分位点上的这些取值等等

最大值最小值等等都报出来了

那么这个是它的一些描述统计

那么我们接着我们接着跑的

箱线图

第10行箱线图

那么第10行大家跑一下

得出来的就是treatment group

跟control group

这两组它的y的差值那么比较简单

没有加太多的 label

那么等于0的这组就是control group

等于1的这组是treatment group

那么我们可以肉眼看到 treatment

group的y它整体上分布是要稍微偏高一点点

这是肉眼的一个观察

做完这样的观察以后

当然你还可以做更多的这种基本观察

这个都属于描述统计

我们才开始进入一个正式的分析

好吧

大家以后也要记住你拿到任何的数据

不要着急上来就跑回归

做分析

先把数据的特点掌握好

否则的话可能有一些重大的特征

你没有注意到

那可能后面的一些分析结果会错误或者说是很难解释

Ok大家想我们先跑一个

我们先做方差分析

这是空模型

第15行空模型它只有y

这样的话他报告的是y的什么

跑一个空模型跑报告的时候y的截距项

也就是它的均值跟它的残差的方差

我们可以跑一下这一行

Ok那么这就是个空模型的结果

那么截距项是478

那么方差 residual包括在这里了

这个是 sum of the squares

报告的 sum of the

squares

3.19 RCT workshop 1在线视频

3.19 RCT workshop 1课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

3.19 RCT workshop 1笔记与讨论

也许你还感兴趣的课程: