当前课程知识点:基于R语言的社会统计分析 >  第三章:基于R语言的探索性数据分析 >  3.2 EDA的制图原则 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:R 语言初体验

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

然后我们前面说说EDA

最大的

卖点是它的visualization method它强大的可视化功能

那我们现在就说说用

EDA的这个思路画图的时候我们需要遵循的基本原则

有一本书非常有名它是

Edward Tufte有一本书非常有名它是

Edward Tufte

叫做爱德华塔夫特他有一个著作叫做BEAUTIFUL EVIDENCE

美丽的证据

这本书呢它探讨了

怎么样把我们收集到的数据转化为证据

怎么样呢制作可以

提供有效信息的特别有力特别有效的

图形它在这个

这本书里面提出了制图的六个基本原则

当然这六个基本原则呢可能针对的是产生最终的图形报告

时候你应该

遵循的一些原则但是我们认为

在进行探索性数据分析的时候你也应该

有一些基本原则对你做一些指导那这六条基本原则呢

我觉得总结得太棒了所以拿过来给大家

分享一下那

首先让我们来看一个例子啊

我们第一条原则

叫做体现比较

我们第一条原则叫show comparison

它说呢体现比较实际上

不用他说我们也知道体现比较实际上是

好的科学研究的基础

就你做科学研究的时候实际上不经意间都在做比较

我们上高中的时候

都上过物理课

上物理课的时候就学过参照系

说参照系很重要因为它提供了一个基准对吧

所以每次我们

给一个科学假设的时候

实际上我们的潜台词是

相对于另一个竞争假设而言

这个假设是真还是假是不是一个伪命题

那当你在说

证据倾向于假设

A的时候你的潜台词

实际上是说相对于假设B

和假设B相比

我手头得到的证据更加倾向于假设A

这个思路在我们后面

讲假设检验的时候你们也会

逐渐就是体会这个

两个假设间对比的概念

我们经常有一个原假设有一个备择假设

我们总要让两个假设打架看看证据更倾向于谁

那一个好的科学家

在面对一个科学结论和科学陈述的时候

经常会问到的一个问题就是和什么相比

compare to what

那我们构建数据图形的时候同样也应该

遵循这个原则你至少应该在比较

两件事

那我们看一下下面这个例子啊

这个例子是

发表在美国非常有名的医学杂志

JAMA上的叫做The Journal Of the American Medical Association

这本杂志上

发表了很多很多健康影响因素的文章

那这是一篇2011年

由Johns Hopkins大学的一个团队做的研究

题目超级长啊

你们有兴趣的话可以按照这个题目去找到这篇文章看看这个研究

它的题目叫做A randomized trial of air cleaners and a health coach to improve

indoor air quality for inner-city children with asthma and secondhand smoke exposure

这里面有几个关键词啊我们一看我们现在

中国观众

最关注的问题就是空气质量

所以这里面有室内空气质量

然后还有儿童的健康的问题就是

它关注的是哮喘患儿而且这些患儿呢还是和

吸烟者共同居住的一些倒霉的儿童

他们进行的这项研究呢

是为了

对哮喘患儿进行健康干预

他们的研究对象

刚才说了是与吸烟者同居的哮喘患儿

那每个儿童会分别在基线还有六个月后接受健康评估

我们的研究最终目的是通过干预

增加

儿童六个月内的无症状日的数量

无症状日也就是说

在实际上这个

具体的定义是在两周内

没有哮喘症状的日子

如果说你的干预是成功的

你希望

儿童尽少犯病我们希望无症状的日子

越多越好

你越没有症状说明这个健康越良好

所以整个我们期望看到的

这个结果变量最好是一个正数越大越好

那我们现在看到的这张图

它实际上展示了

就是在使用了空气净化器以后

有哮喘的儿童无症状天数改变的情况

那我们现在实际上是有一个干预的动作了

如果回应到我们第一节课讲到的实验设计的理论我们说

实验的精髓就是有干预

那我们这里面的干预就是加了个空气净化器

那加了空气净化器以后我们可以看到这张图啊

就是

John Tukey发明的箱线图

这个箱线图你们可以看到

中间那条黑线代表的是中位数

中位数等于一

说明无症状日增加了一天

可能看起来没有太厉害啊但起码是有增加的

然后如果再回忆一下箱线图的话你们可以看到有三个异常值

有两个儿童好像

加了空气净化器就特别厉害了

无症状日的数量增加了十几天

然后有一个儿童呢是无症状日减少了十几天

这些都是比较异常的数值

那在

回忆一下这个箱子的下限和上限

也就是它的第一四分位数等于零第三四分位数这里是等于

这是这张图告诉我们的

然后下面我们的问题是

一共有四十一个儿童

受到了空气净化器的干预

我们看到箱线图显示无症状数量改变的中位数是一

可以得出结论说空气净化器奏效了吗

我们一般就是

不想科学论证的过程我们会说当然了你这个

无症状日的数量增多了空气净化器显然奏效了

那如果是更严谨的一个推导实际上我们需要

问的下一个问题想必你们已经猜到了和什么相比

从基线

到六个月以后半年的时间

半年的时间发生了好多好多的事

无症状日的数量可增可减

是空气净化器对它产生的效果

还是因为其它的一些混淆的因素产生的效果我们是不知道的

所以这里面我们特别需要一个控制组

就是说我现在加了空气净化器你说改变了一天那如果不加呢

有没有什么其它的结果啊

我们来看看下面一张图

下面左边一个箱子代表的是控制组就是

这几个儿童虽然也进入了研究但是我们狠心的没有给他们加空气净化器

然后另外呢有空气净化器的那组

你们可以看到趋势是很不一样的

没有空气净化器的那一组

他们无症状日的均值并没有改变

中位数在零

那这就给我们增加了很多的信心了就是我们相信可能空气净化器

确实发挥作用了让无症状日的数量增加了

这是我们说的画图你看

只是一个小图就让我们有了更多的信心证明确实

是我们做到的那个干预那件事情起作用做到了

这是我们说的第一个原则

第二条原则也非常重要

叫做体现因果

机制

解释还有系统结构

后面什么机制啊解释啊你们可能比较难理解

我们可以简化成我想知道为什么

体现因果关系

我们第一节课就讲了

解释因果关系好像比登天还难就是说我们可以一直在靠近真实的原因

但其实

一般情况下即使是你一个经过

很深思熟虑特别精密设计收集来的数据

你也不能百分之百的确定我成功的证明了它就是原因

但是这并不是说明说很难证明

一件事情是导致另一件事情原因我们就不去证明了

我们要无所不用其极的想办法去贴近真实

所以我们画图的时候也要不断地去找这个原因

那前面我们体现比较的时候已经说了我的干预组和

控制组的区别在于是不是加了一个空气净化器

那爱问问题的人又会问了说

这又告诉我们什么了

为什么加了空气净化器以后

儿童的健康状况就有所改善了

那为什么呢

实际上背后的假设我们

再熟悉不过这个假设了我们认为空气净化器可以净化空气

可以减少空气中悬浮颗粒

对吧那你现在

也不能就是说

这个我们这门课讲的事情都是所有的科学过程都不是信口胡来的

我不能说我觉得空气净化器

可以减少空气中的悬浮物

颗粒这就是你的结论你要用科学的方法去证明它

怎么证明呢

那我就来测测

有没有空气净化器

空气中空气悬浮颗粒的数量有没有改变

对吧这很直接的方法那

我们研究中的儿童和吸烟者是共同居住的

所以既然屋里有吸烟者那就说明空气中的

悬浮颗粒的水平应该很高而且主要来自二手烟

同时我们还有一个论点啊因为吸入颗粒

物可能加重哮喘症状的论点

这个论点已经被很好的证明了

所以我们有理由认为减少

颗粒物可以改善症状的 假设是有理由成立的
所以我们有理由认为减少

颗粒物可以改善症状的 假设是有理由成立的

那下面我们再看这张图

这张图呢比刚才那张图

增加了

六个月前和六个月后空气中PM2.5浓度的变化

你可以看到对于没有加空气净化器的那一组

PM2.5的浓度的中位数实际上是增加了

然后 加了空气净化器如我们所料

即使是它的高的那个第三四分位数

也是小于零的

说明空气中

可吸入颗粒物的浓度确实是减少了

这就和我们猜想的那个因果 起码从图中看出来
可吸入颗粒物的浓度确实是减少了

这就和我们猜想的那个因果 起码从图中看出来

是一致的

那 再回到那个问题 我们现在可以说

空气净化器确实是原因了吗

或者说 空气净化器确实能够减少空气中可悬浮颗粒物了吗

那 你要是较真的同学可能又要说了

我怎么知道天气情况到底是什么样子的呢
那 你要是较真的同学可能又要说了

我怎么知道天气情况到底是什么样子的呢

太多太多的原因了对吧

这就是我们永远要面对的 我们有太多的混淆变量

任何的因果关系

即使说我现在做了相对科学的证明

我画了两张图了画了四个箱子 看箱线图

我可能还是不是很能确定

我们所认为的那个原因就百分之百是它真实的原因

所以这是要 第二个原则要记住的

我们希望能够体现因果

体现机制

但其实我们知道 体现因果和机制是一个很困难的过程

我们也要努力地尝试 怎么尝试 通过画图的方式

越来越 一步一步的接近真实

这是第二条特性

第三个原则

第三个原则叫做展现多元数据

多元数据 就是说我们

生活的世界 真实世界是多元的对吧

我们经常说这句话 但从来没有从一个统计的角度去理解
生活的世界 真实世界是多元的对吧

我们经常说这句话 但从来没有从一个统计的角度去理解

多元的意思是说影响一件事情的变量会有好多好多

那 我们这里又有一个小例子

你现在看到的这张图

是一个 很简单的散点图

这张散点图呢 代表的是美国

美国纽约

从1987年到2000年的

每天的PM10的浓度和死亡数之间的关系

很显然 我想证明一件事

我想看看是不是空气越不好越容易死哈

然后 通过这张图我们看到了一群点

实际上 图已经给了我们一个趋势线了

这条趋势线实际上是我们后面要学的回归直线

我们现在就不再具体地说这条线是怎么算出来的

但是这条趋势线实际上是告诉我们一个

我们很不情愿看到的趋势

发现随着PM10浓度的增加

死亡数量是减少了的

这和我们正常的

人的常识 是有悖的

我们发现尤其是

还有一个数是当 PM10的浓度超过80以后

日的死亡数减少到比150还要少

然后 很奇怪 大家觉得这个和常理不符

于是乎 我们就想这是为什么呢

那每到这种时候你就要想

是不是外面有一个更大的劲儿同时影响这两个因素

PM10空气中可吸入颗粒物的浓度

然后死亡率

有没有什么东西同时影响着这两件事呢

我们可以猜到有一件事

季节

我不知道大家清楚不清楚

实际上季节和死亡率之间有着特别明显的关系

这件事已经被好多好多的研究 用科学的方法很系统的证实了

那我们看看 你们现在看到这张图

代表的是从1987年到1991年

随着时间的推移 死亡数量的变化

然后你会看到

四个特别清楚的U型的趋势

U型的趋势谷底代表的就是夏季

发现 人一到夏季死亡的数量明显减少

然后到冬季 尤其是12月和1月2月这个阶段

可能1月是个高峰

这个 死亡数特别高

最高的时候 有时候都高过了

每天在纽约市会死300个人以上
最高的时候 有时候都高过了

每天在纽约市会死300个人以上

这个具体的科学原因我们就不去总结了

但是我们从统计人员的角度我们看到了数据

数据告诉我们一件事

就是 季节显然和死亡数是有关系的

是不是因果关系 我们这里绝对不敢说

每次都在说我们看到的是一个相关性

可能有外面一个大力影响

也可能确实是因为季节影响的死亡数
可能有外面一个大力影响

也可能确实是因为季节影响的死亡数

我们不去过多的做评论 但起码这个关系是被我们观察到了

那同样我想知道

季节与PM10浓度有没有关系呢

作为生活在中国的人一定会知道这和季节有着很大的关系

我们可以看到下面这张图

同样 也是看到了随着时间的推移PM10浓度的变化

可能没有死亡数那个很大的U型那么清楚

实际上 你仔细看也是一个呈波纹状的 有很多小波峰波谷

然后这个波峰

和之前的那个波谷

刚好是重合的

我们就拿冬季举例

冬季的时候 PM10的浓度是最低的

然后死亡数又是最高的

那现在问题是

这个事儿对谁的影响 劲儿最大

那下面我们回到我们说要展现多元数据了

我现在发现不光是死亡和空气的质量有关系

另外有一个很重要因素是季节

那现在我们就需要把季节拉进来

看到一个更具体的图

下面你看到的这张图就是按季节划分的

原来我有一大团点 现在我分成了四个子图

第一个图代表是冬季的死亡数和空气质量的关系

这就是我们希望看到 我们发现这是一个正向的关系

而且这群点呢 死亡数比较多

然后 春天

类似 我们也看到了一个增加的趋势

以此类推 你看只是把季节进行一个切分

我们就看到了和常识更加吻合的正向的关系

我们发现PM10的浓度和死亡数是正相关的

这也就是展示多元数据

当然这里面只是提供了展示多元数据众多原因中的一个原因

我们还有很多的原因告诉我们展示多元数据是有利的

后面随着我们学习的进展 你们会看到更多更多的例子

这是关于展示多元数据第三条原则

第四条原则叫做整合证据

这条原则我不用很详细的证明 其实很短

它说的意思就是说我们要动用所有可以动用的手段

去展示数据

我们通常意义上讲画图

你可能想画点小点儿 画一个趋势线 一条直线 再画点阴影可能就够了
我们通常意义上讲画图

你可能想画点小点儿 画一个趋势线 一条直线 再画点阴影可能就够了

现在告诉你说科技发达了

你可能不光是要画点线 你要往里加上文字的说明

你有的时候可能还要加入一些其他的图片之类的来说明

说明你想讲的一个故事

然后

送给大家一句话

就是有些同学呢跟我论证的时候就说

软件上能够提供这种图

我就只能做到这了

其实一定是不要满足软件所能提供的

我们应该更加灵活的选择各种可行的方法

来整合所有能够讲出好故事的有价值的资源

然后 这也是R语言的强大之处
来整合所有能够讲出好故事的有价值的资源

然后 这也是R语言的强大之处

后面我们会讲到R语言可以整合很多很多的资源

然后 能够更好的给我们带来有价值的信息

第五个原则叫做描述并记录数据

有些同学

一讲到记录数据就睡觉 就觉得这好像也没什么特别高深的问题

我要说

这是我这几年来和大家合作时候

尤其是合作做定量研究的时候发现的特别重要的一个问题
这是我这几年来和大家合作时候

尤其是合作做定量研究的时候发现的特别重要的一个问题

随着数据量变大 我们研究的问题变得越来越复杂

很多情况下我们并不能一个人完成所有的工作

即使是你自己一个人在完成所有工作

可能上周你做的事情 这周你也不记得了

所以 一定要好好的备份你的数据

好好的备份你做过的所有编程的语言

那些语句都要好好的保存下来

有一个原则 基本原则是

在没有讲解的情况下

如果你画了一个图形

这个图形自身就应该能讲述出一个完整的故事

当然 有同学会说

你要这么精确的图形表达

那是最终成品的时候要遵循的原则
你要这么精确的图形表达

那是最终成品的时候要遵循的原则

不是描述统计要进行的原则

我们之前说 进行描述统计的时候就好像一个粗剪

在这个过程中呢

你需要用这个半成品拿给人看

让大家做出更好的决定

那也是要进行交流的 对吧

所以你最后底线

需要让你的同事让你的导师在最短的时间内读懂你想说的故事

这是关于数据的描述还有证据的记录

最后一个原则

原书给了三个惊叹号

叫content content content
原书给了三个惊叹号

叫content content content

内容至上

我相信我们同学中有好多好多的技术党

计算机技能无比强大

我讲完R你可能很快就比我厉害一百倍

然后能画出无比高级特别fancy的一些图形

但是 我这里面要强调啊

就是 不管你的图形多么高级 多么多的维度
但是 我这里面要强调啊

就是 不管你的图形多么高级 多么多的维度

你一定要强调与你研究问题的相关性

首先 你要有一个好的问题

其次 你要看我做的这件事情

对于解释我的问题 或者是支持反对我的问题到底有没有关系

你要有一个比较好的连贯性完整性

然后 最主要的是

要提出一个有力的研究问题 并且找到支持这个假说的证据
然后 最主要的是

要提出一个有力的研究问题 并且找到支持这个假说的证据

我很喜欢一句话

这个书上的原话我就不很蹩脚的用中文翻译出来了

恩 原话送给你们 它说

No amount of visualization magic or bells and whistles can make poor data
恩 原话送给你们 它说

No amount of visualization magic or bells and whistles can make poor data

or more importantly

a poorly formed question shine with clarity

这是 一定要跟大家分享的一句话

我觉得说的太棒了

然后还有我在听Reger pong课的时候他对

他对数据收集的时候
然后还有我在听Reger pong课的时候他对

他对数据收集的时候

对数据分析的时候对内容的强调

他写了一句话 他说要送给大家

我这里也再送给你们

他说

Starting with g good question

developing a sound approach

and only presenting information that is necessary for answering that question

is essential to every data graphic

那也作为我们讲这个描述性统计分析

探索性统计分析时候原则的结束语

从一个好的问题开始

设计一个合理的方法

只展示回答问题所需要的信息

是每个数据制图过程的根本

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。