当前课程知识点:基于R语言的社会统计分析 > 第三章:基于R语言的探索性数据分析 > 3.2 EDA的制图原则 > Video
然后我们前面说说EDA
最大的
卖点是它的visualization method它强大的可视化功能
那我们现在就说说用
EDA的这个思路画图的时候我们需要遵循的基本原则
有一本书非常有名它是
Edward Tufte有一本书非常有名它是
Edward Tufte
叫做爱德华塔夫特他有一个著作叫做BEAUTIFUL EVIDENCE
美丽的证据
这本书呢它探讨了
怎么样把我们收集到的数据转化为证据
怎么样呢制作可以
提供有效信息的特别有力特别有效的
图形它在这个
这本书里面提出了制图的六个基本原则
当然这六个基本原则呢可能针对的是产生最终的图形报告
时候你应该
遵循的一些原则但是我们认为
在进行探索性数据分析的时候你也应该
有一些基本原则对你做一些指导那这六条基本原则呢
我觉得总结得太棒了所以拿过来给大家
分享一下那
首先让我们来看一个例子啊
我们第一条原则
叫做体现比较
我们第一条原则叫show comparison
它说呢体现比较实际上
不用他说我们也知道体现比较实际上是
好的科学研究的基础
就你做科学研究的时候实际上不经意间都在做比较
我们上高中的时候
都上过物理课
上物理课的时候就学过参照系
说参照系很重要因为它提供了一个基准对吧
所以每次我们
给一个科学假设的时候
实际上我们的潜台词是
相对于另一个竞争假设而言
这个假设是真还是假是不是一个伪命题
那当你在说
证据倾向于假设
A的时候你的潜台词
实际上是说相对于假设B
和假设B相比
我手头得到的证据更加倾向于假设A
这个思路在我们后面
讲假设检验的时候你们也会
逐渐就是体会这个
两个假设间对比的概念
我们经常有一个原假设有一个备择假设
我们总要让两个假设打架看看证据更倾向于谁
那一个好的科学家
在面对一个科学结论和科学陈述的时候
经常会问到的一个问题就是和什么相比
compare to what
那我们构建数据图形的时候同样也应该
遵循这个原则你至少应该在比较
两件事
那我们看一下下面这个例子啊
这个例子是
发表在美国非常有名的医学杂志
JAMA上的叫做The Journal Of the American Medical Association
这本杂志上
发表了很多很多健康影响因素的文章
那这是一篇2011年
由Johns Hopkins大学的一个团队做的研究
题目超级长啊
你们有兴趣的话可以按照这个题目去找到这篇文章看看这个研究
它的题目叫做A randomized trial of air cleaners and a health coach to improve
indoor air quality for inner-city children with asthma and secondhand smoke exposure
这里面有几个关键词啊我们一看我们现在
中国观众
最关注的问题就是空气质量
所以这里面有室内空气质量
然后还有儿童的健康的问题就是
它关注的是哮喘患儿而且这些患儿呢还是和
吸烟者共同居住的一些倒霉的儿童
他们进行的这项研究呢
是为了
对哮喘患儿进行健康干预
他们的研究对象
刚才说了是与吸烟者同居的哮喘患儿
那每个儿童会分别在基线还有六个月后接受健康评估
我们的研究最终目的是通过干预
增加
儿童六个月内的无症状日的数量
无症状日也就是说
在实际上这个
具体的定义是在两周内
没有哮喘症状的日子
如果说你的干预是成功的
你希望
儿童尽少犯病我们希望无症状的日子
越多越好
你越没有症状说明这个健康越良好
所以整个我们期望看到的
这个结果变量最好是一个正数越大越好
那我们现在看到的这张图
它实际上展示了
就是在使用了空气净化器以后
有哮喘的儿童无症状天数改变的情况
那我们现在实际上是有一个干预的动作了
如果回应到我们第一节课讲到的实验设计的理论我们说
实验的精髓就是有干预
那我们这里面的干预就是加了个空气净化器
那加了空气净化器以后我们可以看到这张图啊
就是
John Tukey发明的箱线图
这个箱线图你们可以看到
中间那条黑线代表的是中位数
中位数等于一
说明无症状日增加了一天
可能看起来没有太厉害啊但起码是有增加的
然后如果再回忆一下箱线图的话你们可以看到有三个异常值
有两个儿童好像
加了空气净化器就特别厉害了
无症状日的数量增加了十几天
然后有一个儿童呢是无症状日减少了十几天
这些都是比较异常的数值
那在
回忆一下这个箱子的下限和上限
也就是它的第一四分位数等于零第三四分位数这里是等于
三
这是这张图告诉我们的
然后下面我们的问题是
一共有四十一个儿童
受到了空气净化器的干预
那
我们看到箱线图显示无症状数量改变的中位数是一
可以得出结论说空气净化器奏效了吗
我们一般就是
不想科学论证的过程我们会说当然了你这个
无症状日的数量增多了空气净化器显然奏效了
那如果是更严谨的一个推导实际上我们需要
问的下一个问题想必你们已经猜到了和什么相比
从基线
到六个月以后半年的时间
半年的时间发生了好多好多的事
无症状日的数量可增可减
是空气净化器对它产生的效果
还是因为其它的一些混淆的因素产生的效果我们是不知道的
所以这里面我们特别需要一个控制组
就是说我现在加了空气净化器你说改变了一天那如果不加呢
有没有什么其它的结果啊
我们来看看下面一张图
下面左边一个箱子代表的是控制组就是
这几个儿童虽然也进入了研究但是我们狠心的没有给他们加空气净化器
然后另外呢有空气净化器的那组
你们可以看到趋势是很不一样的
没有空气净化器的那一组
他们无症状日的均值并没有改变
中位数在零
那这就给我们增加了很多的信心了就是我们相信可能空气净化器
确实发挥作用了让无症状日的数量增加了
这是我们说的画图你看
只是一个小图就让我们有了更多的信心证明确实
是我们做到的那个干预那件事情起作用做到了
这是我们说的第一个原则
第二条原则也非常重要
叫做体现因果
机制
解释还有系统结构
后面什么机制啊解释啊你们可能比较难理解
我们可以简化成我想知道为什么
体现因果关系
我们第一节课就讲了
解释因果关系好像比登天还难就是说我们可以一直在靠近真实的原因
但其实
一般情况下即使是你一个经过
很深思熟虑特别精密设计收集来的数据
你也不能百分之百的确定我成功的证明了它就是原因
但是这并不是说明说很难证明
一件事情是导致另一件事情原因我们就不去证明了
我们要无所不用其极的想办法去贴近真实
所以我们画图的时候也要不断地去找这个原因
那前面我们体现比较的时候已经说了我的干预组和
控制组的区别在于是不是加了一个空气净化器
那爱问问题的人又会问了说
这又告诉我们什么了
为什么加了空气净化器以后
儿童的健康状况就有所改善了
那为什么呢
实际上背后的假设我们
再熟悉不过这个假设了我们认为空气净化器可以净化空气
可以减少空气中悬浮颗粒
对吧那你现在
也不能就是说
这个我们这门课讲的事情都是所有的科学过程都不是信口胡来的
我不能说我觉得空气净化器
可以减少空气中的悬浮物
颗粒这就是你的结论你要用科学的方法去证明它
怎么证明呢
那我就来测测
有没有空气净化器
空气中空气悬浮颗粒的数量有没有改变
对吧这很直接的方法那
我们研究中的儿童和吸烟者是共同居住的
所以既然屋里有吸烟者那就说明空气中的
悬浮颗粒的水平应该很高而且主要来自二手烟
同时我们还有一个论点啊因为吸入颗粒
物可能加重哮喘症状的论点
这个论点已经被很好的证明了
所以我们有理由认为减少
颗粒物可以改善症状的 假设是有理由成立的
所以我们有理由认为减少
颗粒物可以改善症状的 假设是有理由成立的
那下面我们再看这张图
这张图呢比刚才那张图
增加了
六个月前和六个月后空气中PM2.5浓度的变化
你可以看到对于没有加空气净化器的那一组
PM2.5的浓度的中位数实际上是增加了
然后 加了空气净化器如我们所料
即使是它的高的那个第三四分位数
也是小于零的
说明空气中
可吸入颗粒物的浓度确实是减少了
这就和我们猜想的那个因果 起码从图中看出来
可吸入颗粒物的浓度确实是减少了
这就和我们猜想的那个因果 起码从图中看出来
是一致的
那 再回到那个问题 我们现在可以说
空气净化器确实是原因了吗
或者说 空气净化器确实能够减少空气中可悬浮颗粒物了吗
那 你要是较真的同学可能又要说了
我怎么知道天气情况到底是什么样子的呢
那 你要是较真的同学可能又要说了
我怎么知道天气情况到底是什么样子的呢
太多太多的原因了对吧
这就是我们永远要面对的 我们有太多的混淆变量
任何的因果关系
即使说我现在做了相对科学的证明
我画了两张图了画了四个箱子 看箱线图
我可能还是不是很能确定
我们所认为的那个原因就百分之百是它真实的原因
所以这是要 第二个原则要记住的
我们希望能够体现因果
体现机制
但其实我们知道 体现因果和机制是一个很困难的过程
我们也要努力地尝试 怎么尝试 通过画图的方式
越来越 一步一步的接近真实
这是第二条特性
第三个原则
第三个原则叫做展现多元数据
多元数据 就是说我们
生活的世界 真实世界是多元的对吧
我们经常说这句话 但从来没有从一个统计的角度去理解
生活的世界 真实世界是多元的对吧
我们经常说这句话 但从来没有从一个统计的角度去理解
多元的意思是说影响一件事情的变量会有好多好多
那 我们这里又有一个小例子
你现在看到的这张图
是一个 很简单的散点图
这张散点图呢 代表的是美国
美国纽约
从1987年到2000年的
每天的PM10的浓度和死亡数之间的关系
很显然 我想证明一件事
我想看看是不是空气越不好越容易死哈
然后 通过这张图我们看到了一群点
实际上 图已经给了我们一个趋势线了
这条趋势线实际上是我们后面要学的回归直线
我们现在就不再具体地说这条线是怎么算出来的
但是这条趋势线实际上是告诉我们一个
我们很不情愿看到的趋势
发现随着PM10浓度的增加
死亡数量是减少了的
这和我们正常的
人的常识 是有悖的
我们发现尤其是
还有一个数是当 PM10的浓度超过80以后
日的死亡数减少到比150还要少
然后 很奇怪 大家觉得这个和常理不符
于是乎 我们就想这是为什么呢
那每到这种时候你就要想
是不是外面有一个更大的劲儿同时影响这两个因素
PM10空气中可吸入颗粒物的浓度
然后死亡率
有没有什么东西同时影响着这两件事呢
我们可以猜到有一件事
季节
我不知道大家清楚不清楚
实际上季节和死亡率之间有着特别明显的关系
这件事已经被好多好多的研究 用科学的方法很系统的证实了
那我们看看 你们现在看到这张图
代表的是从1987年到1991年
随着时间的推移 死亡数量的变化
然后你会看到
四个特别清楚的U型的趋势
U型的趋势谷底代表的就是夏季
发现 人一到夏季死亡的数量明显减少
然后到冬季 尤其是12月和1月2月这个阶段
可能1月是个高峰
这个 死亡数特别高
最高的时候 有时候都高过了
每天在纽约市会死300个人以上
最高的时候 有时候都高过了
每天在纽约市会死300个人以上
这个具体的科学原因我们就不去总结了
但是我们从统计人员的角度我们看到了数据
数据告诉我们一件事
就是 季节显然和死亡数是有关系的
是不是因果关系 我们这里绝对不敢说
每次都在说我们看到的是一个相关性
可能有外面一个大力影响
也可能确实是因为季节影响的死亡数
可能有外面一个大力影响
也可能确实是因为季节影响的死亡数
我们不去过多的做评论 但起码这个关系是被我们观察到了
那同样我想知道
季节与PM10浓度有没有关系呢
作为生活在中国的人一定会知道这和季节有着很大的关系
我们可以看到下面这张图
同样 也是看到了随着时间的推移PM10浓度的变化
可能没有死亡数那个很大的U型那么清楚
实际上 你仔细看也是一个呈波纹状的 有很多小波峰波谷
然后这个波峰
和之前的那个波谷
刚好是重合的
我们就拿冬季举例
冬季的时候 PM10的浓度是最低的
然后死亡数又是最高的
那现在问题是
这个事儿对谁的影响 劲儿最大
那下面我们回到我们说要展现多元数据了
我现在发现不光是死亡和空气的质量有关系
另外有一个很重要因素是季节
那现在我们就需要把季节拉进来
看到一个更具体的图
下面你看到的这张图就是按季节划分的
原来我有一大团点 现在我分成了四个子图
第一个图代表是冬季的死亡数和空气质量的关系
这就是我们希望看到 我们发现这是一个正向的关系
而且这群点呢 死亡数比较多
然后 春天
类似 我们也看到了一个增加的趋势
以此类推 你看只是把季节进行一个切分
我们就看到了和常识更加吻合的正向的关系
我们发现PM10的浓度和死亡数是正相关的
这也就是展示多元数据
当然这里面只是提供了展示多元数据众多原因中的一个原因
我们还有很多的原因告诉我们展示多元数据是有利的
后面随着我们学习的进展 你们会看到更多更多的例子
这是关于展示多元数据第三条原则
第四条原则叫做整合证据
这条原则我不用很详细的证明 其实很短
它说的意思就是说我们要动用所有可以动用的手段
去展示数据
我们通常意义上讲画图
你可能想画点小点儿 画一个趋势线 一条直线 再画点阴影可能就够了
我们通常意义上讲画图
你可能想画点小点儿 画一个趋势线 一条直线 再画点阴影可能就够了
现在告诉你说科技发达了
你可能不光是要画点线 你要往里加上文字的说明
你有的时候可能还要加入一些其他的图片之类的来说明
说明你想讲的一个故事
然后
送给大家一句话
就是有些同学呢跟我论证的时候就说
软件上能够提供这种图
我就只能做到这了
其实一定是不要满足软件所能提供的
我们应该更加灵活的选择各种可行的方法
来整合所有能够讲出好故事的有价值的资源
然后 这也是R语言的强大之处
来整合所有能够讲出好故事的有价值的资源
然后 这也是R语言的强大之处
后面我们会讲到R语言可以整合很多很多的资源
然后 能够更好的给我们带来有价值的信息
第五个原则叫做描述并记录数据
有些同学
一讲到记录数据就睡觉 就觉得这好像也没什么特别高深的问题
我要说
这是我这几年来和大家合作时候
尤其是合作做定量研究的时候发现的特别重要的一个问题
这是我这几年来和大家合作时候
尤其是合作做定量研究的时候发现的特别重要的一个问题
随着数据量变大 我们研究的问题变得越来越复杂
很多情况下我们并不能一个人完成所有的工作
即使是你自己一个人在完成所有工作
可能上周你做的事情 这周你也不记得了
所以 一定要好好的备份你的数据
好好的备份你做过的所有编程的语言
那些语句都要好好的保存下来
有一个原则 基本原则是
在没有讲解的情况下
如果你画了一个图形
这个图形自身就应该能讲述出一个完整的故事
当然 有同学会说
你要这么精确的图形表达
那是最终成品的时候要遵循的原则
你要这么精确的图形表达
那是最终成品的时候要遵循的原则
不是描述统计要进行的原则
我们之前说 进行描述统计的时候就好像一个粗剪
在这个过程中呢
你需要用这个半成品拿给人看
让大家做出更好的决定
那也是要进行交流的 对吧
所以你最后底线
需要让你的同事让你的导师在最短的时间内读懂你想说的故事
这是关于数据的描述还有证据的记录
最后一个原则
原书给了三个惊叹号
叫content content content
原书给了三个惊叹号
叫content content content
内容至上
我相信我们同学中有好多好多的技术党
计算机技能无比强大
我讲完R你可能很快就比我厉害一百倍
然后能画出无比高级特别fancy的一些图形
但是 我这里面要强调啊
就是 不管你的图形多么高级 多么多的维度
但是 我这里面要强调啊
就是 不管你的图形多么高级 多么多的维度
你一定要强调与你研究问题的相关性
首先 你要有一个好的问题
其次 你要看我做的这件事情
对于解释我的问题 或者是支持反对我的问题到底有没有关系
你要有一个比较好的连贯性完整性
然后 最主要的是
要提出一个有力的研究问题 并且找到支持这个假说的证据
然后 最主要的是
要提出一个有力的研究问题 并且找到支持这个假说的证据
我很喜欢一句话
这个书上的原话我就不很蹩脚的用中文翻译出来了
恩 原话送给你们 它说
No amount of visualization magic or bells and whistles can make poor data
恩 原话送给你们 它说
No amount of visualization magic or bells and whistles can make poor data
or more importantly
a poorly formed question shine with clarity
这是 一定要跟大家分享的一句话
我觉得说的太棒了
然后还有我在听Reger pong课的时候他对
他对数据收集的时候
然后还有我在听Reger pong课的时候他对
他对数据收集的时候
对数据分析的时候对内容的强调
他写了一句话 他说要送给大家
我这里也再送给你们
他说
Starting with g good question
developing a sound approach
and only presenting information that is necessary for answering that question
is essential to every data graphic
那也作为我们讲这个描述性统计分析
探索性统计分析时候原则的结束语
从一个好的问题开始
设计一个合理的方法
只展示回答问题所需要的信息
是每个数据制图过程的根本
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video