Video慕课视频播放-基于R语言的社会统计分析-MOOC慕课视频教程-柠檬大学

然后我们前面说说EDA

最大的

卖点是它的visualization method它强大的可视化功能

那我们现在就说说用

EDA的这个思路画图的时候我们需要遵循的基本原则

有一本书非常有名它是

Edward Tufte有一本书非常有名它是

Edward Tufte

叫做爱德华塔夫特他有一个著作叫做BEAUTIFUL EVIDENCE

美丽的证据

这本书呢它探讨了

怎么样把我们收集到的数据转化为证据

怎么样呢制作可以

提供有效信息的特别有力特别有效的

图形它在这个

这本书里面提出了制图的六个基本原则

当然这六个基本原则呢可能针对的是产生最终的图形报告

时候你应该

遵循的一些原则但是我们认为

在进行探索性数据分析的时候你也应该

有一些基本原则对你做一些指导那这六条基本原则呢

我觉得总结得太棒了所以拿过来给大家

分享一下那

首先让我们来看一个例子啊

我们第一条原则

叫做体现比较

我们第一条原则叫show comparison

它说呢体现比较实际上

不用他说我们也知道体现比较实际上是

好的科学研究的基础

就你做科学研究的时候实际上不经意间都在做比较

我们上高中的时候

都上过物理课

上物理课的时候就学过参照系

说参照系很重要因为它提供了一个基准对吧

所以每次我们

给一个科学假设的时候

实际上我们的潜台词是

相对于另一个竞争假设而言

这个假设是真还是假是不是一个伪命题

那当你在说

证据倾向于假设

A的时候你的潜台词

实际上是说相对于假设B

和假设B相比

我手头得到的证据更加倾向于假设A

这个思路在我们后面

讲假设检验的时候你们也会

逐渐就是体会这个

两个假设间对比的概念

我们经常有一个原假设有一个备择假设

我们总要让两个假设打架看看证据更倾向于谁

那一个好的科学家

在面对一个科学结论和科学陈述的时候

经常会问到的一个问题就是和什么相比

compare to what

那我们构建数据图形的时候同样也应该

遵循这个原则你至少应该在比较

两件事

那我们看一下下面这个例子啊

这个例子是

发表在美国非常有名的医学杂志

JAMA上的叫做The Journal Of the American Medical Association

这本杂志上

发表了很多很多健康影响因素的文章

那这是一篇2011年

由Johns Hopkins大学的一个团队做的研究

题目超级长啊

你们有兴趣的话可以按照这个题目去找到这篇文章看看这个研究

它的题目叫做A randomized trial of air cleaners and a health coach to improve

indoor air quality for inner-city children with asthma and secondhand smoke exposure

这里面有几个关键词啊我们一看我们现在

中国观众

最关注的问题就是空气质量

所以这里面有室内空气质量

然后还有儿童的健康的问题就是

它关注的是哮喘患儿而且这些患儿呢还是和

吸烟者共同居住的一些倒霉的儿童

他们进行的这项研究呢

是为了

对哮喘患儿进行健康干预

他们的研究对象

刚才说了是与吸烟者同居的哮喘患儿

那每个儿童会分别在基线还有六个月后接受健康评估

我们的研究最终目的是通过干预

增加

儿童六个月内的无症状日的数量

无症状日也就是说

在实际上这个

具体的定义是在两周内

没有哮喘症状的日子

如果说你的干预是成功的

你希望

儿童尽少犯病我们希望无症状的日子

越多越好

你越没有症状说明这个健康越良好

所以整个我们期望看到的

这个结果变量最好是一个正数越大越好

那我们现在看到的这张图

它实际上展示了

就是在使用了空气净化器以后

有哮喘的儿童无症状天数改变的情况

那我们现在实际上是有一个干预的动作了

如果回应到我们第一节课讲到的实验设计的理论我们说

实验的精髓就是有干预

那我们这里面的干预就是加了个空气净化器

那加了空气净化器以后我们可以看到这张图啊

就是

John Tukey发明的箱线图

这个箱线图你们可以看到

中间那条黑线代表的是中位数

中位数等于一

说明无症状日增加了一天

可能看起来没有太厉害啊但起码是有增加的

然后如果再回忆一下箱线图的话你们可以看到有三个异常值

有两个儿童好像

加了空气净化器就特别厉害了

无症状日的数量增加了十几天

然后有一个儿童呢是无症状日减少了十几天

这些都是比较异常的数值

那在

回忆一下这个箱子的下限和上限

也就是它的第一四分位数等于零第三四分位数这里是等于

三

这是这张图告诉我们的

然后下面我们的问题是

一共有四十一个儿童

受到了空气净化器的干预

那

我们看到箱线图显示无症状数量改变的中位数是一

可以得出结论说空气净化器奏效了吗

我们一般就是

不想科学论证的过程我们会说当然了你这个

无症状日的数量增多了空气净化器显然奏效了

那如果是更严谨的一个推导实际上我们需要

问的下一个问题想必你们已经猜到了和什么相比

从基线

到六个月以后半年的时间

半年的时间发生了好多好多的事

无症状日的数量可增可减

是空气净化器对它产生的效果

还是因为其它的一些混淆的因素产生的效果我们是不知道的

所以这里面我们特别需要一个控制组

就是说我现在加了空气净化器你说改变了一天那如果不加呢

有没有什么其它的结果啊

我们来看看下面一张图

下面左边一个箱子代表的是控制组就是

这几个儿童虽然也进入了研究但是我们狠心的没有给他们加空气净化器

然后另外呢有空气净化器的那组

你们可以看到趋势是很不一样的

没有空气净化器的那一组

他们无症状日的均值并没有改变

中位数在零

那这就给我们增加了很多的信心了就是我们相信可能空气净化器

确实发挥作用了让无症状日的数量增加了

这是我们说的画图你看

只是一个小图就让我们有了更多的信心证明确实

是我们做到的那个干预那件事情起作用做到了

这是我们说的第一个原则

第二条原则也非常重要

叫做体现因果

机制

解释还有系统结构

后面什么机制啊解释啊你们可能比较难理解

我们可以简化成我想知道为什么

体现因果关系

我们第一节课就讲了

解释因果关系好像比登天还难就是说我们可以一直在靠近真实的原因

但其实

一般情况下即使是你一个经过

很深思熟虑特别精密设计收集来的数据

你也不能百分之百的确定我成功的证明了它就是原因

但是这并不是说明说很难证明

一件事情是导致另一件事情原因我们就不去证明了

我们要无所不用其极的想办法去贴近真实

所以我们画图的时候也要不断地去找这个原因

那前面我们体现比较的时候已经说了我的干预组和

控制组的区别在于是不是加了一个空气净化器

那爱问问题的人又会问了说

这又告诉我们什么了

为什么加了空气净化器以后

儿童的健康状况就有所改善了

那为什么呢

实际上背后的假设我们

再熟悉不过这个假设了我们认为空气净化器可以净化空气

可以减少空气中悬浮颗粒

对吧那你现在

也不能就是说

这个我们这门课讲的事情都是所有的科学过程都不是信口胡来的

我不能说我觉得空气净化器

可以减少空气中的悬浮物

颗粒这就是你的结论你要用科学的方法去证明它

怎么证明呢

那我就来测测

有没有空气净化器

空气中空气悬浮颗粒的数量有没有改变

对吧这很直接的方法那

我们研究中的儿童和吸烟者是共同居住的

所以既然屋里有吸烟者那就说明空气中的

悬浮颗粒的水平应该很高而且主要来自二手烟

同时我们还有一个论点啊因为吸入颗粒

物可能加重哮喘症状的论点

这个论点已经被很好的证明了

所以我们有理由认为减少

颗粒物可以改善症状的假设是有理由成立的
所以我们有理由认为减少

颗粒物可以改善症状的假设是有理由成立的

那下面我们再看这张图

这张图呢比刚才那张图

增加了

六个月前和六个月后空气中PM2.5浓度的变化

你可以看到对于没有加空气净化器的那一组

PM2.5的浓度的中位数实际上是增加了

然后加了空气净化器如我们所料

即使是它的高的那个第三四分位数

也是小于零的

说明空气中

可吸入颗粒物的浓度确实是减少了

这就和我们猜想的那个因果起码从图中看出来
可吸入颗粒物的浓度确实是减少了

这就和我们猜想的那个因果起码从图中看出来

是一致的

那再回到那个问题我们现在可以说

空气净化器确实是原因了吗

或者说空气净化器确实能够减少空气中可悬浮颗粒物了吗

那你要是较真的同学可能又要说了

我怎么知道天气情况到底是什么样子的呢
那你要是较真的同学可能又要说了

我怎么知道天气情况到底是什么样子的呢

太多太多的原因了对吧

这就是我们永远要面对的我们有太多的混淆变量

任何的因果关系

即使说我现在做了相对科学的证明

我画了两张图了画了四个箱子看箱线图

我可能还是不是很能确定

我们所认为的那个原因就百分之百是它真实的原因

所以这是要第二个原则要记住的

我们希望能够体现因果

体现机制

但其实我们知道体现因果和机制是一个很困难的过程

我们也要努力地尝试怎么尝试通过画图的方式

越来越一步一步的接近真实

这是第二条特性

第三个原则

第三个原则叫做展现多元数据

多元数据就是说我们

生活的世界真实世界是多元的对吧

我们经常说这句话但从来没有从一个统计的角度去理解
生活的世界真实世界是多元的对吧

我们经常说这句话但从来没有从一个统计的角度去理解

多元的意思是说影响一件事情的变量会有好多好多

那我们这里又有一个小例子

你现在看到的这张图

是一个很简单的散点图

这张散点图呢代表的是美国

美国纽约

从1987年到2000年的

每天的PM10的浓度和死亡数之间的关系

很显然我想证明一件事

我想看看是不是空气越不好越容易死哈

然后通过这张图我们看到了一群点

实际上图已经给了我们一个趋势线了

这条趋势线实际上是我们后面要学的回归直线

我们现在就不再具体地说这条线是怎么算出来的

但是这条趋势线实际上是告诉我们一个

我们很不情愿看到的趋势

发现随着PM10浓度的增加

死亡数量是减少了的

这和我们正常的

人的常识是有悖的

我们发现尤其是

还有一个数是当 PM10的浓度超过80以后

日的死亡数减少到比150还要少

然后很奇怪大家觉得这个和常理不符

于是乎我们就想这是为什么呢

那每到这种时候你就要想

是不是外面有一个更大的劲儿同时影响这两个因素

PM10空气中可吸入颗粒物的浓度

然后死亡率

有没有什么东西同时影响着这两件事呢

我们可以猜到有一件事

季节

我不知道大家清楚不清楚

实际上季节和死亡率之间有着特别明显的关系

这件事已经被好多好多的研究用科学的方法很系统的证实了

那我们看看你们现在看到这张图

代表的是从1987年到1991年

随着时间的推移死亡数量的变化

然后你会看到

四个特别清楚的U型的趋势

U型的趋势谷底代表的就是夏季

发现人一到夏季死亡的数量明显减少

然后到冬季尤其是12月和1月2月这个阶段

可能1月是个高峰

这个死亡数特别高

最高的时候有时候都高过了

每天在纽约市会死300个人以上
最高的时候有时候都高过了

每天在纽约市会死300个人以上

这个具体的科学原因我们就不去总结了

但是我们从统计人员的角度我们看到了数据

数据告诉我们一件事

就是季节显然和死亡数是有关系的

是不是因果关系我们这里绝对不敢说

每次都在说我们看到的是一个相关性

可能有外面一个大力影响

也可能确实是因为季节影响的死亡数
可能有外面一个大力影响

也可能确实是因为季节影响的死亡数

我们不去过多的做评论但起码这个关系是被我们观察到了

那同样我想知道

季节与PM10浓度有没有关系呢

作为生活在中国的人一定会知道这和季节有着很大的关系

我们可以看到下面这张图

同样也是看到了随着时间的推移PM10浓度的变化

可能没有死亡数那个很大的U型那么清楚

实际上你仔细看也是一个呈波纹状的有很多小波峰波谷

然后这个波峰

和之前的那个波谷

刚好是重合的

我们就拿冬季举例

冬季的时候 PM10的浓度是最低的

然后死亡数又是最高的

那现在问题是

这个事儿对谁的影响劲儿最大

那下面我们回到我们说要展现多元数据了

我现在发现不光是死亡和空气的质量有关系

另外有一个很重要因素是季节

那现在我们就需要把季节拉进来

看到一个更具体的图

下面你看到的这张图就是按季节划分的

原来我有一大团点现在我分成了四个子图

第一个图代表是冬季的死亡数和空气质量的关系

这就是我们希望看到我们发现这是一个正向的关系

而且这群点呢死亡数比较多

然后春天

类似我们也看到了一个增加的趋势

以此类推你看只是把季节进行一个切分

我们就看到了和常识更加吻合的正向的关系

我们发现PM10的浓度和死亡数是正相关的

这也就是展示多元数据

当然这里面只是提供了展示多元数据众多原因中的一个原因

我们还有很多的原因告诉我们展示多元数据是有利的

后面随着我们学习的进展你们会看到更多更多的例子

这是关于展示多元数据第三条原则

第四条原则叫做整合证据

这条原则我不用很详细的证明其实很短

它说的意思就是说我们要动用所有可以动用的手段

去展示数据

我们通常意义上讲画图

你可能想画点小点儿画一个趋势线一条直线再画点阴影可能就够了
我们通常意义上讲画图

你可能想画点小点儿画一个趋势线一条直线再画点阴影可能就够了

现在告诉你说科技发达了

你可能不光是要画点线你要往里加上文字的说明

你有的时候可能还要加入一些其他的图片之类的来说明

说明你想讲的一个故事

然后

送给大家一句话

就是有些同学呢跟我论证的时候就说

软件上能够提供这种图

我就只能做到这了

其实一定是不要满足软件所能提供的

我们应该更加灵活的选择各种可行的方法

来整合所有能够讲出好故事的有价值的资源

然后这也是R语言的强大之处
来整合所有能够讲出好故事的有价值的资源

然后这也是R语言的强大之处

后面我们会讲到R语言可以整合很多很多的资源

然后能够更好的给我们带来有价值的信息

第五个原则叫做描述并记录数据

有些同学

一讲到记录数据就睡觉就觉得这好像也没什么特别高深的问题

我要说

这是我这几年来和大家合作时候

尤其是合作做定量研究的时候发现的特别重要的一个问题
这是我这几年来和大家合作时候

尤其是合作做定量研究的时候发现的特别重要的一个问题

随着数据量变大我们研究的问题变得越来越复杂

很多情况下我们并不能一个人完成所有的工作

即使是你自己一个人在完成所有工作

可能上周你做的事情这周你也不记得了

所以一定要好好的备份你的数据

好好的备份你做过的所有编程的语言

那些语句都要好好的保存下来

有一个原则基本原则是

在没有讲解的情况下

如果你画了一个图形

这个图形自身就应该能讲述出一个完整的故事

当然有同学会说

你要这么精确的图形表达

那是最终成品的时候要遵循的原则
你要这么精确的图形表达

那是最终成品的时候要遵循的原则

不是描述统计要进行的原则

我们之前说进行描述统计的时候就好像一个粗剪

在这个过程中呢

你需要用这个半成品拿给人看

让大家做出更好的决定

那也是要进行交流的对吧

所以你最后底线

需要让你的同事让你的导师在最短的时间内读懂你想说的故事

这是关于数据的描述还有证据的记录

最后一个原则

原书给了三个惊叹号

叫content content content
原书给了三个惊叹号

叫content content content

内容至上

我相信我们同学中有好多好多的技术党

计算机技能无比强大

我讲完R你可能很快就比我厉害一百倍

然后能画出无比高级特别fancy的一些图形

但是我这里面要强调啊

就是不管你的图形多么高级多么多的维度
但是我这里面要强调啊

就是不管你的图形多么高级多么多的维度

你一定要强调与你研究问题的相关性

首先你要有一个好的问题

其次你要看我做的这件事情

对于解释我的问题或者是支持反对我的问题到底有没有关系

你要有一个比较好的连贯性完整性

然后最主要的是

要提出一个有力的研究问题并且找到支持这个假说的证据
然后最主要的是

要提出一个有力的研究问题并且找到支持这个假说的证据

我很喜欢一句话

这个书上的原话我就不很蹩脚的用中文翻译出来了

恩原话送给你们它说

No amount of visualization magic or bells and whistles can make poor data
恩原话送给你们它说

No amount of visualization magic or bells and whistles can make poor data

or more importantly

a poorly formed question shine with clarity

这是一定要跟大家分享的一句话

我觉得说的太棒了

然后还有我在听Reger pong课的时候他对

他对数据收集的时候
然后还有我在听Reger pong课的时候他对

他对数据收集的时候

对数据分析的时候对内容的强调

他写了一句话他说要送给大家

我这里也再送给你们

他说

Starting with g good question

developing a sound approach

and only presenting information that is necessary for answering that question

is essential to every data graphic

那也作为我们讲这个描述性统计分析

探索性统计分析时候原则的结束语

从一个好的问题开始

设计一个合理的方法

只展示回答问题所需要的信息

是每个数据制图过程的根本

基于R语言的社会统计分析课程列表：

第一章：绪论

-1.1 什么是统计学?

-1.2 数据

-1.3 随机化原则

-1.4 数据收集方法

-第一章：绪论--1.5 习题

第二章：描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章：描述统计--2.6 习题

第三章：基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章基于R语言的探索性数据分析

第四章：概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章：概率分布--4.5 习题

-第四章概率分布

第五章：统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章：统计推断 - 估计--5.5 习题

-第五章抽样分布

第六章：统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章：统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章统计推断 - 区间估计

第七章：统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章：统计推断 - 显著性检验--7.6 习题

-第七章统计推断 - 显著性检验

第八章：两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析（选学）

--Video

-第八章：两组比较和多组比较--8.6 习题

第九章：变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章：变量间的关联分析--9.4 习题

-第九章 R Code

第十章：简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章：简单线性回归--10.6 习题

-第十章简单线性回归模型 - 讲义

-第十章 R Code

第十一章：多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章：多元回归--11.5 习题

-第十一章 R Code

-第十一章多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章：统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章： 统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

第七章：统计推断 - 显著性检验