当前课程知识点:基于R语言的社会统计分析 >  第三章:基于R语言的探索性数据分析 >  3.1 探索性数据分析 >  视频3.1

返回《基于R语言的社会统计分析》慕课在线视频课程列表

视频3.1在线视频

视频3.1

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

视频3.1课程教案、知识点、字幕

好第三周我们来讲基于R语言的探索性数据分析

上一讲呢我们讲到了描述统计

然后有同学会问说你为什么就是

讲过描述统计以后又特意来讲一个探索性数据分析

这是因为

就像我们课程介绍里所说啊我们现在进入了大数据时代

有的时候

数据先于假设到来

就说说我们可能还没有一个清楚的

理论假设之前我们

已经获得了好多好多数据

那我们就很希望

这个数据能告诉我们更多的故事

那更具体的呢我们定义一下什么是探索性数据分析

这个分析方法呢英文叫做

Exploratory data analysis

然后它的简写DEA所以有的时候我们后面

偷懒就直接把它简称为EDA了

这个概念是美国的

非常有名的统计学家叫John W. Tukey

在他1977年出版的

同名书籍EXPLORATORY DATA ANALYSIS

中提出的

然后这个人呢你们可能

它并不像其它的那些统计

大咖那样那么火啊

但是上节课其实我们学过箱线图

然后你们可以

对号入座一下这个叫做John tukey的人实际上就是发明箱线图的人

EDA这种方法呢其实对于

统计学家也好还有数据的分析人员来说都是再熟悉不过的概念了

实际上每次我们做一个

量化的数据分析之前都会把

数据进行一番探索

进行一番刨土我们管它叫dig

dig the data

那但是对

初学者而言可能

你非得要我三言两语

很清楚的很清晰的对EDA下一个定义还是比较困难的

我们可能先用一个比喻来

解释它比较清楚啊

这个比喻当然不是我想

出来的我自己有上一门EDA的课程啊也是

网络课程考 的

教这门课程呢是Johns Hopins大学的叫做Roger Peng的一位

统计分析人员一统计学家

然后他

在他的课里面给EDA做了一个比喻他说

你要把整个数据分析的过程想象成一个拍电影的过程

比如说这是一个电影制作者啊

电影制作者在拍电影之前总是需要很多很多的镜头

这么多拍摄过的镜头并不一定都会拿来

在成片中使用

就好比我们这门慕课课程可能我们

前面会拍过很多镜头但最后呈现出来

只是小的一个子集用我们的统计的

术语来讲

那由于演员的时间安排呢或者是一些特殊的原因

很可能我的每个镜头的拍摄顺序

并不是按照剧情的事件进展顺序

发展下来的

另外呢有的时候可能

已经到了拍摄的时候导演也没有想好说某一个镜头

到底应该以怎么样的形式来呈现

所以所有的过程都是一个逐渐探索逐渐摸索的过程

那真正的成片呢可能是

对许多许多条片段在

推敲拿捏之后在剪辑室里面呈现的

那在剪辑室里呢

我们可能会尝试不同的版本

我们试一试哪个对白

听起来更好听哪个笑话更有意思或者是哪个剧情

更有视觉冲击力更有戏剧效果

然后一番决定以后我们可能把

相对粗糙的拼接在一起

成为一个粗剪一个小样啊

我们管它叫rough cut

然后在这个rough cut 的过程之中

可能你还

不用特别具体的去调颜色不用特别具体

去加动画

我们只是为后面进一步的决定做准备提供一个素材

我们所说的探索性数据分析

实际上就是在任何的科学研究中在任何的

数据分析过程中发生在剪辑室里的那些事

英文原文它说这是

the process of making the rough cut a data analysis

对数据分析做粗剪

当然

我们并不是说说探索我就漫无目的的瞎探索

我们还是有一些准则的

就像我们之前说像描述统计的时候我们

看一个数据画图我们想看到的是什么

我们想知道数据的中心在哪

想知道数据的离散程度是什么样子有的时候我们也想知道

某一个新的观测值相对于其他人

整个的总体来说它处于一个什么样位置上

探索性数据分析我们这里简称为EDA啊

EDA呢它有很多的目的我们现在

简单的总结一下它其实有四条最最重要的目的

第一条

我们希望看关系

我们想知道

变量和变量之间

到底有没有我们期待的关系

或者有的时候你甚至会有一些意外的发现

你发现有一些你意想不到的关系也在数据中被表现出来了

这是第一个目的看关系

那第二个呢

我如果说你有假设的话你有一个理论假设

我想看看数据有没有提供

支持这条假设或者是

反对这条假设的证据

第三个目的

我想检验数据收集的时候是不是存在问题

有的时候你可能会发现怎么这么多的缺失值啊

或者是

有的数据单位比如说

算身高的时候有的数据单位是一百七十

然后有的数又是一点七

你就会发现可能数据的录入过程存在问题米和厘米

产生了混淆啊

这也是在探索性数据分析中很重要的一个步骤

是检验数据收集或者是

数据记录数据录入的时候存在的问题

那第四条

还有有的时候你可能发现了一些有意思的问题的

迹象

但是又没有

足够的数据去证明它

这个时候你就会

为未来的研究提供了一些思路

所以

第四个目的是识别可能需要收集

更多数据的研究领域可行的有意思的研究领域

这是我们做EDA探索性数据分析的四个目的

终于到了要下一个定义的时候了

就是在统计学中

EDA是什么 它是指

通过分析数据 来总结数据主要特征的方法

这个定义很大

然后它用到的分析手段主要包括

制图 包括作表
然后它用到的分析手段主要包括

制图 包括作表

还包括计算一些数值型的特征值

当然它最最鲜明的特点是非常强大的可视化方法

visualization我们希望用非常漂亮的图表

能一目了然的把关系体现出来把特征表现出来

那当然这个过程有同学说我要不要统计建模啊

这是一个 可选项

你可以在这个过程做小小的二维三维的模型的初始的探究

也可能根本就不需要进入到统计建模这么一个相对复杂的过程中

那这个EDA的主要目的 实际上

和之前的描述性统计作对比 它最重要的特点是

它希望你能忘掉理论假设

就是在尽量少的假设的条件下
它希望你能忘掉理论假设

就是在尽量少的假设的条件下

让你心无杂念的敞开心扉 让数据告诉你故事

那 这个

鼓励这个EDA的鼓吹者

提倡者 John Tukey

他就鼓励统计分析人员要大胆地使用探索性数据分析

他说不要被过多的假设禁锢

希望我们能够尽可能地通过EDA的这个过程

形成新的假设发现新的问题

然后引发新的数据收集过程和新的实验研究

这是科学研究怎么推进的

然后这里面呢 我们稍微要做一个区分

我们有的时候会讲EDA

有的时候还有一种方法叫做IDA

叫做initial data analysis

叫做 初步的数据分析

那有同学会问

初步的数据分析和探索性数据分析有什么区别

我们要说呢

刚才我们说了EDA强调的是忘掉理论假设

那IDA呢相反

就是我一般都是在有假设的条件下
那IDA呢相反

就是我一般都是在有假设的条件下

去用数据检验我这个假设的对错

也就是说

IDA是指较为狭义的在进行模型拟合和假设检验之前

对基本假设的检查

包括缺失值的处理还有对变量的重新编码和转换

这是IDA 要和EDA做一下区分

那 在任何研究中

其实项目的推进往往都充满了各种的抉择

那 哪些问题很有意思值得我们进一步研究

哪些问题我们感觉进入死胡同了

就是我这个数据并没有提供任何可以支持我假设的证据

我就要选择放弃

EDA就在这个选择的过程中发挥了非常重要的作用

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

视频3.1笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。