当前课程知识点:基于R语言的社会统计分析 > 第三章:基于R语言的探索性数据分析 > 3.1 探索性数据分析 > 视频3.1
好第三周我们来讲基于R语言的探索性数据分析
上一讲呢我们讲到了描述统计
然后有同学会问说你为什么就是
讲过描述统计以后又特意来讲一个探索性数据分析
这是因为
就像我们课程介绍里所说啊我们现在进入了大数据时代
有的时候
数据先于假设到来
就说说我们可能还没有一个清楚的
理论假设之前我们
已经获得了好多好多数据
那我们就很希望
这个数据能告诉我们更多的故事
那更具体的呢我们定义一下什么是探索性数据分析
这个分析方法呢英文叫做
Exploratory data analysis
然后它的简写DEA所以有的时候我们后面
偷懒就直接把它简称为EDA了
这个概念是美国的
非常有名的统计学家叫John W. Tukey
在他1977年出版的
同名书籍EXPLORATORY DATA ANALYSIS
中提出的
然后这个人呢你们可能
它并不像其它的那些统计
大咖那样那么火啊
但是上节课其实我们学过箱线图
然后你们可以
对号入座一下这个叫做John tukey的人实际上就是发明箱线图的人
那
EDA这种方法呢其实对于
统计学家也好还有数据的分析人员来说都是再熟悉不过的概念了
实际上每次我们做一个
量化的数据分析之前都会把
数据进行一番探索
进行一番刨土我们管它叫dig
dig the data
那但是对
初学者而言可能
你非得要我三言两语
很清楚的很清晰的对EDA下一个定义还是比较困难的
我们可能先用一个比喻来
解释它比较清楚啊
这个比喻当然不是我想
出来的我自己有上一门EDA的课程啊也是
网络课程考 的
教这门课程呢是Johns Hopins大学的叫做Roger Peng的一位
统计分析人员一统计学家
然后他
在他的课里面给EDA做了一个比喻他说
你要把整个数据分析的过程想象成一个拍电影的过程
比如说这是一个电影制作者啊
电影制作者在拍电影之前总是需要很多很多的镜头
这么多拍摄过的镜头并不一定都会拿来
在成片中使用
就好比我们这门慕课课程可能我们
前面会拍过很多镜头但最后呈现出来
只是小的一个子集用我们的统计的
术语来讲
那由于演员的时间安排呢或者是一些特殊的原因
很可能我的每个镜头的拍摄顺序
并不是按照剧情的事件进展顺序
发展下来的
另外呢有的时候可能
已经到了拍摄的时候导演也没有想好说某一个镜头
到底应该以怎么样的形式来呈现
所以所有的过程都是一个逐渐探索逐渐摸索的过程
那真正的成片呢可能是
对许多许多条片段在
推敲拿捏之后在剪辑室里面呈现的
那在剪辑室里呢
我们可能会尝试不同的版本
我们试一试哪个对白
听起来更好听哪个笑话更有意思或者是哪个剧情
更有视觉冲击力更有戏剧效果
然后一番决定以后我们可能把
相对粗糙的拼接在一起
成为一个粗剪一个小样啊
我们管它叫rough cut
然后在这个rough cut 的过程之中
可能你还
不用特别具体的去调颜色不用特别具体
去加动画
我们只是为后面进一步的决定做准备提供一个素材
那
我们所说的探索性数据分析
实际上就是在任何的科学研究中在任何的
数据分析过程中发生在剪辑室里的那些事
那
英文原文它说这是
the process of making the rough cut a data analysis
对数据分析做粗剪
当然
我们并不是说说探索我就漫无目的的瞎探索
我们还是有一些准则的
就像我们之前说像描述统计的时候我们
看一个数据画图我们想看到的是什么
我们想知道数据的中心在哪
想知道数据的离散程度是什么样子有的时候我们也想知道
某一个新的观测值相对于其他人
整个的总体来说它处于一个什么样位置上
那
探索性数据分析我们这里简称为EDA啊
EDA呢它有很多的目的我们现在
简单的总结一下它其实有四条最最重要的目的
第一条
我们希望看关系
我们想知道
变量和变量之间
到底有没有我们期待的关系
或者有的时候你甚至会有一些意外的发现
你发现有一些你意想不到的关系也在数据中被表现出来了
这是第一个目的看关系
那第二个呢
我如果说你有假设的话你有一个理论假设
我想看看数据有没有提供
支持这条假设或者是
反对这条假设的证据
第三个目的
我想检验数据收集的时候是不是存在问题
有的时候你可能会发现怎么这么多的缺失值啊
或者是
有的数据单位比如说
算身高的时候有的数据单位是一百七十
然后有的数又是一点七
你就会发现可能数据的录入过程存在问题米和厘米
产生了混淆啊
这也是在探索性数据分析中很重要的一个步骤
是检验数据收集或者是
数据记录数据录入的时候存在的问题
那第四条
还有有的时候你可能发现了一些有意思的问题的
迹象
但是又没有
足够的数据去证明它
这个时候你就会
为未来的研究提供了一些思路
所以
第四个目的是识别可能需要收集
更多数据的研究领域可行的有意思的研究领域
这是我们做EDA探索性数据分析的四个目的
那
终于到了要下一个定义的时候了
就是在统计学中
EDA是什么 它是指
通过分析数据 来总结数据主要特征的方法
这个定义很大
然后它用到的分析手段主要包括
制图 包括作表
然后它用到的分析手段主要包括
制图 包括作表
还包括计算一些数值型的特征值
当然它最最鲜明的特点是非常强大的可视化方法
visualization我们希望用非常漂亮的图表
能一目了然的把关系体现出来把特征表现出来
那当然这个过程有同学说我要不要统计建模啊
这是一个 可选项
你可以在这个过程做小小的二维三维的模型的初始的探究
也可能根本就不需要进入到统计建模这么一个相对复杂的过程中
那这个EDA的主要目的 实际上
和之前的描述性统计作对比 它最重要的特点是
它希望你能忘掉理论假设
就是在尽量少的假设的条件下
它希望你能忘掉理论假设
就是在尽量少的假设的条件下
让你心无杂念的敞开心扉 让数据告诉你故事
那 这个
鼓励这个EDA的鼓吹者
提倡者 John Tukey
他就鼓励统计分析人员要大胆地使用探索性数据分析
他说不要被过多的假设禁锢
希望我们能够尽可能地通过EDA的这个过程
形成新的假设发现新的问题
然后引发新的数据收集过程和新的实验研究
这是科学研究怎么推进的
然后这里面呢 我们稍微要做一个区分
我们有的时候会讲EDA
有的时候还有一种方法叫做IDA
叫做initial data analysis
叫做 初步的数据分析
那有同学会问
初步的数据分析和探索性数据分析有什么区别
我们要说呢
刚才我们说了EDA强调的是忘掉理论假设
那IDA呢相反
就是我一般都是在有假设的条件下
那IDA呢相反
就是我一般都是在有假设的条件下
去用数据检验我这个假设的对错
也就是说
IDA是指较为狭义的在进行模型拟合和假设检验之前
对基本假设的检查
包括缺失值的处理还有对变量的重新编码和转换
这是IDA 要和EDA做一下区分
那 在任何研究中
其实项目的推进往往都充满了各种的抉择
那 哪些问题很有意思值得我们进一步研究
哪些问题我们感觉进入死胡同了
就是我这个数据并没有提供任何可以支持我假设的证据
我就要选择放弃
EDA就在这个选择的过程中发挥了非常重要的作用
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video