当前课程知识点:R语言数据分析 >  下部:博术 >  第10章 观数以形 >  10.2 一维数据空间(II)

返回《R语言数据分析》慕课在线视频课程列表

10.2 一维数据空间(II)在线视频

下一节:10.3 二维数据空间

返回《R语言数据分析》慕课在线视频列表

10.2 一维数据空间(II)课程教案、知识点、字幕

大家好

欢迎来到《R语言数据分析》课程

今天继续大家交流

一维数据空间的相关内容

在前面的课程里面我们已经

简要的讲解一下

茎叶图 直方图 概率密度图 小提琴图

通过这几种图形来刻画

直观的展示我们一个数据分布的形态

咱们今天的课程

继续讲解一下我们后面的箱线图

以及一些复合图形的展示的方法

在讲完了这些

通过图形的方法来刻画数据分布的形态之后

我们再要用少量的数字

将这些具体的这些图形的一些集中的趋势

分散的程度予以量化

我们先看一下这个箱线图

箱线图它其实通过分位数来刻画数据的分布

所谓箱线图

顾名思义它既有箱 也有线

咱们先看这个箱子的组成

这个箱子它其实是什么三个分位数

这里面是什么

第一分位数

中位数

第三分位数

中位数的话 毫无疑问 它就是什么

它就是有一半的数比这个数要小

然后第一分位数

也是Q1

它就是有25%的数

比这个数小

相应的

同样 Q3的话就是有75%的数比这个数小

所以我们可以看得出来

这个箱子其实应该是罩住了多少

罩住了一半的数

因为这边是25%的数比它小

这边是75%的数比它小

毫无疑问

应该就是有一半的数

落到这个箱子里面来

这个箱的长度我们都称之为什么

四分位距

也就是Q3减Q1

这就我们所谓箱线图里面的箱子

一个简要介绍

咱们再看箱线图里面的线

线它其实包含两条

一个是上边界 一个是下边界

上边界的话它怎么取值

假如我这个第三分位数加1.5倍的四分位距

还罩不住所有的数据的话

所有罩不住的数据我都视为异常点

这个时候我将上边界设为多少

就是第三分位数加1.5倍的四分位距

当然也有可能这个最大值就小于

我们刚才这个Q3加1.5倍的IQR

也就是第三分位数加1.5倍的四分位距

可能最大值小于它

那这个时候毫无疑问我就将什么

将这个上边界就设为最大值

也就是说上边界就是

最大值和Q3+1.5* IQR

里面最小的那个

同样下边界

它其实什么也是

我第一分位数减掉1.5倍的四分位距

假如还罩不住我的更小的值的话

那这些值都视为异常值

那好

那个下边界

就是什么

就是Q1减掉1.5倍的四分位距

假如这个最小值本身就大于什么

就大于这个1.5倍

Q1减掉1.5倍的四分位距的话

那好那我就将什么

将那个最小值作为这个下边界了

这也就是我们箱线图箱和线

整个箱线图其实可以用来什么

刻画集中的趋势 分散的程度

分布的形状以及这个异常数据

咱们来看一看

所谓集中的趋势主要体现在中位数这一块

中位数的话其实和我们的平均值

它的取值有可能是差不多的

也是反映了一个大致的水平

大致的水平

分散的程度我们可以看这个箱子的长度

箱子越长的话是越分散

箱子越短的话是越集中

然后异常数据的话

我们刚才讲了除了下边界和上边界之外的

都属于什么都属于异常数据

都属于异常数据

这也就说我们这个箱线图

刻画的 集中趋势 分散程度 以及它的异常数据

都能看得非常清楚

同时它也能刻画这个分布形状

我们看一下

我们做了个对照图

上半部分是什么是一个概率密度曲线

直接反映我们的数据分布的形态的

下半部分是我们的箱线图

对应的箱线图

这时候我们看得出

来有一些数据是正态的分布

有些数据是偏态的

比如说我们这边这个数据

这样画的话

它其实除了这一部分之外还有什么

还多出了一个尾巴

所以我们看这个多出的部分

它就属于什么

它属于一个右偏的分布

像这一部分的话

它其实什么就是左边的分部了

他其实应该正态分布是这样的

对吧

然后又多出了一部分又多出了一部分

毫无疑问它是一个拖尾

这个时候是什么

是一个左偏的分布

通过箱线图其实我们可以看得出来

整个这个数据分布的形态

应该是刻画得比较详尽了

咱们看看在R里面是怎么实现的

在R里面实现的话其实

通过ggplot2的话

其实就是什么

还是调用这个geom_为前缀的一个几何映射函数

箱线图相应的函数是boxplot

所以我们前面在分析箱线图的时候

它相应的一些原理

相对比较复杂

但是在实现的时候就是这么一句话的事情

还是一句话的事情

就在ggplot的基础之上怎么样

规定了我怎么映射

然后映射成我这个boxplot这个形状

同时我们还叠加了一部分这个坐标轴须

看一看原始的数据的位置在哪

当然 这里面为了某些数据不重叠的话

在某一个位置可能有多个点取值

那这个时候我加了一个什么加一个抖动

同时将这个坐标X轴和Y轴进行了旋转

咱们看一下具体的这个箱线图的

R里面的一个效果

这就是我们整个这个数学成绩的一个分布的情况

大致水平在这

分散相对还不怎么分散

绝大部分同学集中在相对比较高的分数上面

当然也有很多同学是什么是低得异常的

他成绩相对比较低

当然这下面这个坐标轴须就是原始数据

原始数据的一个具体的所在的位置

当然我们通过那个图直观图形式

可以看得出来一些总体的趋势也好

集中趋势也好分散程度也好

但是我们更希望什么

我们更希望我们拿到一些具体的数值

这个时候我们可以调用这个函数

boxplot.stats

将这里面的比如说

下边界

第一分位数

中位数

第三分位数

上边界

都可以取出来

包括我们的数据记录数

假如是一个带凹槽的那个箱线图的话

这反映的是凹槽的情况

包括这个out

当这个out就是outliers

就是我们的异常点的一个具体的取值

我们可以将这些具体的指标

我们和前面看到的箱线图

进行一个对照

这里面就是刚才看到五个数

分别是上下边界

第一

可以说为第二分位数吧中位数

第三分位数

对不对

同样这异常点

我们这边标出异常点看起来没多少个

但其实有一部分点是叠加在一起的

比如说这个点

59

那好它其实有好几个59这个取值

它是叠在一起

通过这个图形我们可以看得出来

整个这个数据的一个分布的形态

好了

我们再来看看

前面无论是我们的一般的茎叶图也好

还是我们的概率密度图

包括我们的箱线图

都是对整个数据分布形态的一个直观展示

我们再来看一下

其实我们可以把多个图形叠在一起

我们有了箱线图有了前面讲的小提琴形图

其实可以把它放在一起来

进行更直观的展示

其实也是什么

这个过程的话相对比较简单

通过ggplot的话

你既有这个映射成什么

小提琴形图的函数

也有映射成这个boxplot

也就箱线图的函数

再加上我们坐标轴须

得到效果

就是我们后面这一种

就是小提琴图

对吧

叠加我这个箱线图

这么一个效果

这个时候就将整个概率密度分布

将我这个整个这个分位数

所在的位置以及我的离群点

都标得比较清楚了

应该说小提琴图加箱线图

这种方式对整个一维数据的一个

一个数据空间

一维数据的一个分布形态是刻画的比较细致

无论是我们概率密度曲线还是箱线图

我们都通过直观方式来表达这个数据分布的形态

我们更希望什么

有些具体的指标来刻画它

比如集中的趋势也好分散程度也好

咱们看一看

首先是来刻画这个集中的趋势

集中趋势除了刚才我们看到的中位数之外

另外一个用得比较多的是什么

平均值

当然平均值求法比较简单

要求的平均值的话就是什么

将所有的数据点加起来再除以它的个数

就取一个平均就可以

应该说平均值包含了每个数据点的信息

当然它有一个缺点

就是相对是比较容易受异常点

或者说野值的影响

举个例子

比如说我们这个房间有十个人

可能大家工资水平年薪比如说15万

那这个时候比尔盖茨进来了

对吧

那我这个时候再来看的话

整个这个薪资水平就完全不一样了

但这个平均值可能不一定来反映我们

这11个人的一个大致水平

它的优点是包含了每个数据点的信息

但是缺点是比较容易受异常点的一个影响

除了这个

平均值除了反映集中趋势之外

我们补充一下是什么

它不只是反映了数据的整体水平集中趋势

而且它是预测和判断的一个基准

或者说是没有办法的办法

我们举个例子

比如说门口进来一个人

我要判断一下他身高是多少

这时候我们可能说它应该是1米75左右

假如我没有其他信息的话

正常我可能说他是1米75左右

为什么比如说我们中国的平均身高是1米75

那现在走进来的人的身高的话

我认为它可能就是1米75左右

对不对

假如你在美国的话也是门口进来一个人

然后你什么都不知道的话

你要预测一下他的身高多少

可能你说1米8

对不对

所以这个时候其实平均值是没有办法的时候

或者没有任何信息的时候

没有任何模型的时候

我也是一个预测的手段

实际上在很多模型里面

在进行模型评估的时候

也是将这个平均值的预测作为一个什么

作为一个基准

咱们回到我们的主题

就是对这个集中趋势的刻画

刚刚讲了这个平均值容易受异常值的影响

那要反映集中的趋势

同时又不受异常值的影响

用哪个指标

这就是前面我们在箱线图里面看到的什么

中位数

当然中位数的时候

在前面讲箱线图的时候没有展开讲

其实中位数是什么

就是将数据从小到大进行排列

站在中间那一个

应该讲就是一个中位数

这是直观的一个说法

但这个时候涉及到一个问题

就得看我这个数据的个数是奇数还是偶数

比如说有五个数 1-2-(3)-4-5

那毫无疑问站在中间的那个是第三个

但假如是六个的话

1-2-(3-4)-5-6 那站在中间应该是什么

应该是第三和第四

我们也当然也可以通过这么一个公式

将这两种情况统一起来

这是什么

就是我这个n是代表什么

n代表我整个这个数据的个数

n除以2

向上取整

这是它的相应的位置

再加上另外一个位置

就是n+1除以2也是向上取整

比如说我们这个n等于5的时候

n除以2

向上取整

毫无疑问是什么是3

那n+1除以2等于3 还是3

这就相当于两个X3加在一起再除以2

毫无疑问还是站在第三位的那个数作为中位数

但假如是6的话

这是n除于2是3

那n+1除以2呢

向上取整就是4了

就是第三个和第四个加在一起再除以2

所以这将两种情况

统一了在形式上统一了

中位数的优势我们刚才讲了

就相对比较稳定

不容易受这个异常值的影响

我们看一下

这些集中的趋势在R里面是怎么实现的

我们可以按文理分科来进行分组统计

比如说文科

它的那个平均值 中位数

我的理科平均值 中位数看一下

我们还可以这样

也是先怎么样

先针对这个成绩表这个数据

我们先分组

按照文理分科进行分组

然后summarise

进行分组统计

统计里面用到了两个函数

这个median和mean

也就是R里面

求中位数和那个平均值的相应的函数

好 我们可以看得出来

这个时候文理分科它针对数学成绩而言

它的那个成绩还是差别还是比较大的

比如说我们理科生

它的中位数是多少

是93

文科生只有84

然后这个平均值理科生是89.8

就是理科生的数学平均分是89.8分

然后文科生只有82.7分

这是我们在R里面如何实现这个

集中趋势的一个计算

就是平均值和中位数

涉及到这么两个函数

除了这个集中趋势之外

我们要刻画一个数据分布形态的话

还需要知道它分散的程度

分散程度有很多指标

比如说我们可以通过这个极差

也就是极大值减掉极小值

极大值减掉极小值

看他整个一个数据分布的一个什么区间这个长度

也可以通过这个四分位距

也就箱线图里面什么

我们那个箱子的长度

Q3减掉Q1

另外一个比较多的什么就是这个样本标准差

大家注意一下

就这个每一个取值点减掉什么平均值

平方相加之后

大家注意了

这里面因为是样本标准差所以它除了什么

是n-1

然后再开根号

这是标准差

我们同样来看看在R里面怎么实现的

要求极差的话

我可以求出最大值

最小值分别是max和min

然后用max减掉min就可以了

这就求出了我们的相应的极差

同样我们可以通过这个文理分科来summarise

来分组进行统计

我们来看一下就文科生和理科生

他在数学成绩这一块它一个极差的分布

可以看得出来

理科生只有多少

只有54

文科生74

这和我们前面结论是一致的

就理科生的话它相对比较集中一点

相对比较集中一点

文科上相对分散一点

咱们再看

除了这个极差之外

咱们再看这个四分位距

四分位距的话可以先求什么

先求这个第三分位数

再求第一分位数

然后再用第三分位数减掉第一分位数

这是可以的

求分位数的话用这个quantile这个函数

当然也可以直接用什么

IQR这个函数直接求出四分位距

这个四分位距

理科生是10文科生是17

咱们再看一下这个

可以针对什么

我们前面通过这种管道操作符是可以计算出

它的相应的一个分散程度的

我们当然也可以调用这个函数

apply这个函数

就针对每一科我们来计算一下

比如说我现在想求每一科的

平均值 中位数

极差 四分位距

那好

毫无疑问我用这个apply函数的时候

这个第二个参数应该设为2

表示按列进行操作

每一列是一组

也是一个分组的统计

然后统计结果用到这个mean()函数 median()函数

分别求的是平均值和中位数

这个极差我们用了这个

range()这个函数

它是把最大值最小值都求出来了

然后再加上这个差分diff()这个函数

表示什么

用最大值减掉最小值了

这个四分位距的话

其实就是我们前面看到的

直接调用这个IQR函数

这个时候就把我们每一科

语文yw 数学sx 外语wy等等

一直到这个生物sw

这九门课

它相应的一些

集中的趋势和分散的程度

看得比较清楚

前面我们就大概讲解了一下

对于这个单变量来讲

或者我们所谓的一维数据空间来讲

要描述它的数据分布的形态的话

有这么常用的一些可视化的手段

像茎叶图 直方图 概率密度图 小提琴图

以及箱线图

这些图形的话其实各自有各自的优势

也有些局限

比如说茎叶图的话

毫无疑问在所有的图形来讲

它数据分布形态都能反映

但对于茎叶图来讲

它不适合什么不适合大量数据

一般来讲就是50到150

这么一个体量的数据

比较适合用茎叶图来表达

而且它的优势是什么

可以最大限度地保留原始信息

每一片叶子和什么和原始的数据点是一一对应的

像直方图的话

它不受我们所谓的数据量的影响

它也可以反映什么

适用于大量数据

反映我们整个这个数据分布的形态

当然小提琴图和箱线图也是什么

可以反映整个这个数据分布的形态的

尤其是箱线图

除了通过这个分位数来反映这个形态之外

还可以什么

直接求出这个什么异常点的情况

异常点的情况

一般来讲我们这些可视化的图形

可以单独使用

但要深入了解一个单变量的分布形态的话

也可以组合使用

以上就是我们关于单变量的

数据分布形态刻画相应方法的介绍

本次课到此结束

谢谢大家

R语言数据分析课程列表:

上部:问道

-第1章 气象万千、数以等观

--第1章 气象万千、数以等观

--第1章 作业

-第2章 所谓学习、归类而已

--2.1 所谓学习、归类而已(I)

--2.2 所谓学习、归类而已(II)

--2.3 所谓学习、归类而已(III)

--2.4 所谓学习、归类而已(IV)

--第2章 作业

-第3章 格言联璧话学习

--第3章 格言联璧话学习

--第3章 作业

-第4章 源于数学、归于工程

--第4章 源于数学、归于工程

--第4章 作业

-讨论题

--如何发挥人工智能的头雁效应

中部:执具

-第5章 工欲善其事、必先利其器

--第5章 工欲善其事、必先利其器

--第5章 作业

-第6章 基础编程——用别人的包和函数讲述自己的故事

--6.1 编程环境

--6.2Mini案例

--6.3 站在巨人的肩膀上

--6.4 控制流

--6.5 函数(I)

--6.6 函数(II)

--第6章 作业

-第7章 数据对象——面向数据对象学习R语言

--7.1 向量与因子(I)

--7.2 向量与因子(II)

--7.3 矩阵与数组(I)

--7.4 矩阵与数组(II)

--7.5 列表与数据框(I)

--7.6 列表与数据框(II)

--第7章 作业

-第8章 人人都爱tidyverse

--第8章 人人都爱tidyverse

--第8章 作业

-第9章 最美不过数据框

--第9章 最美不过数据框

--第9章 作业

下部:博术

-第10章 观数以形

--10.1 一维数据空间(I)

--10.2 一维数据空间(II)

--10.3 二维数据空间

--10.4 高维数据空间

--第10章 作业

-第11章 相随相伴、谓之关联

--11.1 导引

--11.2 关联规则(I)

--11.3 关联规则(II)

--11.4 关联规则(III)

--第11章 作业

-第12章 既是世间法、自当有分别

--12.1 导引

--12.2 近邻法(I)

--12.3 近邻法(II)

--12.4 决策树(I)

--12.5 决策树(II)

--12.6 随机森林

--12.7 朴素贝叶斯

--12.8 逻辑斯蒂回归

--12.9 人工神经网络(I)

--12.10 人工神经网络(II)

--12.11 支持向量机

--第12章 作业

-第13章 方以类聚、物以群分

--13.1 导引

--13.2 划分方法

--13.3 层次方法

--第13章 作业

-第14章 庐山烟雨浙江潮

--第14章 庐山烟雨浙江潮

--第14章 作业

10.2 一维数据空间(II)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。