当前课程知识点:R语言数据分析 > 下部:博术 > 第10章 观数以形 > 10.2 一维数据空间(II)
大家好
欢迎来到《R语言数据分析》课程
今天继续大家交流
一维数据空间的相关内容
在前面的课程里面我们已经
简要的讲解一下
茎叶图 直方图 概率密度图 小提琴图
通过这几种图形来刻画
直观的展示我们一个数据分布的形态
咱们今天的课程
继续讲解一下我们后面的箱线图
以及一些复合图形的展示的方法
在讲完了这些
通过图形的方法来刻画数据分布的形态之后
我们再要用少量的数字
将这些具体的这些图形的一些集中的趋势
分散的程度予以量化
我们先看一下这个箱线图
箱线图它其实通过分位数来刻画数据的分布
所谓箱线图
顾名思义它既有箱 也有线
咱们先看这个箱子的组成
这个箱子它其实是什么三个分位数
这里面是什么
第一分位数
中位数
第三分位数
中位数的话 毫无疑问 它就是什么
它就是有一半的数比这个数要小
然后第一分位数
也是Q1
它就是有25%的数
比这个数小
相应的
同样 Q3的话就是有75%的数比这个数小
所以我们可以看得出来
这个箱子其实应该是罩住了多少
罩住了一半的数
因为这边是25%的数比它小
这边是75%的数比它小
毫无疑问
应该就是有一半的数
落到这个箱子里面来
这个箱的长度我们都称之为什么
四分位距
也就是Q3减Q1
这就我们所谓箱线图里面的箱子
一个简要介绍
咱们再看箱线图里面的线
线它其实包含两条
一个是上边界 一个是下边界
上边界的话它怎么取值
假如我这个第三分位数加1.5倍的四分位距
还罩不住所有的数据的话
所有罩不住的数据我都视为异常点
这个时候我将上边界设为多少
就是第三分位数加1.5倍的四分位距
当然也有可能这个最大值就小于
我们刚才这个Q3加1.5倍的IQR
也就是第三分位数加1.5倍的四分位距
可能最大值小于它
那这个时候毫无疑问我就将什么
将这个上边界就设为最大值
也就是说上边界就是
最大值和Q3+1.5* IQR
里面最小的那个
同样下边界
它其实什么也是
我第一分位数减掉1.5倍的四分位距
假如还罩不住我的更小的值的话
那这些值都视为异常值
那好
那个下边界
就是什么
就是Q1减掉1.5倍的四分位距
假如这个最小值本身就大于什么
就大于这个1.5倍
Q1减掉1.5倍的四分位距的话
那好那我就将什么
将那个最小值作为这个下边界了
这也就是我们箱线图箱和线
整个箱线图其实可以用来什么
刻画集中的趋势 分散的程度
分布的形状以及这个异常数据
咱们来看一看
所谓集中的趋势主要体现在中位数这一块
中位数的话其实和我们的平均值
它的取值有可能是差不多的
也是反映了一个大致的水平
大致的水平
分散的程度我们可以看这个箱子的长度
箱子越长的话是越分散
箱子越短的话是越集中
然后异常数据的话
我们刚才讲了除了下边界和上边界之外的
都属于什么都属于异常数据
都属于异常数据
这也就说我们这个箱线图
刻画的 集中趋势 分散程度 以及它的异常数据
都能看得非常清楚
同时它也能刻画这个分布形状
我们看一下
我们做了个对照图
上半部分是什么是一个概率密度曲线
直接反映我们的数据分布的形态的
下半部分是我们的箱线图
对应的箱线图
这时候我们看得出
来有一些数据是正态的分布
有些数据是偏态的
比如说我们这边这个数据
这样画的话
它其实除了这一部分之外还有什么
还多出了一个尾巴
所以我们看这个多出的部分
它就属于什么
它属于一个右偏的分布
像这一部分的话
它其实什么就是左边的分部了
他其实应该正态分布是这样的
对吧
然后又多出了一部分又多出了一部分
毫无疑问它是一个拖尾
这个时候是什么
是一个左偏的分布
通过箱线图其实我们可以看得出来
整个这个数据分布的形态
应该是刻画得比较详尽了
咱们看看在R里面是怎么实现的
在R里面实现的话其实
通过ggplot2的话
其实就是什么
还是调用这个geom_为前缀的一个几何映射函数
箱线图相应的函数是boxplot
所以我们前面在分析箱线图的时候
它相应的一些原理
相对比较复杂
但是在实现的时候就是这么一句话的事情
还是一句话的事情
就在ggplot的基础之上怎么样
规定了我怎么映射
然后映射成我这个boxplot这个形状
同时我们还叠加了一部分这个坐标轴须
看一看原始的数据的位置在哪
当然 这里面为了某些数据不重叠的话
在某一个位置可能有多个点取值
那这个时候我加了一个什么加一个抖动
同时将这个坐标X轴和Y轴进行了旋转
咱们看一下具体的这个箱线图的
R里面的一个效果
这就是我们整个这个数学成绩的一个分布的情况
大致水平在这
分散相对还不怎么分散
绝大部分同学集中在相对比较高的分数上面
当然也有很多同学是什么是低得异常的
他成绩相对比较低
当然这下面这个坐标轴须就是原始数据
原始数据的一个具体的所在的位置
当然我们通过那个图直观图形式
可以看得出来一些总体的趋势也好
集中趋势也好分散程度也好
但是我们更希望什么
我们更希望我们拿到一些具体的数值
这个时候我们可以调用这个函数
boxplot.stats
将这里面的比如说
下边界
第一分位数
中位数
第三分位数
上边界
都可以取出来
包括我们的数据记录数
假如是一个带凹槽的那个箱线图的话
这反映的是凹槽的情况
包括这个out
当这个out就是outliers
就是我们的异常点的一个具体的取值
我们可以将这些具体的指标
我们和前面看到的箱线图
进行一个对照
这里面就是刚才看到五个数
分别是上下边界
第一
可以说为第二分位数吧中位数
第三分位数
对不对
好
同样这异常点
我们这边标出异常点看起来没多少个
但其实有一部分点是叠加在一起的
比如说这个点
59
那好它其实有好几个59这个取值
它是叠在一起
通过这个图形我们可以看得出来
整个这个数据的一个分布的形态
好了
我们再来看看
前面无论是我们的一般的茎叶图也好
还是我们的概率密度图
包括我们的箱线图
都是对整个数据分布形态的一个直观展示
我们再来看一下
其实我们可以把多个图形叠在一起
我们有了箱线图有了前面讲的小提琴形图
其实可以把它放在一起来
进行更直观的展示
其实也是什么
这个过程的话相对比较简单
通过ggplot的话
你既有这个映射成什么
小提琴形图的函数
也有映射成这个boxplot
也就箱线图的函数
再加上我们坐标轴须
得到效果
就是我们后面这一种
就是小提琴图
对吧
叠加我这个箱线图
这么一个效果
这个时候就将整个概率密度分布
将我这个整个这个分位数
所在的位置以及我的离群点
都标得比较清楚了
应该说小提琴图加箱线图
这种方式对整个一维数据的一个
一个数据空间
一维数据的一个分布形态是刻画的比较细致
无论是我们概率密度曲线还是箱线图
我们都通过直观方式来表达这个数据分布的形态
我们更希望什么
有些具体的指标来刻画它
比如集中的趋势也好分散程度也好
咱们看一看
首先是来刻画这个集中的趋势
集中趋势除了刚才我们看到的中位数之外
另外一个用得比较多的是什么
平均值
当然平均值求法比较简单
要求的平均值的话就是什么
将所有的数据点加起来再除以它的个数
就取一个平均就可以
应该说平均值包含了每个数据点的信息
当然它有一个缺点
就是相对是比较容易受异常点
或者说野值的影响
举个例子
比如说我们这个房间有十个人
可能大家工资水平年薪比如说15万
那这个时候比尔盖茨进来了
对吧
那我这个时候再来看的话
整个这个薪资水平就完全不一样了
但这个平均值可能不一定来反映我们
这11个人的一个大致水平
它的优点是包含了每个数据点的信息
但是缺点是比较容易受异常点的一个影响
除了这个
平均值除了反映集中趋势之外
我们补充一下是什么
它不只是反映了数据的整体水平集中趋势
而且它是预测和判断的一个基准
或者说是没有办法的办法
我们举个例子
比如说门口进来一个人
我要判断一下他身高是多少
这时候我们可能说它应该是1米75左右
假如我没有其他信息的话
正常我可能说他是1米75左右
为什么比如说我们中国的平均身高是1米75
那现在走进来的人的身高的话
我认为它可能就是1米75左右
对不对
假如你在美国的话也是门口进来一个人
然后你什么都不知道的话
你要预测一下他的身高多少
可能你说1米8
对不对
所以这个时候其实平均值是没有办法的时候
或者没有任何信息的时候
没有任何模型的时候
我也是一个预测的手段
实际上在很多模型里面
在进行模型评估的时候
也是将这个平均值的预测作为一个什么
作为一个基准
咱们回到我们的主题
就是对这个集中趋势的刻画
刚刚讲了这个平均值容易受异常值的影响
那要反映集中的趋势
同时又不受异常值的影响
用哪个指标
这就是前面我们在箱线图里面看到的什么
中位数
当然中位数的时候
在前面讲箱线图的时候没有展开讲
其实中位数是什么
就是将数据从小到大进行排列
站在中间那一个
应该讲就是一个中位数
这是直观的一个说法
但这个时候涉及到一个问题
就得看我这个数据的个数是奇数还是偶数
比如说有五个数 1-2-(3)-4-5
那毫无疑问站在中间的那个是第三个
但假如是六个的话
1-2-(3-4)-5-6 那站在中间应该是什么
应该是第三和第四
我们也当然也可以通过这么一个公式
将这两种情况统一起来
这是什么
就是我这个n是代表什么
n代表我整个这个数据的个数
n除以2
向上取整
这是它的相应的位置
再加上另外一个位置
就是n+1除以2也是向上取整
比如说我们这个n等于5的时候
n除以2
向上取整
毫无疑问是什么是3
那n+1除以2等于3 还是3
这就相当于两个X3加在一起再除以2
毫无疑问还是站在第三位的那个数作为中位数
但假如是6的话
这是n除于2是3
那n+1除以2呢
向上取整就是4了
就是第三个和第四个加在一起再除以2
所以这将两种情况
统一了在形式上统一了
中位数的优势我们刚才讲了
就相对比较稳定
不容易受这个异常值的影响
我们看一下
这些集中的趋势在R里面是怎么实现的
我们可以按文理分科来进行分组统计
比如说文科
它的那个平均值 中位数
我的理科平均值 中位数看一下
我们还可以这样
也是先怎么样
先针对这个成绩表这个数据
我们先分组
按照文理分科进行分组
然后summarise
进行分组统计
统计里面用到了两个函数
这个median和mean
也就是R里面
求中位数和那个平均值的相应的函数
好 我们可以看得出来
这个时候文理分科它针对数学成绩而言
它的那个成绩还是差别还是比较大的
比如说我们理科生
它的中位数是多少
是93
文科生只有84
然后这个平均值理科生是89.8
就是理科生的数学平均分是89.8分
然后文科生只有82.7分
这是我们在R里面如何实现这个
集中趋势的一个计算
就是平均值和中位数
涉及到这么两个函数
除了这个集中趋势之外
我们要刻画一个数据分布形态的话
还需要知道它分散的程度
分散程度有很多指标
比如说我们可以通过这个极差
也就是极大值减掉极小值
极大值减掉极小值
看他整个一个数据分布的一个什么区间这个长度
也可以通过这个四分位距
也就箱线图里面什么
我们那个箱子的长度
Q3减掉Q1
另外一个比较多的什么就是这个样本标准差
大家注意一下
就这个每一个取值点减掉什么平均值
平方相加之后
大家注意了
这里面因为是样本标准差所以它除了什么
是n-1
然后再开根号
这是标准差
我们同样来看看在R里面怎么实现的
要求极差的话
我可以求出最大值
最小值分别是max和min
然后用max减掉min就可以了
这就求出了我们的相应的极差
同样我们可以通过这个文理分科来summarise
来分组进行统计
我们来看一下就文科生和理科生
他在数学成绩这一块它一个极差的分布
可以看得出来
理科生只有多少
只有54
文科生74
这和我们前面结论是一致的
就理科生的话它相对比较集中一点
相对比较集中一点
文科上相对分散一点
咱们再看
除了这个极差之外
咱们再看这个四分位距
四分位距的话可以先求什么
先求这个第三分位数
再求第一分位数
然后再用第三分位数减掉第一分位数
这是可以的
求分位数的话用这个quantile这个函数
当然也可以直接用什么
IQR这个函数直接求出四分位距
这个四分位距
理科生是10文科生是17
咱们再看一下这个
可以针对什么
我们前面通过这种管道操作符是可以计算出
它的相应的一个分散程度的
我们当然也可以调用这个函数
apply这个函数
就针对每一科我们来计算一下
比如说我现在想求每一科的
平均值 中位数
极差 四分位距
那好
毫无疑问我用这个apply函数的时候
这个第二个参数应该设为2
表示按列进行操作
每一列是一组
也是一个分组的统计
然后统计结果用到这个mean()函数 median()函数
分别求的是平均值和中位数
这个极差我们用了这个
range()这个函数
它是把最大值最小值都求出来了
然后再加上这个差分diff()这个函数
表示什么
用最大值减掉最小值了
这个四分位距的话
其实就是我们前面看到的
直接调用这个IQR函数
这个时候就把我们每一科
语文yw 数学sx 外语wy等等
一直到这个生物sw
这九门课
它相应的一些
集中的趋势和分散的程度
看得比较清楚
前面我们就大概讲解了一下
对于这个单变量来讲
或者我们所谓的一维数据空间来讲
要描述它的数据分布的形态的话
有这么常用的一些可视化的手段
像茎叶图 直方图 概率密度图 小提琴图
以及箱线图
这些图形的话其实各自有各自的优势
也有些局限
比如说茎叶图的话
毫无疑问在所有的图形来讲
它数据分布形态都能反映
但对于茎叶图来讲
它不适合什么不适合大量数据
一般来讲就是50到150
这么一个体量的数据
比较适合用茎叶图来表达
而且它的优势是什么
可以最大限度地保留原始信息
每一片叶子和什么和原始的数据点是一一对应的
像直方图的话
它不受我们所谓的数据量的影响
它也可以反映什么
适用于大量数据
反映我们整个这个数据分布的形态
当然小提琴图和箱线图也是什么
可以反映整个这个数据分布的形态的
尤其是箱线图
除了通过这个分位数来反映这个形态之外
还可以什么
直接求出这个什么异常点的情况
异常点的情况
一般来讲我们这些可视化的图形
可以单独使用
但要深入了解一个单变量的分布形态的话
也可以组合使用
以上就是我们关于单变量的
数据分布形态刻画相应方法的介绍
本次课到此结束
谢谢大家
-第1章 气象万千、数以等观
--第1章 作业
-第2章 所谓学习、归类而已
--第2章 作业
-第3章 格言联璧话学习
--第3章 作业
-第4章 源于数学、归于工程
--第4章 作业
-讨论题
-第5章 工欲善其事、必先利其器
--第5章 作业
-第6章 基础编程——用别人的包和函数讲述自己的故事
--6.1 编程环境
--6.4 控制流
--第6章 作业
-第7章 数据对象——面向数据对象学习R语言
--第7章 作业
-第8章 人人都爱tidyverse
--第8章 作业
-第9章 最美不过数据框
--第9章 作业
-第10章 观数以形
--第10章 作业
-第11章 相随相伴、谓之关联
--11.1 导引
--第11章 作业
-第12章 既是世间法、自当有分别
--12.1 导引
--第12章 作业
-第13章 方以类聚、物以群分
--13.1 导引
--第13章 作业
-第14章 庐山烟雨浙江潮
--第14章 作业