当前课程知识点:数据挖掘 > 第2章 数据 > 2.2 数据的基本统计描述 > 2.2.3 数据的图形显示
箱图又称箱线图
是一种用来描述数据分布的统计图形
可以表现观测数据的中位数
四分位数和极值等描述性统计量
从视觉的角度观测变量值的分布情况
如图所示
主要包含六个数据节点
分别是一组数据的上边缘
即最大值
上四分位数Q3
中位数
下四分位数即Q1
下边缘即最小值
以及异常值
箱图用盒子表示数据
盒子的端点在四分位数上
使得箱长度为四分位数极差IQR
中位数用盒内线标记
盒子外线延伸到最小和最大的观测值
离群点就是绘制在
离群阈值范围外的点
箱图分布直观地表示了最小值
Q1 中位数 Q3 最大值
是对五个数的概括
离群点位于第三个四分位数之上
或者第一个四分位数之下
至少1.5倍的IQR的值
饼图又称圆形图或饼形图
通常用来表示整体的构成部分
及各部分之间的比例关系
饼图显示一个数据系列中各项的
大小与各项总和的比例关系
例如 不同年龄区间的人
参与某活动的情况如表所示
对应的覆盖人群的构成饼图如图所示
频率直方图又称频率分布直方图
是在统计学中表示频率分布的图形
在直角坐标系中
用横轴表示随机变量的取值
横轴上的每个小区间
对应一个组的组距
作为小矩形的底边
纵轴表示频数
每个矩形的高代表对应的频数
以这种小矩形构成的一组图称为
频率直方图
例如
已知某班级学生数学成绩表
其对应的学生数学成绩的频率直方图
如图所示
散点图是相关分析过程中常用的
一种直观的分析方法
将样本数据点绘制在二维平面
或三维空间上
然后根据数据点的分布特征
直观地研究变量之间的统计关系
以及强弱程度
散点图能直观反映两个相关变量之间的
大致变化趋势
例如
此表为物流收货天数和客户满意度
相关数据调查表
此图为使用散点图表示的
物流收货天数和客户满意度的
相关程度
就两个变量而言
如果变量之间的关系
近似地表现为一条直线
则称为线性相关
如图(a)所示
如果变量之间的关系
近似地表现为一条曲线
则称为非线性相关或曲线相关
如图(b)所示
如果两个变量的观测点很分散
无任何规律
则表示变量之间没有相关关系
如图(c)所示
正相关是指两个变量变动方向相同
一个变量由大到小
或由小到大变化时
另一个变量亦由大到小
或由小到大变化
也就是说
在正相关的情况下
一个变量随着另一个变量的变化
而发生相同方向的变化
即两个变量同时变大或变小
正相关表现为
向右上方倾斜的趋势
也可以是非线性的
负相关是指两个变量变动方向相反
一个变量由大到小
或由小到大变化时
另一个变量反而有小到大
或由大到小变化
即其数据曲线的切线斜率
始终小于零
也就是说
在负相关的情况下
一个变量随着另一个变量的变化
而发生相反方向的变化
总结以上介绍的基本统计图
盒图用来描述最大值 最小值
下四位数 中位数 上四位数的
五数概括
直方图的x轴表示数值大小
y轴表示频率
饼图显示一个数据系列中各项的大小
与各项总和的比例关系
散点图将每个值视作一个坐标对
作为一个点画在平面上
以表示属性之间的相关关系
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2