当前课程知识点:数据挖掘 >  第2章 数据 >  2.2 数据的基本统计描述 >  2.2.1 中心趋势度量

返回《数据挖掘》慕课在线视频课程列表

2.2.1 中心趋势度量在线视频

下一节:2.2.2 数据分散度量

返回《数据挖掘》慕课在线视频列表

2.2.1 中心趋势度量课程教案、知识点、字幕

数据的基本统计描述

能够清楚地将数据的全貌展示出来

更好地识别数据的性质

并且展示数据的走势和相关性

把握数据的全貌是成功进行

数据预处理的前提条件

数据的基本统计描述主要介绍

数据的中心趋势度量

数据分散度量以及数据的图形显示

中心趋势度量主要介绍均值

加权算数均值 中位数

众数 中列数

数据分散度量主要介绍极差

分位数和四分位数

方差和标准差

数据的图形显示主要介绍箱图

饼图 频率直方图 散点图

均值一般指算数平均数

是表示一组数据集中趋势的度量

是指在一组数据中所有数据之和

再除以这组数据的个数

它是反映数据集中趋势的一项指标

令x1 x2…xN为某数值属性

X的N个观测值

该集合的均值如公式所示

例如

学生考试成绩的值如下

使用均值公式计算成绩的均值

如式所示

截尾均值是指在一个数列中

去掉两端的极端值后

所计算的算术平均数

也称为切尾均值

截尾均值一般用于比赛评分

例如某比赛计分

去除最高分和最低分后计算平均分

加权算术均值

对于集合中的每个xi都有一个权重wi

与之对应

权重反映它们所依附的对应值的意义

重要性或出现的频率

加权算术平均值的计算公式如所示

每个值与它的权重相乘后求和

再除以权重和

例如 某同学的某一科的考试成绩为

平时测验80分

期中考试90分

期末考试95分

假设规定的科目成绩的计算方式是

平时测验成绩占20%

期中考试成绩占30%

期末考试成绩占50%

本例中每个成绩所占的比重即为权重

则该生的该科目成绩的计算如式所示

x平均等于

80乘以它的权重20%

加上90乘以它的权重30%

加上95乘以它的权重50%

除以所有权重之和

最后结果是90.5

中位数又称中值

代表一个样本

种群或概率分布中的一个数值

中位数可以将数值集合划分为

相等的上下两部分

对于有限的数集

可以通过把所有观察值高低排序后

找出正中间的一个作为中位数

如果观察值有偶数个

通常取最中间的两个数值的平均数

作为中位数

例如

有如下按递增序排序的数据

因为观测值有偶数个

所以中位数是最中间两个值

70和77的平均值

对于分组数据求中位数

需要先根据N/2确定中位数的位置

并确定中位数所在的组

计算中位数的近似值如公式所示

Me=L+ N/2-SM-1/FM×d

其中

Me表示中位数

L表示中位数所在组的下限

Sm-1表示中位数所在组

以下各组的累计频数

fm表示中位数所在组的频数

d表示中位数所在组的组距

例如

表中为某公司员工薪酬的分组数据

计算数据的近似分组数据中位数

首先

判断中位数区间

计算所有分组的频数和

N=2400

N/2=1200

因为前四组的频数和等于

1070小于二分之N的1200

小于前五组的频数和1920

所以1900~1999为中位数区间

其次

确定分组中位数计算公式中的参数

其中L=1900

N=2400

Sm-1=1070

fm=850

d=100

代入分组数中位数计算公式

计算结果为1915.29

众数是一组数据中出现次数最多的数值

简单的说

众数就是一组数据中

占比例最多的那个数

例如 在如下的数据中

数值100出现的次数最多

因此众数为100

有时数组中可能会有多个众数

也就是可能最高频率对应多个不同值

均值 众数及中位数之间的经验公式是

均值减去众数是3倍的均值减去中位数

中列数是数据集里最大值

和最小值的算术平均值

例如 数据按递增序排列如下

最小值和最大值分别为33和100

则中列数为

33+100/2=66.5

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

2.2.1 中心趋势度量笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。