当前课程知识点:数据挖掘 >  第2章 数据 >  2.1 数据的属性 >  2.1 数据的属性

返回《数据挖掘》慕课在线视频课程列表

2.1 数据的属性在线视频

下一节: 2.1 数据的属性

返回《数据挖掘》慕课在线视频列表

2.1 数据的属性课程教案、知识点、字幕

数据预处理是数据挖掘过程的

第一个主要步骤

了解数据才能为分析与挖掘做好预处理

本章介绍数据的属性和字段

每种属性所对应的数据值类型

数据的分布及图形表示形式

以及数据的相似性与相异性

数据挖掘所处理的数据集

是由数据对象组成

一个数据对象代表一个实体

多个数据对象组成了数据集

例如

销售数据库中的顾客 商品 销售

医疗数据库中的患者 医生 诊断治疗

选课数据库中的学生 教师 课程等

这些都是数据对象

也就是实体

数据对象又称样本

实例 数据点或对象

通常数据对象用属性描述

如果数据对象存放在数据库中

则它们是数据元组

也就是说

数据表的每一行对应于数据对象

而每一列则对应于属性

属性是对象的性质或特征

又称为变量 字段等

例如 表示客户特征的客户编号

姓名 地址等

表示商品特征的商品编号

商品名 价格 种类等

这些都是属性

属性的取值并非只是数字或符号

属性的类型

由该属性可能具有的值的集合决定

属性可以分为标称属性

二元属性 序数属性 数值属性等

数值属性又分为区间标度属性和

比率标度属性

标称属性的值是一些符号或事物的名称

这个值代表某种类别

编码或状态

因此标称属性可称为是分类的

这些值不必具有有意义的序

可以看做是枚举的

例如 头发颜色可以是赤褐色

黑色 金色 棕色等

也可以用数值表示这些符号或名称

但并不定量地使用这些数

例如 婚姻状况 职业

ID号 邮政编码

婚姻状况中可以用0表示未婚

1表示已婚

二元属性是标称属性的一种特殊情况

它只有两个类别或状态 0或1

其中0通常表示该属性不出现

而1表示出现

二元属性又被称为布尔属性

0和1两种状态分别对应于false和true

二元属性又分为对称的和非对称的

对称的二元属性的两种状态具有同等价值

且具有相同的权重

例如 性别

非对称的二元属性

其状态的结果不是同样重要

例如 检验结果中的阴性和阳性

一般惯例是 重要的结果用1编码

如HIV阳性

序数属性的属性值之间存在等级关系

在序数属性中

其可能的值之间具有有意义的序

或秩评定

例如:尺寸中的小 中 大

是有顺序的

例如军衔 职称等

序数属性还可用于主观质量评估

假设“顾客的满意度”的等级可分为5个等级

分别用0-4表示

这些值具有有意义的先后次序

标称属性

二元属性

序数属性

这三种都是定性的属性

数值属性是定量的

即它是可度量的量

用整数或实数值表示

数值属性分为两种

区间标度的和比率标度的

区间标度属性用相等的单位尺度度量

区间属性的值有序

可以为正 0或负

因此

除了值的秩评定之外

这种属性允许比较和定量评估值之间的差

“日期”是区间标度属性

例如 2016年3月10日

和2016年3月21日相差11天

此外

温度也是区间标度属性的例子

比率标度属性是具有固有零点的数值属性

简单地说

如果度量是比率标度的

则可以说一个值是另一个的倍数或比率

此外

这些值是有序的

因此可以计算值之间的差

当温度用绝对标度测量时

从物理意义上讲

2°的温度是1°的两倍

属性根据其值是否连续可以分为

离散的和连续的

离散属性具有有限或者无限可数个值

有时也表示为整型量

例如 邮编 职业或文库中的字集

二进制属性是离散属性的一个特例

连续属性的属性值为实数

一般用浮点变量表示

例如温度 高度或重量

实际上

真实值只能使用一个有限的数字

来测量和表示

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

2.1 数据的属性笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。