当前课程知识点:数据挖掘 >  第2章 数据 >  2.3 数据的相似性和相异性 >  2.3 数据的相似性和相异性

返回《数据挖掘》慕课在线视频课程列表

2.3 数据的相似性和相异性在线视频

下一节: 2.3 数据的相似性和相异性

返回《数据挖掘》慕课在线视频列表

2.3 数据的相似性和相异性课程教案、知识点、字幕

数据的相似性和相异性是

两个非常重要的概念

在许多数据挖掘技术中都会使用

如聚类 最近邻分类和异常检测等

在许多情况下

一旦计算出数据的相似性或相异性

就不再需要原始数据了

这种方法可以看作先将数据变换到

相似性或相异性空间

然后再进行分析

相似性是对两个对象相似程度的度量

数值越大表明相似性越大

通常取值范围为0到1之间

相异性是对两个对象不相似程度的度量

数值越小表明相似性越大

相异性的最小值通常为0

相异性的最大值根据不同情况而不同

相似性和相异性统称为邻近性

数据矩阵或称对象属性结构

这种数据结构用关系表的形式

或m×n矩阵存放m个数据对象

数据矩阵如图所示

图中

每一行对应一个对象

每一列对应一个属性

数据矩阵由两种实体或者事物组成

即行代表对象

列代表属性

因此

数据矩阵经常被称为二模矩阵

相异性矩阵或称对象 对象结构

它存放n个对象两两之间的邻近度

通常用一个n×n矩阵表示

相异性矩阵如图所示

其中

d(i,j)是对象i和j之间

相异性的量化表示

通常为非负值

两个对象越相似或越接近

其值越接近0

反之其值越大

相异性矩阵满足对称性

即d(i,j)=d(j,i)

其中对角线上的数据d(i,i)=0

相异性矩阵只包含一类实体

因此被称为一模矩阵

通常

邻近性度量(特别是相似度)

被定义为区间[0,1]中的值

或变换到闭区间[0,1]中的值

这样做的目的是

由邻近性度量的值来表明

两个对象之间的

相似(或相异)程度

这种变换通常是比较直观的

标称属性是具有两个或多个状态的属性

比如说表示衣服的颜色

可以用红色 黄色 蓝色 绿色等表示

具有标称属性的

两个对象i和j之间的相异性

可以根据不匹配率来计算

如公式所示

d(i,j) = p-m/p=1- m/p

其中 p是对象的属性总数

m是匹配的属性数目

即对象i和j状态相同的属性数

也就是说

对象i和对象j之间的相异性等于

不匹配的属性数除以属性总数

即1减去匹配的属性数

除以属性总数的商

具有标称属性的两个对象i和j之间的

相似性计算如公式所示

Sim(i, j)=1- d(i, j) = m/p

即对象i和对象j的相似性

等于1减去两者的相异性

也就是匹配的属性数除以属性总数

例 标称属性的相异性矩阵的计算

标称属性对象数据如表所示

此例中Test属性是标称属性

标称属性总数p=1

根据公式可以分别计算

两个对象之间的相异性

如对象2和对象1之间

匹配的属性数是0

两者之间的相异性d(2,1)=1-0/1=1

类似可以计算出其他两对象之间的相异性

构建出的相异性矩阵如图所示

二元属性只有两种状态

通常表示为0或1

0表示属性不出现

1表示属性出现

二元属性又称布尔属性

用false和true表示

具有对称属性的对象i和对象j的

相异性计算如公式所示

其中m是对象i和j都取1的属性数

n是在对象i中取1

在对象j中取0的属性数

p是在对象i中取0

在对象j中取1的属性数

而q是对象i和j都取0的属性数

即对象i和对象j

取值不相同的属性总数

除以所有情况下属性总数

具有非对称属性的对象i和对象j的

相异性计算如公式所示

在非对称二进制属性中

一般认为两个对象在该属性上

都取值1的情况比两个都取值0的情况

更有意义

此时q是不重要的

因此在计算时被忽略

二进制属性的相似性计算如公式所示

即对象i和对象j的相似性

等于1减去两对象的相异性

例 二进制属性的相异性的计算

居民家庭情况调查数据如表所示

其中

婚否 买房否 买车否三个属性为

对称的二进制属性

根据公式计算的两者之间的相异性

如公式所示

数值属性的相异性主要通过距离来度量

包括欧几里得距离 曼哈顿距离

闵可夫斯基距离和切比雪夫距离

欧几里得距离又称直线距离

令i和j是两个被p个数值属性

描述的对象

对象i和j之间的欧几里得距离

如公式所示

d(i, j)=√(xi1-xj1)^2+(xi2-x2) ^2+…(xip-xip) ^2

曼哈顿距离又称城市块距离

令i和j是两个被p个数值

属性描述的对象

对象i和j之间的曼哈顿距离为

d(i, j)=[xi1-xj1] +[xi2-xj2]+…+[xip-xjp]

欧几里得距离和曼哈顿距离

都满足如下数学性质

一 非负性d(i, j)大于等于0

即 距离是一个非负的数值

二 同一性d(i, i)等于0

即对象到自身的距离为0

三 三角不等式d(i,j) 小与等于d(i,k)+(k,j)

即从对象i到对象j的直接距离

不会大于途经任何其他对象k的距离

闵可夫斯基距离是

衡量数值点之间距离的

一种常见的方法

令i和j是两个被p个数值属性

描述的对象

对象i和j之间的闵可夫斯基距离

如公式所示

d(i, j)=h√[xi1-xj1]^h+[xi2-xj2]^h+…+[xip-xjp]^h

其中h是实数

h大于等于1

当h=1时

即为曼哈顿距离

当h=2时

即为欧几里得距离

切比雪夫距离又称上确界距离

定义两个对象之间的距离

为其各坐标数值差的最大值

如公式所示

例 数值属性的相异性计算

给定两个对象分别用元组2 8 7 4

和1 5 3 0描述

计算这两个对象之间的欧几里得距离

曼哈顿距离 闵可夫斯基距离(h=4)

以及切比雪夫距离

欧几里得距离的计算为

d(i,j)等于6.48

曼哈顿的距离等于12

闵可夫斯基距离为约等于4.94

切比雪夫距离等于4

序数属性的值之间

具有有意义的序或排位

序数属性可以通过把数值属性的

值域划分成有限个类别

对数值属性离散化得到

这些类别组织成排位

即数值属性的值域可以映射到

具有Mf个状态的序数属性f

其中序数属性可能的状态数为M

这些有序的状态定义了一个排位1…Mf

因此

序数属性的相异性计算可以使用

数值属性的距离相异性度量方法

假设f是用于描述n个对象的序数属性

关于f的相异性计算步骤如下

第一步第i个对象的f值为xif

属性f有Mf个有序的状态

表示排位1, ... ,Mf

用对应的排位rif∈{1,...,Mf}取代xif

第二步 由于每个序数属性

都可以有不同的状态数

所以通常需要将每个属性的值域

映射到[0.0,1.0]上

以便每个属性都有相同的权重

通过用zif代替第i个对象的rif来实现

数据规格化

其中

zif=rif-1/mf-1

第三步 相异性可以用

任意一种数值属性的距离

度量计算

使用zif作为第i个对象的f值

例 序数属性的相异性计算

有序数属性的对象数据如表所示

其中test属性为序数属性

Test有三个状态ordinary

good和excellent

则Mf=3

第一步

把Test的每个值替换为它的排位

则4个对象的排位值分别为3 2 1 3

第二步

通过将排位1映射为0.0

排位2映射为0.5

排位3映射为1.0

来实现对排位的规格化

第三步

使用欧几里得距离得到相异性矩阵

如图所示

通过计算可以看出

对象1与对象3最不相似

对象3与对象4也不相似

对象1与对象4是相似的

这符合其原始数值之间的关系

余弦相似性又称余弦相似度

是基于向量的

它利用向量空间中

两个向量夹角的余弦值

作为衡量两个个体间差异的大小

令向量x和y

是两个被p个分量描述的向量

两个向量的余弦相似性定义为

其中x范数定义为

√x1^2+x2^2+...xp^2

同理 y的范数定义为

√y1^2+y2^2+...+yp^2

该度量计算向量x和y之间夹角的余弦

余弦值为0意味两个向量呈90°夹角

即正交 没有匹配

余弦值越接近于1

夹角越小

向量之间的匹配越大

例 余弦相似度的计算

给定两个向量x和y

两个向量的余弦相似度计算如公式所示

结果为0.87

余弦相似性经常用于计算文本相似度

两个文本根据关键词建立两个向量

计算这两个向量的余弦值

就可以知道这两个文本

在统计学方法中的相似度情况

如果余弦值为1

则说明两篇文档完全相同

如果余弦值为0

则说明两篇文档完全不同

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

2.3 数据的相似性和相异性笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。