当前课程知识点:数据挖掘 >  第6章 频繁模式 >  6.5 关联模式评估 >  6.5 关联模式评估

返回《数据挖掘》慕课在线视频课程列表

6.5 关联模式评估在线视频

下一节:关联模式评估

返回《数据挖掘》慕课在线视频列表

6.5 关联模式评估课程教案、知识点、字幕

在实际应用中

需要处理的数据集的数据量

和数据维数往往大得超乎估计

而运用频繁模式挖掘所得到的规则

通常包含了大量用户并不感兴趣的规则

当最小置信度阈值

和支持度阈值比较小的时候

这种情况尤其严重

因此需要一组广受认同的

评价关联模式质量的标准

本节介绍支持度-置信度框架

然后引入相关性分析

最后讨论比较有效的模式评估度量

支持度-置信度框架

频繁模式通常基于以下假设

涉及相互独立的项

或覆盖少量事务的模式

是用户不感兴趣的模式

而这些模式通常用客观兴趣度度量来进行评判

客观兴趣度度量不依赖领域

往往根据事务数据推导出来的统计量

来进行评判

应用较为广泛的有支持度

置信度和相关性

而支持度-置信度框架认为

如果关联规则同时满足

最小支持度和最小置信度

则此关联规则为强关联规则

假设进行分析喜好

两种不同手机的用户之间的关系

使用此表中的汇总数据

设最小支持度阈值为0.3

最小置信度阈值为0.6

由于关联规则{小米}=>苹果}

如果购买苹果手机

则购买小米手机的支持度为0.4

大于最小支持度阈值0.3

置信度为0.66

大于最小值置信度阈值0.6

因此可以认为

此规则为强关联规则

但是 在事实上

小米手机和苹果手机是相互排斥的

尽管该规则具有

很高的置信度和支持度

实际上却是误导

支持度的计算会导致许多支持度较低

但是潜在有意义的模式未删除

同时 置信度则只考虑关联规则中

部分项集的支持度

忽略了其他项集的关联性

因此 需要使用有效的方法

来代替支持度-置信度框架

相关性分析

由于支持度-置信度框架的种种局限性

可以使用提升度等相关性度量来对

支持度-置信度框架进行扩充

1 提升度

支持度-置信度框架中的置信度

忽略了规则后件中项集的支持度

而提升度则有助于解决这个问题

令A和B表示不同的项集

P(*)表示项集*

在总体数据集中的出现概率

根据统计学定义

如果项集A和项集B的A并B的概率

等于A的概率乘以B的概率

那么项集A和项集B是相互独立的

否则两者是相互依赖的

项集A和项集B的提升度定义如下式所示

lift(A,B)=

P(A∪B)/P(A)P(B)

如果A和B的提升度的值等于1

说明A和B相互独立

如果A和B的提升度的值大于1

说明A和B正相关

如果A和B的提升度的值小于1

说明A和B负相关

例 提升度

在手机偏好的例子中

使用表中的数据可以得出

{苹果手机}和 {小米手机}的

提升度为

0.4/(0.75*0.6)=0.89

因此可以看出

苹果手机和小米手机是负相关的

2 杠杆度

杠杆度和提升度的含义相近

其定义如下式所示

leverage(A,B)=

P(A∪B)-P(A)P(B)

如果A和B的杠杆度的值等于0

则说明A和B相互独立

如果A和B的杠杆度的值大于0

说明A和B正相关

并且杠杆度越大

说明A和B的关系越密切

如果A和B的杠杆度的值小于0

说明A和B负相关

例 杠杆度

在手机偏好的例子中

使用表中的数据可以得出

{苹果手机}

和{小米手机} 的杠杆度为

0.4-0.6*0.75=-0.05

因此也可以看出苹果手机

和小米手机是负相关的

3 皮尔森相关系数

另一种相关性分析

常用的度量是皮尔森相关系数

皮尔森相关系数能够

反映两个变量的相似程度

皮尔森相关系数值越大

表明两个变量的相关性越强

对于二元变量

皮尔森相关系数定义如下式所示

皮尔森相关系数的取值区间是

[-1,1]

-1说明两个变量完全负相关

1说明两个变量完全正相关

例 皮尔森相关系数计算

在手机偏好的例子中

使用表中的数据可以得出

苹果手机和小米手机的

皮尔森相关系数为

说明两者一定程度负相关

但是皮尔森相关系数也有其局限性

当样本成比例变化时

皮尔森相关系数不能保持不变

皮尔森相关系数不仅关注了

项在事务中同时出现的情况

而且将项在事务中

不出现的情况也考虑其中

视两者的权值相等

4 IS度量

当两种不同关联的置信度

和提升度都相近时

可以使用IS度量进行分析

IS度量通常用于处理非对称二元变量

IS度量定义如下式所示

IS度量的数值越大

说明A和B之间的关联越强

例 IS度量

在手机偏好的例子中

使用表中的数据可以得出

苹果手机和小米手机的IS度量为

说明苹果手机和小米手机关联一般

4 确信度

确信度能够度量一个规则的强度

同时衡量A和B之间的独立性

确信度定义如下式所示

确信度数值越大

说明A和B关系越紧密

例 确信度

在手机偏好的例子中

使用表中的数据可以得出

苹果手机和小米手机的确信度为

说明苹果手机和小米手机不紧密

模式评估度量

不包含任何考察项集的事务

被称作零事务

在苹果、小米的例子中

既不买苹果手机

也不买小米手机即为零事务

在某些场景下

零事务的个数有可能

大大超过个体购买的个数

提升度、皮尔森相关系数等度量

在很大程度上受零事务的影响

因此它们识别关联模式

关联关系的能力较差

因此在此提出几种不受零事务影响的

零不变的度量

1 全置信度

全置信度反映了规则A蕴含B

和规则B蕴含A的最小置信度

全置信度定义如下式所示

对于项集A和B

全置信度越大

说明规则规则A蕴含B

和规则B蕴含A的最小置信度越大

那么A和B关系越紧密

反之A和B关系越疏远

例 全置信度

在手机偏好的例子中

使用表中的数据可以得出

{苹果手机}和{小米手机}的

全置信度为

则可以说明苹果手机和小米手机的关系一般

2 极大置信度

极大置信度则反映了规则A蕴含B

和规则B蕴含A的最大置信度

极大置信度定义如下式所示

对于项集A和B

极大置信度越大

A和B关系越紧密

例 极大置信度

在手机偏好的例子中

使用表中的数据可以得出

{苹果手机}和{小米手机}的

极大置信度为

说明两者可能关系一般

3 Kulczynski度量

Kulczynski度量表示在

项集A存在的情况下

项集B也存在的条件概率和

在项集B存在的情况下

项集A也存在的条件概率之和的平均值

Kulczynski度量定义如下

对于项集A和B

Kulczynski度量越大

说明平均可信程度越大

那么A和B关系越紧密

例 Kulczynski度量

在苹果、小米的例子中

使用表中的数据可以得出

{苹果手机}和{小米手机}的

Kulczynski度量为

说明两者关系一般

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

6.5 关联模式评估笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。