当前课程知识点:数据挖掘 >  第6章 频繁模式 >  6.4 压缩频繁项集 >  6.4 压缩频繁项集

返回《数据挖掘》慕课在线视频课程列表

6.4 压缩频繁项集在线视频

下一节:压缩频繁项集

返回《数据挖掘》慕课在线视频列表

6.4 压缩频繁项集课程教案、知识点、字幕

在实际应用中

当最小支持度阈值较低

或者数据规模较大时

使用频繁模式挖掘事务数据

可能产生过多的频繁项集

而闭频繁模式

极大模式等模式可以显著减少

频繁模式挖掘所产生的

频繁项集数量

如果X∈Y

且Y中至少有一项不在X中

那么Y是X的真超项集

如果在数据集中不存在

频繁项集X的真超项集Y

使得X Y的支持度相等

那么称项集X是这个数据集的

闭频繁项集

闭项集提供了频繁项集的

一种最小表示

提供了完整的项目集的压缩描述

通常比频繁模式要小几个数量级

如果首先得到所有的频繁项集

然后根据相应的规则

删除部分频繁项集

那么用户会得到

2的阶乘级别数量的频繁项集

会导致极大的开销

在实际应用中

推荐的方法是直接搜索闭频繁项集

并对搜索结果进行剪枝

剪枝的策略如下

一 项合并

如果包含频繁项集X的

每个事务都包含项集Y

但不包含Y的任何真超集

则X∪Y形成一个闭频繁项集

并且不必搜索包含X

但不包含Y的任何项集

二 子项集剪枝

如果频繁项集X是一个已经发现的

闭频繁项集Y的真子集

并且两者的支持度计数相等

则X和Y的所有后代都不可能是

闭频繁项集

因此可以剪枝

例 闭模式

此表给出了事务数据

假设最小支持度为2

求出闭频繁项集

根据表中的事务数据

得到部分频繁项集

{d} {e} {ac} {de} {abc} {acd} {ace}

这些频繁项集的支持度

都大于等于2

并且不存在

等于它们本身支持度的真超集

所以这些频繁项集是

闭频繁项集

表中所有的闭频繁项集如图所示

而频繁项集a的真超集ac的支持度

和频繁项集a的支持度都为4

所以频繁项集a不是闭频繁项集

如果在数据集中

不存在频繁项集X的真超项集Y

并且Y也是频繁项集

那么称项集X是这个数据集的

极大频繁项集

极大频繁项集中隐含着

全部的频繁项集

可以推导出极大频繁项集是

闭频繁项集

而闭频繁项集不一定是

极大频繁项集

对于表中的数据

依旧假设最小支持度为2

从上例中可知闭频繁项集

包括下面的集合

{d} {e} {ac} {de} {abc} {acd} {ace}

由于频繁项集中不存在

{de} {abc} {acd} {ace}等项集的

真超频繁项集

因此{de} {abc} {acd} {ace}为

极大频繁项集

如图所示

通常较大的数据集会产生

许多频繁项集

而过大的频繁项集个数会占用

和消耗计算机的资源

使得计算机无法计算和存储

因此引入极大频繁项集的概念

极大频繁项集有效地提供了

频繁项集的紧凑表示

换句话说

极大频繁项集形成了

可以导出所有频繁项集的

最小的项集的集合

对于可能产生频繁项集的数据集

因为这种数据集中的频繁项集

可能有指数多个

所以极大频繁项集提供了

颇有价值的表示

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

6.4 压缩频繁项集笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。