当前课程知识点:数据挖掘 > 第6章 频繁模式 > 6.4 压缩频繁项集 > 6.4 压缩频繁项集
在实际应用中
当最小支持度阈值较低
或者数据规模较大时
使用频繁模式挖掘事务数据
可能产生过多的频繁项集
而闭频繁模式
极大模式等模式可以显著减少
频繁模式挖掘所产生的
频繁项集数量
如果X∈Y
且Y中至少有一项不在X中
那么Y是X的真超项集
如果在数据集中不存在
频繁项集X的真超项集Y
使得X Y的支持度相等
那么称项集X是这个数据集的
闭频繁项集
闭项集提供了频繁项集的
一种最小表示
提供了完整的项目集的压缩描述
通常比频繁模式要小几个数量级
如果首先得到所有的频繁项集
然后根据相应的规则
删除部分频繁项集
那么用户会得到
2的阶乘级别数量的频繁项集
会导致极大的开销
在实际应用中
推荐的方法是直接搜索闭频繁项集
并对搜索结果进行剪枝
剪枝的策略如下
一 项合并
如果包含频繁项集X的
每个事务都包含项集Y
但不包含Y的任何真超集
则X∪Y形成一个闭频繁项集
并且不必搜索包含X
但不包含Y的任何项集
二 子项集剪枝
如果频繁项集X是一个已经发现的
闭频繁项集Y的真子集
并且两者的支持度计数相等
则X和Y的所有后代都不可能是
闭频繁项集
因此可以剪枝
例 闭模式
此表给出了事务数据
假设最小支持度为2
求出闭频繁项集
根据表中的事务数据
得到部分频繁项集
{d} {e} {ac} {de} {abc} {acd} {ace}
这些频繁项集的支持度
都大于等于2
并且不存在
等于它们本身支持度的真超集
所以这些频繁项集是
闭频繁项集
表中所有的闭频繁项集如图所示
而频繁项集a的真超集ac的支持度
和频繁项集a的支持度都为4
所以频繁项集a不是闭频繁项集
如果在数据集中
不存在频繁项集X的真超项集Y
并且Y也是频繁项集
那么称项集X是这个数据集的
极大频繁项集
极大频繁项集中隐含着
全部的频繁项集
可以推导出极大频繁项集是
闭频繁项集
而闭频繁项集不一定是
极大频繁项集
对于表中的数据
依旧假设最小支持度为2
从上例中可知闭频繁项集
包括下面的集合
{d} {e} {ac} {de} {abc} {acd} {ace}
由于频繁项集中不存在
{de} {abc} {acd} {ace}等项集的
真超频繁项集
因此{de} {abc} {acd} {ace}为
极大频繁项集
如图所示
通常较大的数据集会产生
许多频繁项集
而过大的频繁项集个数会占用
和消耗计算机的资源
使得计算机无法计算和存储
因此引入极大频繁项集的概念
极大频繁项集有效地提供了
频繁项集的紧凑表示
换句话说
极大频繁项集形成了
可以导出所有频繁项集的
最小的项集的集合
对于可能产生频繁项集的数据集
因为这种数据集中的频繁项集
可能有指数多个
所以极大频繁项集提供了
颇有价值的表示
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2