当前课程知识点:数据挖掘 > 第6章 频繁模式 > 6.5 关联模式评估 > 6.5 关联模式评估
在实际应用中
需要处理的数据集的数据量
和数据维数往往大得超乎估计
而运用频繁模式挖掘所得到的规则
通常包含了大量用户并不感兴趣的规则
当最小置信度阈值
和支持度阈值比较小的时候
这种情况尤其严重
因此需要一组广受认同的
评价关联模式质量的标准
本节介绍支持度-置信度框架
然后引入相关性分析
最后讨论比较有效的模式评估度量
支持度-置信度框架
频繁模式通常基于以下假设
涉及相互独立的项
或覆盖少量事务的模式
是用户不感兴趣的模式
而这些模式通常用客观兴趣度度量来进行评判
客观兴趣度度量不依赖领域
往往根据事务数据推导出来的统计量
来进行评判
应用较为广泛的有支持度
置信度和相关性
而支持度-置信度框架认为
如果关联规则同时满足
最小支持度和最小置信度
则此关联规则为强关联规则
假设进行分析喜好
两种不同手机的用户之间的关系
使用此表中的汇总数据
设最小支持度阈值为0.3
最小置信度阈值为0.6
由于关联规则{小米}=>苹果}
如果购买苹果手机
则购买小米手机的支持度为0.4
大于最小支持度阈值0.3
置信度为0.66
大于最小值置信度阈值0.6
因此可以认为
此规则为强关联规则
但是 在事实上
小米手机和苹果手机是相互排斥的
尽管该规则具有
很高的置信度和支持度
实际上却是误导
支持度的计算会导致许多支持度较低
但是潜在有意义的模式未删除
同时 置信度则只考虑关联规则中
部分项集的支持度
忽略了其他项集的关联性
因此 需要使用有效的方法
来代替支持度-置信度框架
相关性分析
由于支持度-置信度框架的种种局限性
可以使用提升度等相关性度量来对
支持度-置信度框架进行扩充
1 提升度
支持度-置信度框架中的置信度
忽略了规则后件中项集的支持度
而提升度则有助于解决这个问题
令A和B表示不同的项集
P(*)表示项集*
在总体数据集中的出现概率
根据统计学定义
如果项集A和项集B的A并B的概率
等于A的概率乘以B的概率
那么项集A和项集B是相互独立的
否则两者是相互依赖的
项集A和项集B的提升度定义如下式所示
lift(A,B)=
P(A∪B)/P(A)P(B)
如果A和B的提升度的值等于1
说明A和B相互独立
如果A和B的提升度的值大于1
说明A和B正相关
如果A和B的提升度的值小于1
说明A和B负相关
例 提升度
在手机偏好的例子中
使用表中的数据可以得出
{苹果手机}和 {小米手机}的
提升度为
0.4/(0.75*0.6)=0.89
因此可以看出
苹果手机和小米手机是负相关的
2 杠杆度
杠杆度和提升度的含义相近
其定义如下式所示
leverage(A,B)=
P(A∪B)-P(A)P(B)
如果A和B的杠杆度的值等于0
则说明A和B相互独立
如果A和B的杠杆度的值大于0
说明A和B正相关
并且杠杆度越大
说明A和B的关系越密切
如果A和B的杠杆度的值小于0
说明A和B负相关
例 杠杆度
在手机偏好的例子中
使用表中的数据可以得出
{苹果手机}
和{小米手机} 的杠杆度为
0.4-0.6*0.75=-0.05
因此也可以看出苹果手机
和小米手机是负相关的
3 皮尔森相关系数
另一种相关性分析
常用的度量是皮尔森相关系数
皮尔森相关系数能够
反映两个变量的相似程度
皮尔森相关系数值越大
表明两个变量的相关性越强
对于二元变量
皮尔森相关系数定义如下式所示
皮尔森相关系数的取值区间是
[-1,1]
-1说明两个变量完全负相关
1说明两个变量完全正相关
例 皮尔森相关系数计算
在手机偏好的例子中
使用表中的数据可以得出
苹果手机和小米手机的
皮尔森相关系数为
说明两者一定程度负相关
但是皮尔森相关系数也有其局限性
当样本成比例变化时
皮尔森相关系数不能保持不变
皮尔森相关系数不仅关注了
项在事务中同时出现的情况
而且将项在事务中
不出现的情况也考虑其中
视两者的权值相等
4 IS度量
当两种不同关联的置信度
和提升度都相近时
可以使用IS度量进行分析
IS度量通常用于处理非对称二元变量
IS度量定义如下式所示
IS度量的数值越大
说明A和B之间的关联越强
例 IS度量
在手机偏好的例子中
使用表中的数据可以得出
苹果手机和小米手机的IS度量为
说明苹果手机和小米手机关联一般
4 确信度
确信度能够度量一个规则的强度
同时衡量A和B之间的独立性
确信度定义如下式所示
确信度数值越大
说明A和B关系越紧密
例 确信度
在手机偏好的例子中
使用表中的数据可以得出
苹果手机和小米手机的确信度为
说明苹果手机和小米手机不紧密
模式评估度量
不包含任何考察项集的事务
被称作零事务
在苹果、小米的例子中
既不买苹果手机
也不买小米手机即为零事务
在某些场景下
零事务的个数有可能
大大超过个体购买的个数
提升度、皮尔森相关系数等度量
在很大程度上受零事务的影响
因此它们识别关联模式
关联关系的能力较差
因此在此提出几种不受零事务影响的
零不变的度量
1 全置信度
全置信度反映了规则A蕴含B
和规则B蕴含A的最小置信度
全置信度定义如下式所示
对于项集A和B
全置信度越大
说明规则规则A蕴含B
和规则B蕴含A的最小置信度越大
那么A和B关系越紧密
反之A和B关系越疏远
例 全置信度
在手机偏好的例子中
使用表中的数据可以得出
{苹果手机}和{小米手机}的
全置信度为
则可以说明苹果手机和小米手机的关系一般
2 极大置信度
极大置信度则反映了规则A蕴含B
和规则B蕴含A的最大置信度
极大置信度定义如下式所示
对于项集A和B
极大置信度越大
A和B关系越紧密
例 极大置信度
在手机偏好的例子中
使用表中的数据可以得出
{苹果手机}和{小米手机}的
极大置信度为
说明两者可能关系一般
3 Kulczynski度量
Kulczynski度量表示在
项集A存在的情况下
项集B也存在的条件概率和
在项集B存在的情况下
项集A也存在的条件概率之和的平均值
Kulczynski度量定义如下
对于项集A和B
Kulczynski度量越大
说明平均可信程度越大
那么A和B关系越紧密
例 Kulczynski度量
在苹果、小米的例子中
使用表中的数据可以得出
{苹果手机}和{小米手机}的
Kulczynski度量为
说明两者关系一般
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2