当前课程知识点:互联网大规模数据分析技术 > 第二章 关联规则 > 第2讲 频繁项集和关联规则的基本概念 > 第2讲 频繁项集和关联规则的基本概念
同学们好
欢迎来到
互联网大规模数据分析技术课堂
我是这节课的主讲教师张蕊
来自武汉理工大学
这节课我们一起来了解一下
频繁项集和关联规则的基本概念
我们先来看一个小例子
大家去当当购物的时候
经常会看到这样的场景
比如说现在我搜索了韩家炜的
《数据挖掘:概念与技术》这本书
当当告诉我买过这本书的人还买了
提供了一系列相关书籍
当然这很有用
因为我很可能
就会去点下面的这些书
也许会发现我很感兴趣
但我还没有购买的书
那么我就会去购买
能够支持类似应用的技术
就是频繁模式挖掘或者关联分析
这也是数据挖掘领域
最具影响力的技术之一
什么是频繁模式呢
频繁模式指的是
数据集中频繁一起发生的模式
这里的模式可能是
项集-比如放到购物车中的商品
子序列-比如股票的一段价格走势
或者子结构
比如社交网络中的人和相互关系等等
简单地说呢
关联分析旨在发现
项集之间有趣的关联或相关性
在刚才当当购物的这个例子里面
《数据挖掘:概念与技术》
这本书你可看成一个项一个item
《数据挖掘与R语言》可以看成
另外一个项另外一个item
那在这个例子里
频繁模式就是
发现经常一起购买的书
这样的模式
其实这是购物篮分析的一个小例子
购物篮分析是频繁项集挖掘
或关联分析的典型应用
目的是要通过
大量顾客购买的数据发现
哪些商品经常被一起购买
他的方法来是
通过处理超市pos终端
收集到的大量顾客购买的数据
进行分析
一个很经典的例子就是啤酒与尿布
上个世纪90年代的美国
沃尔玛超市中
通过分析销售数据发现
“啤酒”与“尿布”
会经常出现在同一个购物篮中
虽然这看上去有点奇怪
但利用这个规律
通过将啤酒与尿布摆放在
相同的区域
或一起促销等方法
很好地提高了
这两件商品的销售收入
我们现在来了解一下
频繁模式的一些基本概念
我们有很多的item
这里的item是项
或者说你可以想象成
超市里出售的商品
一个或者是多个项的集合
构成项集itemset
k项集指的是
这个项的集合当中有k个项
进行频繁模式挖掘
或者是关联分析的基础
是事务数据库
事务数据库是由多个事务
或者说transaction组成的
每个事务是一些项的集合
或者你可以想象成一个购物篮
顾客放在购物篮中一次购买的
那些商品就是一个事务
一个transaction
所以频繁模式挖掘那就是想发现
那些经常被放到
一个购物篮当中的商品
经常被放到一个购物篮当中的商品
是我们所关注的
那怎么来衡量这个经常呢
我们可以用支持度来进行评估
支持度有两种
一种是绝对支持度
是项集发生的频度
或者是它的出现次数
这是一个整数
另一种是相对支持度
这是一个百分比或者说是一个概率
衡量所有这些事务中
某个项集出现的比例是多少呢
它出现的概率是多少呢
对某个项集计算出来的支持度
无论是计数或者是百分比
我们去和给定的阈值进行比较
如果不小于给定的支持度阈值
或者说大于等于给定的支持度阈值
我们就认为它是频繁的
它是一个频繁项集
现在我们来看课件上的这个例子
在这个例子当中有5个事务
或者你可以认为是5个购物篮
然后他们分别放置了相应的商品
比如说第一个购物篮放的是
啤酒、坚果、尿布
第二个购物篮放的是
啤酒、咖啡、尿布等等
那现在我们来看一下
给定的最小支持度阈值
是50%的情况下
频繁项集是哪一些呢
50%是一个相对支持度
一共有5个事务
换算成最小支持度计数的话
这个阈值应该是多少呢
那就是5乘以50%=2.5
当然应该是个整数,所以取3
出现次数大于等于3的这些项集
就是频繁项集
那么
哪些项集的出现次数大于等于3呢
因为这是一个很简单的小例子
所以我们可以用肉眼看出来
比如说
看单个项,1项集
啤酒出现了3次
所以它是频繁项集
坚果也是3次
所以也是频繁项集
类似的,尿布,4次,频繁项集
鸡蛋,3次,频繁项集
那2项集呢
两个项一起出现的次数
大于等于3的有什么呢
我们这里只有啤酒和尿布
同时出现的次数大于等于3
所以只有啤酒和尿布是频繁2项集
现在我们来了解一下
关联规则的一些基本概念
关联规则是X->Y的蕴含式
而且我们感兴趣的是
大于等于最小支持度和
最小可信度的关联规则
我们叫它强关联规则
频繁项集的支持度
我们刚刚已经讲过了
那么对一个X->Y的关联规则
它的支持度是什么呢
它的支持度是X和Y
同时出现的概率
那可信度是什么呢
可信度是x发生的情况下
Y发生的条件概率
还是课件上的这个例子
如果最小可信度是50%
有哪些强关联规则呢
注意,这里X和Y都不能是空集
前面我们已经发现
只有啤酒和尿布同时出现的概率
大于50%
那只有啤酒->尿布
尿布->啤酒
这样的关联规则
可能满足最小支持度了
但它们的可信度是多少呢
可信度是X发生的情况下
Y发生的条件概率
对于啤酒->尿布这样的关联规则
购买啤酒的情况下
购买尿布的条件概率是多少
那应该是
啤酒和尿布同时购买的概率
除以购买啤酒的概率
啤酒和尿布同时购买的概率
是多少呢
事务数据库中前三条事务
是同时购买了啤酒和尿布的
那单独购买啤酒的概率呢
还是这三条事务
所以它这个条件概率
应该是百分之百
也就是说
啤酒->尿布规则的可信度
是百分之百
那尿布->啤酒
这条关联规则的可信度
是多少呢
尿布和啤酒同时购买的
仍然是前三条事务
尿布被单独购买的有四条事务
这些可信度就是四分之三
百分之七十五
因为最小可信度设定的是50%
所以,这两条关联规则
都满足我们的要求
也就是我们所说的强关联规则
本节课的内容到此结束
谢谢大家的观看
-第1讲 大数据与数据挖掘概述
-第2讲 频繁项集和关联规则的基本概念
-第3讲 Apriori算法
-第4讲 Apriori算法的改进与兴趣度度量
-第5讲 分类的基本概念
-第6讲 决策树
--第6讲 决策树
-第7讲 简单贝叶斯分类
-第8讲 聚类的基本概念
-第9讲 K-Means & K-Medoids Clustering
--第9讲 K-Means & K-Medoids Clustering
-第四章 聚类算法--习题
-第10讲 大数据处理平台Hadoop
-第11讲 MapReduce编程
-第12讲 大数据处理平台Spark
-第13讲 NoSQL数据库
-第14讲 Web信息检索简介
-第15讲 信息检索之倒排索引
-第16讲 信息检索之TFIDF
--Video
-第17讲 信息检索之相似度排序
-第18讲 Web搜索之链接分析
-第19讲 Web搜索之PageRank
-第20讲 Lucene信息检索平台
-第七章 Web链接分析--习题
-第21讲 推荐系统简介
-第22讲 推荐系统之协同过滤
-第23讲 Mahout数据挖掘平台
-第24讲 信息过滤评价体系
-第八章 推荐系统--习题一
-第八章 推荐系统--习题二
-综合编程题




