当前课程知识点：互联网大规模数据分析技术 > 第二章关联规则 > 第2讲频繁项集和关联规则的基本概念 > 第2讲频繁项集和关联规则的基本概念

返回《互联网大规模数据分析技术》慕课在线视频课程列表

第2讲频繁项集和关联规则的基本概念在线视频

下一节:第3讲 Apriori算法

返回《互联网大规模数据分析技术》慕课在线视频列表

第2讲频繁项集和关联规则的基本概念课程教案、知识点、字幕

同学们好

欢迎来到

互联网大规模数据分析技术课堂

我是这节课的主讲教师张蕊

来自武汉理工大学

这节课我们一起来了解一下

频繁项集和关联规则的基本概念

我们先来看一个小例子

大家去当当购物的时候

经常会看到这样的场景

比如说现在我搜索了韩家炜的

《数据挖掘：概念与技术》这本书

当当告诉我买过这本书的人还买了

提供了一系列相关书籍

当然这很有用

因为我很可能

就会去点下面的这些书

也许会发现我很感兴趣

但我还没有购买的书

那么我就会去购买

能够支持类似应用的技术

就是频繁模式挖掘或者关联分析

这也是数据挖掘领域

最具影响力的技术之一

什么是频繁模式呢

频繁模式指的是

数据集中频繁一起发生的模式

这里的模式可能是

项集-比如放到购物车中的商品

子序列-比如股票的一段价格走势

或者子结构

比如社交网络中的人和相互关系等等

简单地说呢

关联分析旨在发现

项集之间有趣的关联或相关性

在刚才当当购物的这个例子里面

《数据挖掘：概念与技术》

这本书你可看成一个项一个item

《数据挖掘与R语言》可以看成

另外一个项另外一个item

那在这个例子里

频繁模式就是

发现经常一起购买的书

这样的模式

其实这是购物篮分析的一个小例子

购物篮分析是频繁项集挖掘

或关联分析的典型应用

目的是要通过

大量顾客购买的数据发现

哪些商品经常被一起购买

他的方法来是

通过处理超市pos终端

收集到的大量顾客购买的数据

进行分析

一个很经典的例子就是啤酒与尿布

上个世纪90年代的美国

沃尔玛超市中

通过分析销售数据发现

“啤酒”与“尿布”

会经常出现在同一个购物篮中

虽然这看上去有点奇怪

但利用这个规律

通过将啤酒与尿布摆放在

相同的区域

或一起促销等方法

很好地提高了

这两件商品的销售收入

我们现在来了解一下

频繁模式的一些基本概念

我们有很多的item

这里的item是项

或者说你可以想象成

超市里出售的商品

一个或者是多个项的集合

构成项集itemset

k项集指的是

这个项的集合当中有k个项

进行频繁模式挖掘

或者是关联分析的基础

是事务数据库

事务数据库是由多个事务

或者说transaction组成的

每个事务是一些项的集合

或者你可以想象成一个购物篮

顾客放在购物篮中一次购买的

那些商品就是一个事务

一个transaction

所以频繁模式挖掘那就是想发现

那些经常被放到

一个购物篮当中的商品

经常被放到一个购物篮当中的商品

是我们所关注的

那怎么来衡量这个经常呢

我们可以用支持度来进行评估

支持度有两种

一种是绝对支持度

是项集发生的频度

或者是它的出现次数

这是一个整数

另一种是相对支持度

这是一个百分比或者说是一个概率

衡量所有这些事务中

某个项集出现的比例是多少呢

它出现的概率是多少呢

对某个项集计算出来的支持度

无论是计数或者是百分比

我们去和给定的阈值进行比较

如果不小于给定的支持度阈值

或者说大于等于给定的支持度阈值

我们就认为它是频繁的

它是一个频繁项集

现在我们来看课件上的这个例子

在这个例子当中有5个事务

或者你可以认为是5个购物篮

然后他们分别放置了相应的商品

比如说第一个购物篮放的是

啤酒、坚果、尿布

第二个购物篮放的是

啤酒、咖啡、尿布等等

那现在我们来看一下

给定的最小支持度阈值

是50%的情况下

频繁项集是哪一些呢

50%是一个相对支持度

一共有5个事务

换算成最小支持度计数的话

这个阈值应该是多少呢

那就是5乘以50%=2.5

当然应该是个整数，所以取3

出现次数大于等于3的这些项集

就是频繁项集

那么

哪些项集的出现次数大于等于3呢

因为这是一个很简单的小例子

所以我们可以用肉眼看出来

比如说

看单个项，1项集

啤酒出现了3次

所以它是频繁项集

坚果也是3次

所以也是频繁项集

类似的，尿布，4次，频繁项集

鸡蛋，3次，频繁项集

那2项集呢

两个项一起出现的次数

大于等于3的有什么呢

我们这里只有啤酒和尿布

同时出现的次数大于等于3

所以只有啤酒和尿布是频繁2项集

现在我们来了解一下

关联规则的一些基本概念

关联规则是X->Y的蕴含式

而且我们感兴趣的是

大于等于最小支持度和

最小可信度的关联规则

我们叫它强关联规则

频繁项集的支持度

我们刚刚已经讲过了

那么对一个X->Y的关联规则

它的支持度是什么呢

它的支持度是X和Y

同时出现的概率

那可信度是什么呢

可信度是x发生的情况下

Y发生的条件概率

还是课件上的这个例子

如果最小可信度是50%

有哪些强关联规则呢

注意，这里X和Y都不能是空集

前面我们已经发现

只有啤酒和尿布同时出现的概率

大于50%

那只有啤酒->尿布

尿布->啤酒

这样的关联规则

可能满足最小支持度了

但它们的可信度是多少呢

可信度是X发生的情况下

Y发生的条件概率

对于啤酒->尿布这样的关联规则

购买啤酒的情况下

购买尿布的条件概率是多少

那应该是

啤酒和尿布同时购买的概率

除以购买啤酒的概率

啤酒和尿布同时购买的概率

是多少呢

事务数据库中前三条事务

是同时购买了啤酒和尿布的

那单独购买啤酒的概率呢

还是这三条事务

所以它这个条件概率

应该是百分之百

也就是说

啤酒->尿布规则的可信度

是百分之百

那尿布->啤酒

这条关联规则的可信度

是多少呢

尿布和啤酒同时购买的

仍然是前三条事务

尿布被单独购买的有四条事务

这些可信度就是四分之三

百分之七十五

因为最小可信度设定的是50%

所以，这两条关联规则

都满足我们的要求

也就是我们所说的强关联规则

本节课的内容到此结束

谢谢大家的观看

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

-第1讲大数据与数据挖掘概述

--第1讲大数据与数据挖掘概述

第二章关联规则

-第2讲频繁项集和关联规则的基本概念

--第2讲频繁项集和关联规则的基本概念

-第3讲 Apriori算法

--第3讲 Apriori算法

-第4讲 Apriori算法的改进与兴趣度度量

--第4讲 Apriori算法的改进与兴趣度度量

第三章分类算法

-第5讲分类的基本概念

--第5讲分类的基本概念

-第6讲决策树

--第6讲决策树

-第7讲简单贝叶斯分类

--第7讲简单贝叶斯分类

第四章聚类算法

-第8讲聚类的基本概念

--第8讲聚类的基本概念

-第9讲 K-Means & K-Medoids Clustering

--第9讲 K-Means & K-Medoids Clustering

-第四章聚类算法--习题

第五章大数据平台与技术

-第10讲大数据处理平台Hadoop

--第10讲大数据处理平台Hadoop

-第11讲 MapReduce编程

--第11讲 MapReduce编程

-第12讲大数据处理平台Spark

--第12讲大数据处理平台Spark

-第13讲 NoSQL数据库

--第13讲 NoSQL数据库

第六章信息检索

-第14讲 Web信息检索简介

--第14讲 Web信息检索简介

-第15讲信息检索之倒排索引

--第15讲信息检索之倒排索引

-第16讲信息检索之TFIDF

-第17讲信息检索之相似度排序

--第16讲信息检索之TFIDF

第七章 Web链接分析

-第18讲 Web搜索之链接分析

--第18讲 Web搜索之链接分析

-第19讲 Web搜索之PageRank

--第19讲 Web搜索之PageRank

-第20讲 Lucene信息检索平台

--第20讲 Lucene信息检索平台

-第七章 Web链接分析--习题

第八章推荐系统

-第21讲推荐系统简介

--第21讲推荐系统简介

-第22讲推荐系统之协同过滤

--第22讲推荐系统之协同过滤

-第23讲 Mahout数据挖掘平台

--第23讲 Mahout数据挖掘平台

-第24讲信息过滤评价体系

--第24讲信息过滤评价体系

-第八章推荐系统--习题一

-第八章推荐系统--习题二

自我提升练习

-综合编程题

第2讲频繁项集和关联规则的基本概念笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。