当前课程知识点:R语言数据分析 > 下部:博术 > 第11章 相随相伴、谓之关联 > 11.3 关联规则(II)
大家好
欢迎来到《R语言数据分析》课程
今天继续与大家交流
关联规则的相关内容
我们前面课程里面讲到
所有的模型都是错的
但是有些是有用的
如何找到这个有用的模型
我们所有的模型都必须经过评估
关联规则的挖掘也不例外
只要我产生这个频繁项集
挖到相应的关联规则
我后面也必须进行评估
然后才能知道这些规则
是不是有趣的
是不是有意义的
是不是有用的
咱们看个例子
假定我们现在对购买计算机游戏的game
和那个录像这个事务比较感兴趣
看看二者是否存在关联关系
我们在所分析的1万个事务中
显示有6000个事务是包含计算机游戏的
有7500个事务是包含这个录像的
然后有4000个事务
同时包含计算机游戏和录像
这个时候其实我们很容易算出来
这个P(A)
P(B)
以及P(A∪B)
它们各自所占的比例 也就是概率
我们现在可以设置最小支持度为30%
最小置信度为60%
当然我们这边只是为了演示用
一般来讲支持度的话可能都是百分之几
可能都是个位数
它很少出现这个百分之几十的这个支持度
置信度的话
可能相对来说
值是要高一点
百分之八九十
类似这样的
我们来看一下
我们现在是否可以得出这么一条规则
我们计算一下
比如说这个game的话
这个游戏的话
我们视为什么视为A
然后这个录像我们视为B
那我们看一下
这个时候它的支持度
毫无疑问是应该多少
应该是百分之多少
4000÷10000
40%对吧
那这个置信度
应该是这种
P(AB)除以多少
除以这个P(A)
这个时候P(A)是谁
P(A)是购买游戏的
这个用户(口误:事务)
包含游戏的事务有多少呢
包含游戏的事务有6000
对吧
这是6000
我们直接用这个支持度计数来计算一样的
然后上面这个A和B同时出现的有多少
我们看了一下
有4000个事务同时出现了
毫无疑问这段这个时候的结果就是66%
对吧
假定我们设置的最小支持度为30%
最小置信度为60%的话
那好毫无疑问
这个这条规则是满足这个要求的
也就是说我们可以视它为一个强规则
但是是不是真的意味着
我购买了这个计算机游戏之后
我还会倾向于购买这个录像
恰恰相反
为什么
因为这二者是一个负的相关关系
我们可以这样简单理解
我们这个置信度
就是当我购买了这个游戏的情况之下
我再购买什么
我再购买录像
它概率多少
它概率是66%
概率是66%
但实际上我随机的抽取某一个事务
这里面它包含什么
它包含录像的概率多少
是75%
也说我这个事务里面
假如我看到了他已经购买了游戏的话
他可能再购买录像
再购买这个录像
同时包含录像的话
可能性只有66%
但假如我随机抽取一个记录
它包含这录像的概率是多少
75%
毫无疑问
怎么样
出现了这个游戏的话
不是说有助于消费者购买录像
而是恰恰相反的一个作用
是一个负作用
这个时候我们就发现
其实通过这个支持度
和置信度
来判断一个规则是否是有趣的
是否是有用的
还是不够的
我们需要再引入一个新的
一个指标 是什么
提升度
提升度的计算公式
也相对比较简单
分子还是A和B它的支持度
还是A和B它的支持度
然后分母呢
就是A的支持度
和B的支持度相乘
这么一个计算公式
如果这个提升度小于1的话
那A的出现和B的出现它是一个负相关的关系
否则的话
它是大于1的话
这个时候应该就是正相关的关系
也就是说它是评估一个项集出现
这时候就是左项和右项
它一个出现了
提升另外一个出现的程度
这是一个提升度一个最直观的一个理解
咱们公式既然是这样定义的
然后我们的直观的意义是什么
我是想知道
一者出现了
是否能提升另外一者出现的程度
那我们看看这个公式怎么理解
上面是A和B同时出现的支持度
下面是A和B分别出现了支持度的一个乘积
这时候就表明了我们
一者出现是否提升另外一个出现的程度吗
我们把这公式稍微再换一个形式
换个形式
比如说我现在怎么样
我将这一部分先括起来
毫无疑问是什么
其实就是什么
B出现的时候
A出现了什么
概率对不对
那好
除以谁
A出现的概率
这时候我们再看这个公式的话
就很容易理解的
它确实是什么就是提升度
就是B出现的时候
A出现的概率有多大
直接再除以什么A出现的概率
那毫无疑问
B出现之后我能是不是
真的提升了A出现的概率
是吧
当然我们可以把这部分也括起来
这另外一种看法
得到什么 就是这个
就是A出现的时候
B出现的概率对不对
就是A出现了是否提升B出现的概率
这就是说一个提升度的
一个最基本的一个理解
当然这样看的话
相对还是有点抽象的
我们还是借助于一些图形来直观地展示的
当然文氏图
在分析这些相互之间关系的时候
是一个比较有效的工具
就是通过这个文氏图来看
这里面提升度支持度和置信度
但是我们现在有个更好的工具
来看一下
它本质上和文氏图差不多
但是它可能计算起来更加方便
咱们这个课自己做了一个图
这个图是什么样的
我做了一个5×20
的这么一个矩阵这么一个图
然后这里面总共多少个
总共有一百个小方块
现在我们假定这个红色的部分就是什么
就是我们购买尿不湿的这些事务
然后被涂成这个蓝色的部分是什么
就是购买啤酒的这么一个相应的事务
重叠的部分毫无疑问就是什么
同时购买了啤酒和尿不湿
假如我们现在看这100个事务里面
有10个是购买了这个尿不湿的
有这么20个是购买了什么啤酒的
同时还有1个是什么
既购买了尿不湿
也购买了啤酒
那我们来看一看这个时候
它的支持度
它的相应的置信度
以及提升度分别是多少
我们可以计算一下
所谓支持度就重叠部分除以总面积
对不对
这个时候毫无疑问是多少
1÷100
是1%
那购买啤酒也购买尿布
这个置信度是多少
相当于什么
重叠部分的面积
这部分面积除以谁
除以这个啤酒这边的面积
对不对
所以这个蓝色的部分
也就说这个重叠部分除以这个蓝色的部分
这就所谓购买啤酒的时候也购买尿布
它这个置信度
反过来购买尿布的时候也同时购买什么
也购买这个啤酒的话
它的置信度多少
重叠的部分除以谁
除以这个分母
除以这个尿布这一部分对不对
那这个时候我们最需要说明的是什么
是这个提升度的概念
提升度怎么计算
这个重叠的部分占我什么
占红色部分的比例
和谁相比
和整个这个蓝色的部分占什么
占整个这个全部事务的比例
这两个比例之比
也就是红中之蓝除以总的蓝
它的比例
我们看看这个具体的数值分别多少
毫无疑问
重叠部分除以总面积应该是1%
那重叠部分就是由啤酒
购买啤酒的时候也购买尿不湿的话
这个置信度是多少
重叠部分除以多少除以整个蓝色的部分
1/20
然后这个购买
要不也购买啤酒的话
这个时候是什么
就是重叠部分除以多少
除以这个红色的部分
除以10
得1/10
这个是比较关键的
就这个提升度
提升度毫无疑问
就是蓝色部分占重叠部分就是红中之蓝
它比例多少
1/10
我拿10个事务的话
它应该可能有1个出现
一旦我看到我着购物篮里面有这个尿布了
我看10个有可能出现
其中有1个是有啤酒的
那好
那它的那个本身这个蓝色的部分
本身出现啤酒的话
它的概率多少
本身出现啤酒概率有多少
是20除以多少
除以100
也就是说10个里面有可能出现2个
就我随机的抽10个的话
这里面可能出现2次有这个啤酒
毫无疑问这个时候提升度多少
提升度是0.5
它是一个负相关的关系
假如这么一个图形的话
这么一种那个事务的分布的话
那啤酒和尿布它就是一个负相关的关系的
并不是说购买了这个尿布
有助于提升这个
购买啤酒的什么这个程度
假如咱们是这么一种情况的话
这么种情形
重叠部分稍微多一点
毫无疑问
这个时候重叠部分
与总面积之比也就这个支持度的话
就变成了2%了
对吧
同样这个购买啤酒的时候也购买尿布的话
也就重叠部分除以多少除以这个20
对不对
那下面是重叠部分除以10
再看这个时候提升度是多少
就是这红中之蓝
它占的红的比例是多少
2/10
对不对
然后总的就是随机从这100个数里面
抽取1个看是否包含这个啤酒的话
它概率多少
20%
那好
20%和2/10
毫无疑问是相同的
这个时候相当于什么
相当于没有提升的作用
正好就是1了
假如重叠部分更多一点的话
我们再看这种情形
这个时候我重叠部分与什么
总面积之比
毫无疑问是3对吧
3÷100对吧
然后重叠部分面积
和这个蓝色部分面积之比是多少呢
3÷20
下面的3÷10
对吧
3÷10
也就说假如购买了尿布了
他这个时候同时也购买啤酒的话
这个置信度是3/10
这时候我们再看一看这个提升度
这个提升度是相当于什么
就是也是红中之蓝
就是我知道我已经知道我购买了这个尿布了
他这个时候购买啤酒的概率多大
3/10
3/10
3/10
这一百个事物里面随机抽取
它有可能包含这个啤酒的可能性多大
20/100
相当于是2/10
3/10÷2/10
毫无疑问
这时候提升度多少
1.5
这个时候毫无疑问
啤酒和尿布相互之间是有一个提升关系了
它二者之间是相互之间提升对方出现的可能性
对不对
当然我们可以反过来看另外一种方法看也可以
就是我看这个蓝中之红和总红的比较
这个比例是一样的
提升度的话无所谓方向
就是规则A到B和规则B出现了
A也出现这两条规则
它其实提升度都是一样的
这两个规则所不同的支持度和提升度都是一样
所不同的只是什么
置信度表示这个方向的置信度有所不同
以上我们就通过这个类似于文氏图的方法
对我们整个这个支持度 置信度 提升度
进行了一个直观地展示
在我们后续的那个课程里面
具体讲如何来实现它
通过这个R里面相应的扩展包
来实现这个apriori的算法
同时我们在挖出规则之后
要检验这些相应的这几个指标
至少有三个指标是需要检验的
一个是支持度
一个置信度
一个提升度
本次课到此结束
谢谢大家
-第1章 气象万千、数以等观
--第1章 作业
-第2章 所谓学习、归类而已
--第2章 作业
-第3章 格言联璧话学习
--第3章 作业
-第4章 源于数学、归于工程
--第4章 作业
-讨论题
-第5章 工欲善其事、必先利其器
--第5章 作业
-第6章 基础编程——用别人的包和函数讲述自己的故事
--6.1 编程环境
--6.4 控制流
--第6章 作业
-第7章 数据对象——面向数据对象学习R语言
--第7章 作业
-第8章 人人都爱tidyverse
--第8章 作业
-第9章 最美不过数据框
--第9章 作业
-第10章 观数以形
--第10章 作业
-第11章 相随相伴、谓之关联
--11.1 导引
--第11章 作业
-第12章 既是世间法、自当有分别
--12.1 导引
--第12章 作业
-第13章 方以类聚、物以群分
--13.1 导引
--第13章 作业
-第14章 庐山烟雨浙江潮
--第14章 作业