第7讲简单贝叶斯分类慕课视频播放-互联网大规模数据分析技术-MOOC慕课视频教程-柠檬大学

同学们好

欢迎来到

互联网大规模数据分析技术课堂

我是这节课的主讲教师张蕊

来自武汉理工大学

这节课我们一起来了解一下

简单贝叶斯分类

贝叶斯分类是统计学分类方法

它可以用来预测

某个对象隶属某类的概率

贝叶斯分类基于贝叶斯定理

在假定属性的影响独立的情况下

被称为简单贝叶斯分类

尽管简单贝叶斯分类

从数学模型上来说并不复杂

但它的性能却很不错

和决策树、神经网络的效果相当

同时它还可以进行增量计算

也就是增加或减少

一些样本的话可以动态调整

而不用全部重新计算

因此简单贝叶斯分类

常常作为分类研究中的

一个基准算法来进行比较

现在了解下

简单贝叶斯分类的理论基础

假设X是数据样本

类标签未知

但可以得到到X的属性测量值

分类则是某种假设H

例如数据样本X属于类C

那么分类问题就变成了

给定观测到的X的属性值

求P(H|X) 条件X下，H的后验概率

而P（H）是先验概率

比如顾客X将购买电脑

这时不考虑他的年龄、收入等

P（X）是样本数据中观察到的概率

P(X | H)则是对于条件H下

X的后验概率

比如已知顾客X将购买电脑

那X年龄在31和40之间

中等收入的概率

给定训练数据集X，分类假设H

那我们分类需要求的

条件X下H的后验概率将遵循贝叶斯定理

也就是条件X下

H的后验概率等于条件H下

X的后验概率乘以H的先验概率

除以X的先验概率

我们可以用这个办法求出

样本X属于每个类的后验概率

然后选择值最高的类作为预测结果

也就是选择具有

最高后验概率的类作为预测结果

所以简单贝叶斯的工作过程如下

首先，假定D是包含训练元组的集合

并且每个元组有类标签

每个元组可以用n个属性来进行描述

也就是说每个元组可以用

具有n个分量的向量进行描述

X = (x1, x2, …, xn)

假定有m个分类，从C1到Cm

分类就是要找到具有最高后验概率的类

根据贝叶斯定理

条件X下，Ci的后验概率

等于条件Ci下

X的后验概率乘以Ci的先验概率

除以X的先验概率

而X的先验概率可以认为

它对所有的类都一样

因此最后只需要最大化

条件Ci下

X的后验概率乘以Ci的先验概率

简单贝叶斯假定属性是条件独立的

因此对于条件Ci下

X的后验概率可以用条件Ci下

属性x1的后验概率乘以条件Ci下

属性x2的后验概率乘以条件Ci下

属性x3的后验概率等来评估

我们仍然来看

对顾客是否购买电脑进行分类的例子

假设我们要预测

一个年龄小于等于30

收入适中的，学生，信誉等级一般

这样的顾客是否会购买电脑

所以这时候描述x的向量为这个

那现在要求的是条件C下

X的后验概率乘以C的先验概率

对于类C发生的概率来说

类1 buys_computer=yes的概率为9/14

14个样本中出现了9个

类2 buys_computer=no的概率为5/14

14个样本中出现了5个

对于条件C下，X的后验概率P(X|C）

可以求出条件类1 buys_computer=yes下

属性age='<=30'的后验概率

因为9个buys_computer=yes的顾客中

有2个age='<=30'

所以为2/9

类似地可以求出

在类2 buys_computer=no下

属性age='<=30'的后验概率

income=medium分别在

类1 buys_computer=yes下和

类2 buys_computer=no下的后验概率

student=yes分别在

类1 buys_computer=yes下和

类2 buys_computer=no下的后验概率

credit_rating=fair分别在

类1 buys_computer=yes和

类2 buys_computer=no下的后验概率

然后将age='<=30'、student=yes

credit_rating=fair在

类1 buys_computer=yes下的

后验概率连乘起来

可以得到顾客X在

类1 buys_computer=yes下的

后验概率为0.044

类似地可以得到顾客X

在类2 buys_computer=no下的

后验概率为0.019

然后根据贝叶斯定理

条件X下，C的后验概率条件等于C下

X的后验概率乘以C的

先验概率P(C|X)=P(X|C)*P(C)

求出X属于

类1 buys_computer=yes的概率为0.028

属于类2 buys_computer=no

的概率为0.007

因为属于类1的概率更大

所以简单贝叶斯分类器

将推断X属于类1 buys_computer=yes

如果在训练数据当中

一类样本的某个属性的取值没有出现

这就出现了零概率的现象

那么可以使用拉普拉斯校准

来避免计算零概率

简单贝叶斯分类的优点是很容易实施

而且大部分情况下效果也不错

缺点就是它是基于属性条件独立的假设

而现实中这个假设很可能不成立

这种情况下来就需要用贝叶斯信念网络

本节课的内容到此结束

谢谢大家的观看

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

-第1讲大数据与数据挖掘概述

--第1讲大数据与数据挖掘概述

第二章关联规则

-第2讲频繁项集和关联规则的基本概念

--第2讲频繁项集和关联规则的基本概念

-第3讲 Apriori算法

--第3讲 Apriori算法

-第4讲 Apriori算法的改进与兴趣度度量

--第4讲 Apriori算法的改进与兴趣度度量

第三章分类算法

-第5讲分类的基本概念

--第5讲分类的基本概念

-第6讲决策树

--第6讲决策树

-第7讲简单贝叶斯分类

--第7讲简单贝叶斯分类

第四章聚类算法

-第8讲聚类的基本概念

--第8讲聚类的基本概念

-第9讲 K-Means & K-Medoids Clustering

--第9讲 K-Means & K-Medoids Clustering

-第四章聚类算法--习题

第五章大数据平台与技术

-第10讲大数据处理平台Hadoop

-第11讲 MapReduce编程

-第12讲大数据处理平台Spark

-第13讲 NoSQL数据库

第六章信息检索

-第14讲 Web信息检索简介

--第14讲 Web信息检索简介

-第15讲信息检索之倒排索引

--第15讲信息检索之倒排索引

-第16讲信息检索之TFIDF

--Video

-第17讲信息检索之相似度排序

--第16讲信息检索之TFIDF

第七章 Web链接分析

-第18讲 Web搜索之链接分析

--第18讲 Web搜索之链接分析

-第19讲 Web搜索之PageRank

--第19讲 Web搜索之PageRank

-第20讲 Lucene信息检索平台

--第20讲 Lucene信息检索平台

-第七章 Web链接分析--习题

第八章推荐系统

-第21讲推荐系统简介

-第22讲推荐系统之协同过滤

-第23讲 Mahout数据挖掘平台

-第24讲信息过滤评价体系

-第八章推荐系统--习题一

-第八章推荐系统--习题二

自我提升练习

-综合编程题

第7讲简单贝叶斯分类在线视频

第7讲简单贝叶斯分类课程教案、知识点、字幕

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

第二章关联规则

第三章分类算法

第四章聚类算法

第五章大数据平台与技术

第六章信息检索

第七章 Web链接分析

第八章推荐系统

自我提升练习

第7讲简单贝叶斯分类笔记与讨论

也许你还感兴趣的课程:

第7讲 简单贝叶斯分类在线视频

第7讲 简单贝叶斯分类课程教案、知识点、字幕

互联网大规模数据分析技术课程列表：

第一章 大数据与数据挖掘概述

第二章 关联规则

第三章 分类算法

第四章 聚类算法

第五章 大数据平台与技术

第六章 信息检索

第七章 Web链接分析

第八章 推荐系统

自我提升练习

第7讲 简单贝叶斯分类笔记与讨论

也许你还感兴趣的课程:

第7讲简单贝叶斯分类在线视频

第7讲简单贝叶斯分类课程教案、知识点、字幕

第一章大数据与数据挖掘概述

第二章关联规则

第三章分类算法

第四章聚类算法

第五章大数据平台与技术

第六章信息检索

第八章推荐系统

第7讲简单贝叶斯分类笔记与讨论