当前课程知识点:数据挖掘 >  第7章 分类 >  7.3 朴素贝叶斯分类 >  7.3 朴素贝叶斯分类

返回《数据挖掘》慕课在线视频课程列表

7.3 朴素贝叶斯分类在线视频

下一节:朴素贝叶斯分类

返回《数据挖掘》慕课在线视频列表

7.3 朴素贝叶斯分类课程教案、知识点、字幕

朴素贝叶斯分类

是一种统计学分类方法

朴素贝叶斯分类以贝叶斯定理为基础

从统计的角度解决归纳

推理分类问题

首先给定一个未考虑任何数据的分布

此分布称为先验分布

之后在新的数据集上

利用贝叶斯定理修正

先验分布得到后验分布

通过对条件概率分布

做出条件独立性假设

该方法大大简化了

分类器的计算过程

即使针对大量数据集

朴素贝叶斯也是一个

相对简单的计算过程

并且保持了高效率的学习

与预测性能

朴素贝叶斯分类思想

建立在贝叶斯定理的基础上

首先简单复习贝叶斯定理的基本概念

考虑一个为给定数据集分类的情境

设X是一个类标号未知的数据样本

H表示一个假设

数据样本X属于某个特定的类C

要求确定P(H|X)

即给定观测数据样本X的情况下

假设H成立的概率

例如

X是一位35岁的顾客

其收入为4万美元

令H为某种假设

如顾客将购买计算机

P(H|X)是后验概率

是在给定数据集X后

假设H成立的概率

在上例中即为

顾客X将购买计算机的概率

P(H)是H的先验概率

在上例中即为任意给定顾客

将购买计算机的概率

后验概率P(H|X)比先验概率P(H)

基于更多的信息

数据样本X的信息

P(X|H)是后验概率

是假设H成立的情况下X的后验概率

在上例中即为已知顾客X

将购买计算机

该顾客是年龄为35岁

收入为4万美元的概率

P(X)是X的先验概率

在上例中即为顾客集合中

年龄为35岁

且收入为4万美元的概率

贝叶斯定理提供了

一种由概率P(H)

P(X)和P(X|H)计算后

验概率P(H|X)的方法

基本关系是

P(H|X)=P(X|H)×P(H)∕P(X)

基于贝叶斯定理

朴素贝叶斯分类思想如下

设输入空间是n维向量的集合

取其中m个样本做训练数据集

表示为S={S1,S2,…,Sm}

其中每个样本Si

都是一个n维向量{x1,x2,…,xn}

输出空间是类标记的集合

表示为Y={C1,C2,…,Ck}

取自输入空间的每个样本Si

都与输出空间中的一个类Ci相对应

当给定另外一个类别未知的

数据样本X

可以把X分到后验概率最大的类中

也就是用最高的条件概率P(Ci|X)

来预测X的类别

这是朴素贝叶斯分类的基本思想

根据贝叶斯定理

后验概率计算过程为

P(Ci|X)=P(X|Ci)×P(Ci)∕P(X)

公式中

对所有的类标记

分母P(X)均为常量

因此仅需计算分子最大值

其中

先验概率P(Ci)容易计算

P(Ci )=类Ci的训练样本数量

除以训练样本总数m

而条件概率分布P(X|Ci)

有指数量级的参数

尤其对于大量数据集来说

计算更为复杂

其估计实际是不可行的

朴素贝叶斯法给出了一个

较强的条件独立性假设

在Ci成立的情况下

其中

xj是样本X第j维度的特征值

P(xj|Ci)能够通过训练数据集估算出

该条件独立性的假设是

用于分类的特征

在类确定的条件下都是独立的

特征之间不存在依赖关系

这一思想使朴素贝叶斯法

变得简单高效

且易于实现

即使有时会牺牲一定的分类准确率

因此在朴素贝叶斯法中

学习过程意味着先验概率P(Ci)

和条件概率P(X|Ci)的估计过程

概率估计方法可以选择

极大似然估计法或贝叶斯估计

朴素贝叶斯法分类时

假设输入变量都是条件独立的

通过在训练数据上学习得到的模型

计算出每个类别的先验概率

和条件概率

依照模型计算后验概率P(Ci|X)

将后验概率最大的类作为

输入变量所属的类输出

经过上述分析

朴素贝叶斯分类器可表示为

朴素贝叶斯分类算法的伪代码

输入

数据集S是训练元组

和对应类标号的集合

待分类的数据X

输出 数据X所属的类别

方法

根据数据集S计算每个类别Ci的

先验概率P(Ci)

根据数据集S计算

各个独立特征X(j)

在分类中的条件概率p(X(j)|Ci)

对于特定的输入数据X

计算其相应属于特定分类的

条件概率p(Ci|X)

选择条件概率最大的类别作为

该输入数据X的类别返回

例 朴素贝叶斯分类算法实例

训练数据如表所示

其中X^((1) )和X^((2) )为特征

取值分别来自特征集合

A1={1,2,3} A2={S,P,Q}

C为类标记

C={1,-1}

即有1和-1两类

根据训练数据学习

一个朴素贝叶斯分类器

并确定X=(2,S)^T的类标记

一 计算先验概率

类别为1的概率P(C=1)

等于类别为1的数据个数9

除以总数据个数15=9/15

类别为-1的概率P(C=-1)

等于类别为-1的数据个数6

除以数据总数15=6/15

二 计算条件概率

在类别为1的条件下

特征x1取值为1的概率

P(X^((1) )=1|C=1)

等于在类别为1的数据中

特征x1取值为1的数据个数2

除以类别为1的数据总数9=2/9

类似的

可以计算在类别为1的条件下

特征X1和特征X2取不同值的概率

以及在类别为-1的条件下

特征X1和特征X2取不同值的概率

计算如下

P(X^((1) )=2|C=1)=3/9

P(X^((1) )=3|C=1)=4/9

P(X^((2) )=S|C=1)=1/9

P(X^((2) )=P|C=1)=4/9

P(X^((2) )=Q|C=1)=4/9

P(X^((1) )=1|C=-1)=3/6

P(X^((1) )=2|C=-1)=2/6

P(X^((1) )=3|C=-1)=1/6

P(X^((2) )=S|C=-1)=3/6

P(X^((2) )=P|C=-1)=2/6

P(X^((2) )=Q|C=-1)=1/6

三 对于给定的X=(2,S)^T

依照分类器模型计算

在数据为X的条件下

类别为1的概率

X=(2,S)^T属于-1类别的概率最大

依照朴素贝叶斯中概率最大化准则

该分类器输出的类标记为-1

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

7.3 朴素贝叶斯分类笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。