当前课程知识点:数据挖掘 > 第7章 分类 > 7.3 朴素贝叶斯分类 > 7.3 朴素贝叶斯分类
朴素贝叶斯分类
是一种统计学分类方法
朴素贝叶斯分类以贝叶斯定理为基础
从统计的角度解决归纳
推理分类问题
首先给定一个未考虑任何数据的分布
此分布称为先验分布
之后在新的数据集上
利用贝叶斯定理修正
先验分布得到后验分布
通过对条件概率分布
做出条件独立性假设
该方法大大简化了
分类器的计算过程
即使针对大量数据集
朴素贝叶斯也是一个
相对简单的计算过程
并且保持了高效率的学习
与预测性能
朴素贝叶斯分类思想
建立在贝叶斯定理的基础上
首先简单复习贝叶斯定理的基本概念
考虑一个为给定数据集分类的情境
设X是一个类标号未知的数据样本
H表示一个假设
数据样本X属于某个特定的类C
要求确定P(H|X)
即给定观测数据样本X的情况下
假设H成立的概率
例如
X是一位35岁的顾客
其收入为4万美元
令H为某种假设
如顾客将购买计算机
P(H|X)是后验概率
是在给定数据集X后
假设H成立的概率
在上例中即为
顾客X将购买计算机的概率
P(H)是H的先验概率
在上例中即为任意给定顾客
将购买计算机的概率
后验概率P(H|X)比先验概率P(H)
基于更多的信息
数据样本X的信息
P(X|H)是后验概率
是假设H成立的情况下X的后验概率
在上例中即为已知顾客X
将购买计算机
该顾客是年龄为35岁
收入为4万美元的概率
P(X)是X的先验概率
在上例中即为顾客集合中
年龄为35岁
且收入为4万美元的概率
贝叶斯定理提供了
一种由概率P(H)
P(X)和P(X|H)计算后
验概率P(H|X)的方法
基本关系是
P(H|X)=P(X|H)×P(H)∕P(X)
基于贝叶斯定理
朴素贝叶斯分类思想如下
设输入空间是n维向量的集合
取其中m个样本做训练数据集
表示为S={S1,S2,…,Sm}
其中每个样本Si
都是一个n维向量{x1,x2,…,xn}
输出空间是类标记的集合
表示为Y={C1,C2,…,Ck}
取自输入空间的每个样本Si
都与输出空间中的一个类Ci相对应
当给定另外一个类别未知的
数据样本X
可以把X分到后验概率最大的类中
也就是用最高的条件概率P(Ci|X)
来预测X的类别
这是朴素贝叶斯分类的基本思想
根据贝叶斯定理
后验概率计算过程为
P(Ci|X)=P(X|Ci)×P(Ci)∕P(X)
公式中
对所有的类标记
分母P(X)均为常量
因此仅需计算分子最大值
其中
先验概率P(Ci)容易计算
P(Ci )=类Ci的训练样本数量
除以训练样本总数m
而条件概率分布P(X|Ci)
有指数量级的参数
尤其对于大量数据集来说
计算更为复杂
其估计实际是不可行的
朴素贝叶斯法给出了一个
较强的条件独立性假设
在Ci成立的情况下
其中
xj是样本X第j维度的特征值
P(xj|Ci)能够通过训练数据集估算出
该条件独立性的假设是
用于分类的特征
在类确定的条件下都是独立的
特征之间不存在依赖关系
这一思想使朴素贝叶斯法
变得简单高效
且易于实现
即使有时会牺牲一定的分类准确率
因此在朴素贝叶斯法中
学习过程意味着先验概率P(Ci)
和条件概率P(X|Ci)的估计过程
概率估计方法可以选择
极大似然估计法或贝叶斯估计
朴素贝叶斯法分类时
假设输入变量都是条件独立的
通过在训练数据上学习得到的模型
计算出每个类别的先验概率
和条件概率
依照模型计算后验概率P(Ci|X)
将后验概率最大的类作为
输入变量所属的类输出
经过上述分析
朴素贝叶斯分类器可表示为
朴素贝叶斯分类算法的伪代码
输入
数据集S是训练元组
和对应类标号的集合
待分类的数据X
输出 数据X所属的类别
方法
根据数据集S计算每个类别Ci的
先验概率P(Ci)
根据数据集S计算
各个独立特征X(j)
在分类中的条件概率p(X(j)|Ci)
对于特定的输入数据X
计算其相应属于特定分类的
条件概率p(Ci|X)
选择条件概率最大的类别作为
该输入数据X的类别返回
例 朴素贝叶斯分类算法实例
训练数据如表所示
其中X^((1) )和X^((2) )为特征
取值分别来自特征集合
A1={1,2,3} A2={S,P,Q}
C为类标记
C={1,-1}
即有1和-1两类
根据训练数据学习
一个朴素贝叶斯分类器
并确定X=(2,S)^T的类标记
解
一 计算先验概率
类别为1的概率P(C=1)
等于类别为1的数据个数9
除以总数据个数15=9/15
类别为-1的概率P(C=-1)
等于类别为-1的数据个数6
除以数据总数15=6/15
二 计算条件概率
在类别为1的条件下
特征x1取值为1的概率
P(X^((1) )=1|C=1)
等于在类别为1的数据中
特征x1取值为1的数据个数2
除以类别为1的数据总数9=2/9
类似的
可以计算在类别为1的条件下
特征X1和特征X2取不同值的概率
以及在类别为-1的条件下
特征X1和特征X2取不同值的概率
计算如下
P(X^((1) )=2|C=1)=3/9
P(X^((1) )=3|C=1)=4/9
P(X^((2) )=S|C=1)=1/9
P(X^((2) )=P|C=1)=4/9
P(X^((2) )=Q|C=1)=4/9
P(X^((1) )=1|C=-1)=3/6
P(X^((1) )=2|C=-1)=2/6
P(X^((1) )=3|C=-1)=1/6
P(X^((2) )=S|C=-1)=3/6
P(X^((2) )=P|C=-1)=2/6
P(X^((2) )=Q|C=-1)=1/6
三 对于给定的X=(2,S)^T
依照分类器模型计算
在数据为X的条件下
类别为1的概率
X=(2,S)^T属于-1类别的概率最大
依照朴素贝叶斯中概率最大化准则
该分类器输出的类标记为-1
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2