当前课程知识点:大数据管理与挖掘 > 第8章 分类方法 > 8.3 贝叶斯分类 > 8.3 贝叶斯分类
吧
大家好
我是西安工程大学
管理学院 王艳老师
欢迎回来
本节我们接着介绍
分类算法之贝叶斯分类
贝叶斯分类的原理
它的方法是基于如下的假定进行的
一 代考察的量遵循某概率分布
且可根据这些概率
及已观察到的数据进行推理
以做出最优的决策
二
这个分析过程
开始是先给出一个
待分析数据及的概率分布
因为这个概率分布
是没有考虑任何数据而给出的
所以称为先验分布
这个新的数据集
将先验分布修正后得到后验分布
贝叶斯的理论提供了
一种计算假设概率的方法
基于假设的先验概率
给定假设下观察到不同数据的概率
以及观察到数据本身先验概率和后验概率
接下来给出贝叶斯公式的定义
假设X是类标号未知的数据样本
射H为某种假定
如数据样本X
属于某特定的类C
对于分类问题
我们希望确定
在样本给定的情况下
H的概率
即给定观测数据样本X
假定H成立的概率
贝叶斯定理给出了计算
测试样本给定的情况下
假设H的概率的计算方法
计算公式如下图所示
式中PH是指先验概率
或称H的先验概率
那么在假设给定的情况下
数据集X的概率
代表的是
假设H成立的情况下
观测到样本的概率
那么在样本给定的情况下
假设的概率是后验概率
或称条件X下H的后验概率
假定数据样本域由水果组成
用它们的颜色和形状来描述其属性
假定X表示红色和圆的
H表示假定X是苹果
则X成立的时候
假定H的概率
反映的是当我们看到X是红色
并是圆的时候
我们对X是苹果的确信程度
贝叶斯分类器
对两类数据具有较好的分类效果
一种是完全独立的数据
另一种是函数依赖的数据
对于给出的待分类项
求解此项
出现的条件下
各个类别出现的概率
哪个最大
就认为此待分类项属于哪个类别
朴素贝叶斯分类器
以简单的结构和良好的性能
受到人们的关注
它是最优秀的分类器之一
朴素贝叶斯分类器
建立在一个类条件独立性假设基础上
这个类条件独立性假设又称朴素假设
给定类节点变量后
各属性节点之间相互独立
根据朴素贝叶斯的类条件独立假设
则有下式成立
式子中的条件概率
可以从训练 数据集中求得
根据此方法
对一个未知类别的样本X
可以先分别计算出
X属于每一个类别CI的概率
然后选择其中概率最大的类别
作为其类别
那么朴素贝叶斯分类的具体步骤
可以分为以下几步
第一 假设有一个样本集
它的属性有N个
每一个属性
我们用X来表示
第二步
有类别集合C
它是由N个类别组成
用Y1到YN表示
第三步
分别去计算在样本给定条件下
每一个类别YI的概率
如果存在一个YK
在样本给定的情况下
YK的概率
在所有的条件概率中达到最大
那么我们就认为这个样本属于
这个类别YK
在计算后验概率
也就是在计算样本给定情况下
每一个类别的概率的时候
需要找到一个已知分类的待分类项集合
这个集合叫做训练样本集
第二步
统计得到
在各类别下
各个特征属性的条件概率估计
具体的式子如下
第三步
如果各个特征属性是条件独立的
则根据贝叶斯的定理
有如下推导
朴素贝叶斯分类的具体工作流程
如下图所示
在许多场合朴素贝叶斯分类
可以与决策树和神经网络分类算法相媲美
该算法能运用到大型数据库中
且方法简单
分类准确率高
速度快
被叶斯分类的一个特点
是简单
高效
健壮
面对独立的噪声点
朴素贝叶斯分类器是健壮的
因为从数据中估计条件概率时
这些点被平均
另外
朴素贝叶斯分类器
也可以处理属性值遗漏问题
面对无关属性
该分类器依然是健壮的
因为如果XI是无关属性
那么在类别给定的情况下
XI的后验概率
几乎变成了均匀分布
XI的类条件概率
不会对总的后验概率的计算
产生影响
相关属性
可能会降低朴素贝叶斯分类器的性能
因为对这些属性
条件独立的假设不成立
本节就是朴素贝叶斯分类的内容
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论