当前课程知识点：大数据管理与挖掘 > 第8章分类方法 > 8.3 贝叶斯分类 > 8.3 贝叶斯分类

返回《大数据管理与挖掘》慕课在线视频课程列表

8.3 贝叶斯分类在线视频

下一节:8.4 神经网络

返回《大数据管理与挖掘》慕课在线视频列表

8.3 贝叶斯分类课程教案、知识点、字幕

吧

大家好

我是西安工程大学

管理学院王艳老师

欢迎回来

本节我们接着介绍

分类算法之贝叶斯分类

贝叶斯分类的原理

它的方法是基于如下的假定进行的

一代考察的量遵循某概率分布

且可根据这些概率

及已观察到的数据进行推理

以做出最优的决策

二

这个分析过程

开始是先给出一个

待分析数据及的概率分布

因为这个概率分布

是没有考虑任何数据而给出的

所以称为先验分布

这个新的数据集

将先验分布修正后得到后验分布

贝叶斯的理论提供了

一种计算假设概率的方法

基于假设的先验概率

给定假设下观察到不同数据的概率

以及观察到数据本身先验概率和后验概率

接下来给出贝叶斯公式的定义

假设X是类标号未知的数据样本

射H为某种假定

如数据样本X

属于某特定的类C

对于分类问题

我们希望确定

在样本给定的情况下

H的概率

即给定观测数据样本X

假定H成立的概率

贝叶斯定理给出了计算

测试样本给定的情况下

假设H的概率的计算方法

计算公式如下图所示

式中PH是指先验概率

或称H的先验概率

那么在假设给定的情况下

数据集X的概率

代表的是

假设H成立的情况下

观测到样本的概率

那么在样本给定的情况下

假设的概率是后验概率

或称条件X下H的后验概率

假定数据样本域由水果组成

用它们的颜色和形状来描述其属性

假定X表示红色和圆的

H表示假定X是苹果

则X成立的时候

假定H的概率

反映的是当我们看到X是红色

并是圆的时候

我们对X是苹果的确信程度

贝叶斯分类器

对两类数据具有较好的分类效果

一种是完全独立的数据

另一种是函数依赖的数据

对于给出的待分类项

求解此项

出现的条件下

各个类别出现的概率

哪个最大

就认为此待分类项属于哪个类别

朴素贝叶斯分类器

以简单的结构和良好的性能

受到人们的关注

它是最优秀的分类器之一

朴素贝叶斯分类器

建立在一个类条件独立性假设基础上

这个类条件独立性假设又称朴素假设

给定类节点变量后

各属性节点之间相互独立

根据朴素贝叶斯的类条件独立假设

则有下式成立

式子中的条件概率

可以从训练数据集中求得

根据此方法

对一个未知类别的样本X

可以先分别计算出

X属于每一个类别CI的概率

然后选择其中概率最大的类别

作为其类别

那么朴素贝叶斯分类的具体步骤

可以分为以下几步

第一假设有一个样本集

它的属性有N个

每一个属性

我们用X来表示

第二步

有类别集合C

它是由N个类别组成

用Y1到YN表示

第三步

分别去计算在样本给定条件下

每一个类别YI的概率

如果存在一个YK

在样本给定的情况下

YK的概率

在所有的条件概率中达到最大

那么我们就认为这个样本属于

这个类别YK

在计算后验概率

也就是在计算样本给定情况下

每一个类别的概率的时候

需要找到一个已知分类的待分类项集合

这个集合叫做训练样本集

第二步

统计得到

在各类别下

各个特征属性的条件概率估计

具体的式子如下

第三步

如果各个特征属性是条件独立的

则根据贝叶斯的定理

有如下推导

朴素贝叶斯分类的具体工作流程

如下图所示

在许多场合朴素贝叶斯分类

可以与决策树和神经网络分类算法相媲美

该算法能运用到大型数据库中

且方法简单

分类准确率高

速度快

被叶斯分类的一个特点

是简单

高效

健壮

面对独立的噪声点

朴素贝叶斯分类器是健壮的

因为从数据中估计条件概率时

这些点被平均

另外

朴素贝叶斯分类器

也可以处理属性值遗漏问题

面对无关属性

该分类器依然是健壮的

因为如果XI是无关属性

那么在类别给定的情况下

XI的后验概率

几乎变成了均匀分布

XI的类条件概率

不会对总的后验概率的计算

产生影响

相关属性

可能会降低朴素贝叶斯分类器的性能

因为对这些属性

条件独立的假设不成立

本节就是朴素贝叶斯分类的内容

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

8.3 贝叶斯分类笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。