当前课程知识点:现代图像分析 > 第九章 图像分类识别 > 9.4 模式识别分类专题 > 9.4.1 经典分类方法学习视频
同学们好 这节课我们给大家介绍
模式识别的经典方法 贝叶斯分类方法
相信大家都不陌生 它是基于贝叶斯理论提出的
最为常见的就莫过于我们的Naive Bayes方法
也就是朴素贝叶斯了
即便面向大型的数据库
它的准确率和效率也是不弱于复杂方法的
为了更好的理解朴素贝叶斯方法
我们先来回顾一下贝叶斯定理和贝叶斯公式
贝叶斯定理和贝叶斯公式给我们提供了这样的一种计算方法
也就是通过先验概率和条件概率来计算后验概率这样的一种方法
具体到我们的朴素贝叶斯对于朴素贝叶斯来说它有一个假设
也就是我们待分类的各项各个属性之间是相互独立的
我们可以看到下面是它的基本的步骤
对于这个基本步骤 我们举一个例子
假如说我们在街上看到一个黑人
也就是我们下面步骤中的x
我问你他是从哪来的
那么你所知道的国家可能有上百个 也就是我们这里的C
但是你十有八九会猜非洲 为什么呢
因为黑人中非洲人的比例最高
当然他也有可能是美洲人或者是亚洲人
但是在没有其它可用的信息前提下
我们还是会选择条件概率
也就是步骤四中的P(ci,x)最大的类别
来作为最终的类别归属
这个就是朴素贝叶斯的基本思想
我们再来看一个简单的例子 如果某个医院收了6个门诊病人
那么这个是相关的信息表
现在又来了一个打喷嚏的建筑工人
那么它有多大可能是得了感冒呢
根据贝叶斯定理 我们可以看到
我们要在打喷嚏和建筑工人的条件下来求得它患感冒的概率
那么我们就可以得到这样的公式
而朴素贝叶斯假定特征间是相互独立的
所以我们可以将分子中的条件概率拆分为
下面的两个条件概率相乘
然后再根据前面信息表中各项所对应的概率信息
就可以计算出在这两个条件下
我们的这个打喷嚏的建筑工人他患感冒的概率是66%
同样的也可以计算他患其它病的概率
最终就可以确定他最可能得的是什么病
由此可见 贝叶斯方法它的逻辑清晰简单 并且效率很高
而对于不同的数据它的健壮性是非常好的
但是朴素贝叶斯它要求特征属性必须是独立的
这个是非常难实现的 因此对于更复杂的情况
我们可以通过贝叶斯网络来进行分析
那么接下来我们介绍KNN 它同样也是较为经典的提出较早的方法之一
我们可以看到下图中呢有三种豆子
而有3颗豆子是未知的种类
那么我们怎么样来判断这3颗豆子属于哪一类呢
最近邻算法就是通过计算未知样本和所有训练样本之间的距离
并且用最近邻的类别来作为决策位置样本类别的唯一依据
显然这是有缺陷的
我们看看下面的这个例子
有一个绿色的圆点 那么根据最近邻算法
我们该如何确定它的类别属性呢
所以说最近邻算法对于噪声数据过于敏感
那么怎么样能够解决这个问题呢
如果我们把未知样本周边的多个最近邻样本计算在内
就可以扩大参与决策的样本量
以避免个别数据直接来决定决策结果
那么就得到了我们常见的K近邻算法
K近邻算法是最近邻算法的一个延伸
但是它避免了单个样本确定类别的片面
那么下面呢 是它的实现步骤
首先进行初始化
然后计算未知样本和每个训练样本之间的距离
得到目前K个最近邻样本中的最大距离
如果距离小于这个最大距离的时候
我们就将该训练样本作为K近邻样本 重复这些步骤
直到我们的未知样本和所有训练样本的距离都计算完
然后我们再来统计K个最近邻样本中每个类别出现的次数
选择出频率最大的那个类别作为未知样本的类别
KNN算法实现非常简单 并且也能够解决很多种问题
但是它有一个非常明显的缺陷
除了它是一种懒惰算法之外
我们说当样本的容量不均衡的时候
也就是说一类的样本容量很大
而其它类的样本数量很小
那么很有可能会导致输入未知样本时
该样本的K个近邻中大数量的样本占多数
但是这样却并不接近目标样本
而数量小的这类样本却很靠近目标样本
这时我们就可以采用权值的方法来进行改进
避免因一个样本过大来导致误判
好 接下来我们再来介绍一种经典的分类方法决策树
我们通过下面的一个例子来看一看怎么样构建决策树
打个比方来说 现在有个女孩要找男朋友
那么她跟母亲之间有这样的一番对话
她的决策过程就相当于通过年龄 长相 收入
还有是否是公务员来对此人分为两类 见或者不见
我们把她的想法用图的形式表示出来
我们可以看看像右图一样 好像是一棵树
那么这个就可以算成是一棵非常简单的决策树
决策树实际上就是一个树的结构
每一个叶节点存放一个类别
而每一个非叶节点表示一个特征属性上的测试
每个分支代表这个特征属性在某个值域上的输出
那么它的决策过程是从根节点开始的
测试待分类项中相应的特征属性
并按照其值来选择输出的分支 直到到达叶子节点
然后将叶子节点存放的类别来作为决策的结果
可以看到决策树的决策过程非常直观 很容易被理解
因此呢 它的应用也非常广泛的
那么下面我们来看一看具体的决策树构造的过程
首先我们将所有记录看作一个节点
那么紧接着我们遍历每个变量的每一种分割方式
找到最好的分割点 分割成两个节点
那么对于这些节点呢 继续执行第二步和第三步
一直到每个节点足够纯为止
这样我们就建立好了一棵决策树
然而最初构建的决策树由于包含了太多特征信息和枝叶节点
通常在应用前需要进行优化
那么目前来说较为成熟的优化方法有3种
第一种是修剪枝叶
也就是通过裁剪对决策贡献不大的枝叶来改善决策树的形状
从而有效的避免决策树过拟合 比如说前置裁剪和后置裁剪
那么第二种方法是通过我们的K-Fold交叉验证
它可以通过不断的循环往复来得到具有最小错误率的决策树
从而可以实现对原决策树的一个优化
第三种优化方案就是随机森林
而随机森林也是目前应用最广泛的一种优化方法
随机森林 顾名思义是用随机的方式建立一个森林
森林有很多的决策树组成
随机森林的每一棵决策树之间是没有关联的
在得到森林之后 当有一个新的输入样本进来的时候
就让森林中的每一棵树来对它进行决策
看看这个样本应该属于哪一类
然后看看哪一类被选择最多那么就预测这个样本属于这一类
这就是三个臭皮匠顶一个诸葛亮的思想
相比于决策树 随机森林显然能够得到更好的准确率
根据上面的介绍 我们也很容易可以看出决策树的优缺点
它很易于理解 并且也易于实现
它能够处理的这个数据类型也是比较多的
也很容易通过静态测试来对模型进行评价
但是呢 相对来说对连续性的字段它是比较难预测的
而且当类别太多的时候 它的预测错误率会增加的比较快
好 我们这节课就到这里
谢谢大家 再见
-1.1 图像及图像的基本概念
--1.1.2 图像及图像的基本概念作业
-1.2 数字图像处理的起源
--1.2.2 数字图像处理的起源作业
-1.3 数字图像处理的步骤和方法
--1.3.2 数字图像处理步骤和方法作业
-1.4 数字图像处理系统的组成
--1.4.2 数字图像处理系统的组成作业
-1.5 数字图像处理主要应用领域
--1.5.2 数字图像处理主要应用领域作业
-2.1 色度学基础
--2.1.3 色度学基础作业
-2.2 人的视觉特性
--2.2.1 人的视觉特性作业
-2.3 图像数字化
--2.3.2 图像数字化作业
-2.4 数字图像特点
--2.4.2 数字图像特点作业
-3.1 图像变换的基本概念
--3.1.2 图像变换的基本概念作业
-3.2 图像的几何变换
--3.2.2 图像的几何变换作业
-3.3 图像的离散傅立叶变换
--3.3.2 图像的离散傅立叶变换作业
-3.4 图像变换的一般表示形式
--3.4.2 图像变换的一般表示形式作业
-3.5 图像的离散余弦变换
--3.5.2 图像的离散余弦变换作业
-3.6 图像离散沃尔什-哈达玛变换
--3.6.2 图像离散沃尔什-哈达玛变换作业
-3.7 K-L变换
--3.7.2 K-L变换作业
-4.1 图像的对比度增强
--4.1.2 图像的对比度增强作业
-4.2 直方图修正
--4.2.3 直方图修正作业
-4.3 图像平滑
--4.3.4 图像平滑作业
-4.4 同态滤波
--4.4.2 同态滤波作业
-4.5 图像锐化
--4.5.2 图像锐化作业
-4.6 图像的彩色增强
--4.6.2 图像的彩色增强作业
-5.1 退化模型及常见退化模型
--5.1.2 退化模型及常见退化模型作业
-5.2 图像的无约束恢复
--5.2.2 图像的无约束恢复作业
-5.3 图像有约束最小二乘恢复
--5.3.2 图像有约束最小二乘恢复作业
-6.1 概述
--6.1.1 概述作业
-6.2 图像编码基本理论
--6.2.2 图像编码基本理论作业
-6.3 无损编码理论
--6.3.2 无损编码理论作业
-6.4 霍夫曼编码
--6.4.2 霍夫曼编码作业
-6.5 算数编码
--6.5.2 算数编码作业
-6.6 预测编码
--6.6.2 预测编码作业
-6.7 正交变换编码
--6.7.2 正交变换编码作业
-7.1 图像分割的定义及依据
--7.1.2 图像分割的定义及依据作业
-7.2 边缘点检测
--7.2.2 边缘点检测作业
-7.3 边缘线跟踪
--7.3.3 边缘线跟踪作业
-7.4 门限化分割
--7.4.2 门限化分割作业
-7.5 区域分割法
--7.5.2 区域分割法作业
-7.6 聚类分割法
--7.6.3 聚类分割法作业
-8.1 像素间的基本关系
--8.1.2 像素间的基本关系作业
-8.2 目标物的边界描述
--8.2.2 目标物的边界描述作业
-8.3 目标物的区域描述
--8.3.2 目标物的区域描述作业
-8.4 图像的几何特征
--8.4.2 图像的几何特征作业
-8.5 特征描述子
--8.5.4 特征描述子作业
-9.1 图像匹配
--9.1.2 图像匹配作业
-9.2 图像分类
--9.2.2 图像分类作业
-9.3 图像识别
--9.3.2 图像识别作业
-9.4 模式识别分类专题
--9.4.4 模式识别分类专题作业
-中国天网
-车道检测
-期末测试
--期末测试