当前课程知识点:现代图像分析 > 第八章 图像描述 > 8.5 特征描述子 > 8.5.3 特征描述子BOW学习视频
同学们好 这节课我们介绍
一种流行的局部特征描述子 词袋模型BOW
顾名思义 它是将某些word来打包
就像我们经常会把类似的物品装到一个柜子
或者即使是随意打包一些物品
也为了我们能够方便的携带
那么在对大数据做处理的时候
为了能够方便的携带这些数据中的信息
与其一个一个的处理还不如打包来得容易一些
那么在信息检索中 BOW模型假定对于一个文档
我们忽略它的单词顺序和句法 语法等要素
将它仅仅看作是若干个词汇的集合
文档中每个单词的出现都是相对独立的
不依赖于其它单词的出现
也就是说文档中任意一个位置出现的任何单词
都不受该文档语义影响而独立选择
例如有如下的两个文档
此表 我们可以看到构建的单词表一共包含了10个单词
那么利用单词表的索引号 这里的1 2 3一直到10
上面两个文档就可以用一个10维的向量来分别进行表示
向量中的每一个元素就是单词表中的单词在文档中出现的频率
比如说我们看到bob在第一个文档中出现过一次 所以是1
而likes呢在第一个文档中出现了两次 所以是2
更为直观的 我们还可以用单词直方图来进行表示
那么这样我们更容易看出两个文档之间所存在的差异
很容易可以看出到底在哪一个基础单词上 它们是有差异的
而BOW最基本的实现步骤如下
首先要进行单词表的建立来获取合适的聚类中心
再对每个文档进行训练 得到它的低维表示
那么对于新样本来说 则先要得到其低维表示
然后再进行分类
假设有一个巨大的文档集合 里面一共有m个文档
而文档里面的所有单词提取出来后
一起构成了一个包含n个单词的词表
利用Bag-of-Words模型
每个文档都可以被表示成一个n维的向量
计算机非常善于处理数值向量
那么这样就可以利用计算机来完成海量文档的分类过程
将BOW模型应用到图像上 怎么样来进行移植呢
我们可以把它假想成是一种视觉单词 也就是视觉的词袋模型
为了表示一幅图像 我们可以将图像看成是一个文档
也就是若干个视觉单词的集合
这里的视觉单词就是我们图像上的一些具有特点的小图像块
同样的这些视觉单词相互之间没有任何的顺序
那么对于我们的目标图像来说
我们可以将它划分为类似于单词的小图像块
我们可以看到 都是来自于我们目标当中的一些小图像块
来构成我们的视觉单词
但图像中的单词不像文本文档中那样是现成的
所以我们需要先从图像中来提取出这样相互独立的一些视觉单词
这通常需要经过下面的三个步骤
特征的检测 特征的表示以及词汇表的生成
从而提取出如下图所示的这样一些图像块
也就是我们的视觉单词
BOW方法中最常用的特征检测和表示方法就是SIFT
利用它可以提取图像中的不变特征点作为视觉单词
那么SIFT算法提取到的这些不变的特征点
用作单词表中的单词表示图像的时候
我们知道它的数量是非常庞大的
因此我们可以选用K-means算法来将词意相近的
这样的一些视觉单词进行合并 对于图像来说
也就是用SIFT描述子将相似的图像块来进行一个聚类
这样作为单词表中的基础词汇
假定我们将k设为4
那么单词表的构造过程我们可以通过下图来进行表示
我们可以看到
这幅流程图完整的介绍了BOW特征的提取过程
首先 我们对于图像或者文档通过SIFT提取到这么多的视觉单词
那么这些视觉单词 我们再通过K-means算法来对它进行聚类
如果我们把它聚成四类的话 我们就得到了这样的结果
聚类之后所得到的这四类 其中每一类的聚类中心
就是我们最终所得到的词汇表中的基础视觉单词
利用SIFT算法 可以从每幅图像中提取很多个特征点
这些特征点都可以用单词表中的单词近似代替
通过统计词汇表中每个单词在图像中出现的次数
就可以将图像表示成为一个四维的数值向量
实际应用中为了达到较好的效果
单词表中的词汇数量往往是非常大的
并且目标类数越多 对应的K值就会越大
一般情况下K的取值都在几百到几千
在此基础上 再结合性能良好的分类器
就可以对图像进行目标的检测和识别了
本节课的内容就到这里
谢谢大家 再见
-1.1 图像及图像的基本概念
--1.1.2 图像及图像的基本概念作业
-1.2 数字图像处理的起源
--1.2.2 数字图像处理的起源作业
-1.3 数字图像处理的步骤和方法
--1.3.2 数字图像处理步骤和方法作业
-1.4 数字图像处理系统的组成
--1.4.2 数字图像处理系统的组成作业
-1.5 数字图像处理主要应用领域
--1.5.2 数字图像处理主要应用领域作业
-2.1 色度学基础
--2.1.3 色度学基础作业
-2.2 人的视觉特性
--2.2.1 人的视觉特性作业
-2.3 图像数字化
--2.3.2 图像数字化作业
-2.4 数字图像特点
--2.4.2 数字图像特点作业
-3.1 图像变换的基本概念
--3.1.2 图像变换的基本概念作业
-3.2 图像的几何变换
--3.2.2 图像的几何变换作业
-3.3 图像的离散傅立叶变换
--3.3.2 图像的离散傅立叶变换作业
-3.4 图像变换的一般表示形式
--3.4.2 图像变换的一般表示形式作业
-3.5 图像的离散余弦变换
--3.5.2 图像的离散余弦变换作业
-3.6 图像离散沃尔什-哈达玛变换
--3.6.2 图像离散沃尔什-哈达玛变换作业
-3.7 K-L变换
--3.7.2 K-L变换作业
-4.1 图像的对比度增强
--4.1.2 图像的对比度增强作业
-4.2 直方图修正
--4.2.3 直方图修正作业
-4.3 图像平滑
--4.3.4 图像平滑作业
-4.4 同态滤波
--4.4.2 同态滤波作业
-4.5 图像锐化
--4.5.2 图像锐化作业
-4.6 图像的彩色增强
--4.6.2 图像的彩色增强作业
-5.1 退化模型及常见退化模型
--5.1.2 退化模型及常见退化模型作业
-5.2 图像的无约束恢复
--5.2.2 图像的无约束恢复作业
-5.3 图像有约束最小二乘恢复
--5.3.2 图像有约束最小二乘恢复作业
-6.1 概述
--6.1.1 概述作业
-6.2 图像编码基本理论
--6.2.2 图像编码基本理论作业
-6.3 无损编码理论
--6.3.2 无损编码理论作业
-6.4 霍夫曼编码
--6.4.2 霍夫曼编码作业
-6.5 算数编码
--6.5.2 算数编码作业
-6.6 预测编码
--6.6.2 预测编码作业
-6.7 正交变换编码
--6.7.2 正交变换编码作业
-7.1 图像分割的定义及依据
--7.1.2 图像分割的定义及依据作业
-7.2 边缘点检测
--7.2.2 边缘点检测作业
-7.3 边缘线跟踪
--7.3.3 边缘线跟踪作业
-7.4 门限化分割
--7.4.2 门限化分割作业
-7.5 区域分割法
--7.5.2 区域分割法作业
-7.6 聚类分割法
--7.6.3 聚类分割法作业
-8.1 像素间的基本关系
--8.1.2 像素间的基本关系作业
-8.2 目标物的边界描述
--8.2.2 目标物的边界描述作业
-8.3 目标物的区域描述
--8.3.2 目标物的区域描述作业
-8.4 图像的几何特征
--8.4.2 图像的几何特征作业
-8.5 特征描述子
--8.5.4 特征描述子作业
-9.1 图像匹配
--9.1.2 图像匹配作业
-9.2 图像分类
--9.2.2 图像分类作业
-9.3 图像识别
--9.3.2 图像识别作业
-9.4 模式识别分类专题
--9.4.4 模式识别分类专题作业
-中国天网
-车道检测
-期末测试
--期末测试