当前课程知识点:现代图像分析 > 第八章 图像描述 > 8.5 特征描述子 > 8.5.2 特征描述子HOG学习视频
同学们好 这节课我们来介绍另外一种流行的局部特征描述子
也就是图像梯度方向直方图HOG
在2005年的CVPR会议上
法国国家计算机科学及自动控制研究所的Dalal等人
提出了一种能够解决人体目标检测的图像描述子
这种方法使用梯度方向直方图来表达人体
来提取人体的外形信息和运动信息形成了非常丰富的特征集
那么在人体目标检测方面也得到了非常成功的应用
HOG特征结合SVM分类器已经被广泛应用于我们的图像识别当中
尤其是在行人检测中获得了巨大的成功
在其它的领域也有非常多的应用
现在虽然有很多行人检测的算法不断提出
但基本上还是以HOG和SVM的思路为主
HOG描述器最重要的思想就是
在一幅图像中局部目标的表象和形状
能够被梯度或边缘的方向密度分布很好的描述
与其它的特征描述方法相比 HOG有非常多的优点
首先HOG可以表示边缘的结构特征
因此它可以描述局部的形状信息
那么位置和方向空间的量化
还可以部分的抑制平移和旋转带来的影响
局部的区域归一化直方图 它可以部分的抵消光照的变化
那么HOG在一定程度上也忽略了光照颜色对图像造成的影响
因此图像所需要的表征数据的维度就被大大的降低了
而HOG当中分块分单元的这种处理模式
可以很好的表征图像局部像素点之间的关系
下面我们来看看HOG特征具体的提取过程
那么在此之前
通常首先对图像进行γ较正来进行颜色空间的归一化
然后再采用任意的梯度算子来计算每个像素的梯度
在得到了梯度图之后 我们就可以来对HOG算子进行计算了
我们首先将图像划分成重叠或者不重叠的cells
也就是小的单元块
来统计每个cell上的梯度直方图
就可以形成相应的每个cell上的描述子
例如 每个cell的大小16乘6
如果我们采用9个bin的这样的一个直方图来统计梯度信息
也就是将cell的梯度方向共360度分成9个方向块
那么就如我们下图所示 在这种情况下
如果这个像素的梯度方向是20到40度
则直方图的第二个bin就会计数加一
这样对cell内的每个像素用梯度方向在直方图中进行投影
就可以得到这个cell的梯度方向直方图了
也就是该cell对应的9维的特征向量
那么像素的梯度方向用到了
梯度的大小呢 对于梯度大小来说是作为投影的权值的
打个比方 如果我们像素的梯度方向是20到40度
然后它的梯度大小是二
那么直方图第二个bin的计数就不是加一了 而是加二
将每几个cell组成一个block
而一个block内所有的cell特征描述子串联起来
我们就可以得到这个block里面的HOG特征描数子
我们再将图像内所有block的HOG特征描述子串联起来
就可以得到该图像的HOG特征描数子
也就是最终可供分类的特征向量
那么HOG的特征维数相对来说是比较高的
对于一幅64乘以128分辨率的图像来说
每16乘16的像素组成一个cell
2乘2的cell组成一个块 而每个cell有9个特征
每个块内又有4乘9 36个特征
以八个像素为步长的话
我们算一下在水平方向上就会有7个扫描窗口
而垂直方向就会有15个扫描窗口
也就是说64乘128这样一幅大小分辨率的图像
它最后所获得的HOG特征有3780维
由于局部光照的变化和前景背景对比度的变化
那么梯度强度的变化范围非常大
这就需要我们对梯度的强度来做归一化
归一化能够进一步的对光照 阴影和边缘来进行压缩
那么归一化之后的块描述符 我们就把它称为HOG描述符
如果把计算机比作人 计算机提取的是HOG特征向量
这是它对于输入图像的理解
如果把这些特征向量以成像的方式重构成人能理解的图像
这个图像是什么样子的呢
我们可以看一下
这个就是我们对HOG特征的可视化的一个表示
图c就是利用HOG特征重构所得到的原图像
我们可以来比对一下
HOG特征很好的反映出了目标区域的形状和梯度变化的细节
具有非常好的目标表征能力
而HOG特征本身也可以通过图b所示的可视化方法来进行表示
那么它都是一些细小的梯度细节
具体的仿真方法 如果大家感兴趣的话
可以参考下面的这个网站
所给出的HOG可视化的代码来进行仿真练习
HOG和SIFT都是属于描述子
以及由于在具体操作上有很多相似的步骤
所以呢很多人都认为HOG是SIFT的一种
其实两者的使用目的和具体处理细节上是有非常大的区别的
它们的主要区别在于SIFT是一种基于关键点的特征向量的描述
而HOG 是不需要提取关键点的
它只是将图像均匀分成小块来统计梯度直方图
SIFT对图像尺度空间下的像素求极值点
还要对图像来提取特征点
而HOG当中 既不需要来求极值点
也不会对图像来提取这些特征点
根据我们对HOG提取过程的学习
它也存在一些问题 比如描述子生成的效率不是很高
难以处理遮挡问题 并且对噪声比较敏感
为了进一步适应复杂的处理分析需求
它的改进方法也是非常多的
大家也可以关注一下相关的前沿
我们这节课的内容就到这里
谢谢大家 再见
-1.1 图像及图像的基本概念
--1.1.2 图像及图像的基本概念作业
-1.2 数字图像处理的起源
--1.2.2 数字图像处理的起源作业
-1.3 数字图像处理的步骤和方法
--1.3.2 数字图像处理步骤和方法作业
-1.4 数字图像处理系统的组成
--1.4.2 数字图像处理系统的组成作业
-1.5 数字图像处理主要应用领域
--1.5.2 数字图像处理主要应用领域作业
-2.1 色度学基础
--2.1.3 色度学基础作业
-2.2 人的视觉特性
--2.2.1 人的视觉特性作业
-2.3 图像数字化
--2.3.2 图像数字化作业
-2.4 数字图像特点
--2.4.2 数字图像特点作业
-3.1 图像变换的基本概念
--3.1.2 图像变换的基本概念作业
-3.2 图像的几何变换
--3.2.2 图像的几何变换作业
-3.3 图像的离散傅立叶变换
--3.3.2 图像的离散傅立叶变换作业
-3.4 图像变换的一般表示形式
--3.4.2 图像变换的一般表示形式作业
-3.5 图像的离散余弦变换
--3.5.2 图像的离散余弦变换作业
-3.6 图像离散沃尔什-哈达玛变换
--3.6.2 图像离散沃尔什-哈达玛变换作业
-3.7 K-L变换
--3.7.2 K-L变换作业
-4.1 图像的对比度增强
--4.1.2 图像的对比度增强作业
-4.2 直方图修正
--4.2.3 直方图修正作业
-4.3 图像平滑
--4.3.4 图像平滑作业
-4.4 同态滤波
--4.4.2 同态滤波作业
-4.5 图像锐化
--4.5.2 图像锐化作业
-4.6 图像的彩色增强
--4.6.2 图像的彩色增强作业
-5.1 退化模型及常见退化模型
--5.1.2 退化模型及常见退化模型作业
-5.2 图像的无约束恢复
--5.2.2 图像的无约束恢复作业
-5.3 图像有约束最小二乘恢复
--5.3.2 图像有约束最小二乘恢复作业
-6.1 概述
--6.1.1 概述作业
-6.2 图像编码基本理论
--6.2.2 图像编码基本理论作业
-6.3 无损编码理论
--6.3.2 无损编码理论作业
-6.4 霍夫曼编码
--6.4.2 霍夫曼编码作业
-6.5 算数编码
--6.5.2 算数编码作业
-6.6 预测编码
--6.6.2 预测编码作业
-6.7 正交变换编码
--6.7.2 正交变换编码作业
-7.1 图像分割的定义及依据
--7.1.2 图像分割的定义及依据作业
-7.2 边缘点检测
--7.2.2 边缘点检测作业
-7.3 边缘线跟踪
--7.3.3 边缘线跟踪作业
-7.4 门限化分割
--7.4.2 门限化分割作业
-7.5 区域分割法
--7.5.2 区域分割法作业
-7.6 聚类分割法
--7.6.3 聚类分割法作业
-8.1 像素间的基本关系
--8.1.2 像素间的基本关系作业
-8.2 目标物的边界描述
--8.2.2 目标物的边界描述作业
-8.3 目标物的区域描述
--8.3.2 目标物的区域描述作业
-8.4 图像的几何特征
--8.4.2 图像的几何特征作业
-8.5 特征描述子
--8.5.4 特征描述子作业
-9.1 图像匹配
--9.1.2 图像匹配作业
-9.2 图像分类
--9.2.2 图像分类作业
-9.3 图像识别
--9.3.2 图像识别作业
-9.4 模式识别分类专题
--9.4.4 模式识别分类专题作业
-中国天网
-车道检测
-期末测试
--期末测试