当前课程知识点:天网追凶 > 第六章 视频监控前沿技术 > 第2节 视频监控相关技术发展趋势 > 6.2.1 视频检索技术深度解析
是
海量视频数据应用
一直是近年来智慧警务背景下
公安机关着力探索的重点研究领域之一
以往单纯依赖人力进行视频信息
挖掘与分析的视频侦查工作模式
越来越难以应对每天不断增加的视频大数据信息
为了有效地应对这一问题
视频检索技术应运而生
本节课我们与闫占垒工程师一起共同来探索
视频检索技术的奥秘
何老师您好
谈到公安视频侦查工作
对视频检索技术的需求
我就首先简单回顾一下
以往视频侦查中
应对海量视频数据时所遇到的瓶颈
早期的视频侦查工作主要依靠人海战术
办案人员在获取涉案视频后
就进行分配
每个人负责查看不同的视频内容
利用人工审看视频的优点是
充分发挥了人的作用价值
在技战法运用得当
组织管理得力的情况下
其准确性 可靠性比较有保障
适用于案件视频量不大的情况
相对应的它的缺点是
由于长时间看内容单一的视频影像
人脑是容易疲劳的
而为保证准确性
避免目标遗漏
部分视频就需要反复审看
使得审看效率低下
随着街面监控摄像机安装数量的越来越多
涉案视频量也是不断的增大
单纯依靠人工审看视频
越来越难以满足案件快速侦破的要求
确实如您所说
面对数以亿计的视频监控摄像头
单纯依靠肉眼审看视频的工作方式
必须要寻求技术上的解决办法
也就是视频检索技术
您能不能谈一下这项技术的发展历程
好的
大概在2012年左右
动态检索技术逐渐在视频侦查中推广应用
其技术原理是利用背景建模
将视频中运动的目标与背景分离
再对运动目标进行编组跟踪
这项技术的应用
能够快速将视频中所有运动目标进行截取
在暂无嫌疑目标的情况下
可以用于初次筛选
列举出视频中所有运动目标图片
协助办案人员进一步研判分析
可在一定程度上节省人眼看视频的时间
但同时它的缺点也比较明显
首先 它仅适用于低密度的视频
在高密度视频下意义不大
比如说人流量巨大的火车站广场
运动目标重叠严重
在这种情况下
单纯依靠背景建模
很难准确的分离出每个运动目标
也就无法进一步完成视频的浓缩
节省查看视频的时间
其次 它仅对视频中运动目标敏感
对静止或者是运动量较小的目标不敏感
因此容易遗漏目标
还有它的智能化程度低
不能对检测出的运动目标进一步的分类
也就是说计算机仅知道这里有像素变化
是一个运动目标
但具体这个目标是什么
它并不知道
因此 视频中光影变化
树叶抖动等非目标
也容易被捕捉
造成目标结果数量大
增大了人工研判的难度
在13-14年左右
模式识别技术逐渐在视频侦查中应用
这项技术可以在任意图像中进行目标截选
计算机可对截取的目标进行快速建模
之后在其他监控视频中自动比对
该技术的优点是
它能够实现以图像找图像的应用模式
更加接近人的使用习惯
并且具有模糊搜索能力
对图像本身清晰度要求不高
因为模式识别技术不是通过像素点比像素点
而是提取目标图像的轮廓 纹理
形成计算机可认知的一个模糊印象
利用数字化印象进行比对
它在目标角度变化不大的情况下较为适用
可以从视频中直接筛选定位出相似度高的目标
但是
这项技术还是依靠二维图像和二维图像的直接比对
所以在目标角度变化大的情况下
比如对车的正面提取做了模板
但如果车辆在其他摄像头中仅被捕捉到侧面的影像
就无法进行有效的比对
谈到视频检索
就不可避免的谈到视频结构化技术
早期的结构化技术主要依靠办案人员
对嫌疑目标进行人工打标签的方式进行
之后随着技术发展
车辆自动结构化技术是最先推广应用的
因为车辆是一个刚体
并且品牌型号也是已知的
结构化难度相对较低
而视频中行人结构化
是近两年随着深度学习技术的进一步发展
才真正的成熟并逐步的实战应用
它能够对目标进行多种属性的自动提取
有利于办案人员在结构化数据的基础上
对视频进一步的研判和分析
但是 结构化信息是预定义信息
它可以对目标进行广泛分类属性的描述
却缺乏对目标个性化特征的准确表达
也就是说结构化技术
能够对目标的一些通用化属性进行描述
但无法表达出目标的个性化特征
从您刚才所介绍的多种视频检索技术来看
它们都各自有各自的优点
但也都存在明显的缺点
想必这些缺点正是以往制约视频检索技术
在公安视频侦查部门大面积推广应用的原因
那目前有没有更优秀的视频检索解决方案呢
视频检索相关技术的发展速度很快
各种新技术也不断得出现在人们的视野当中
接下来我就从解决视频侦查实战问题的角度
来重点的介绍一下
基于多粒度特征融合的行人检索技术
人是视频侦查中关注的重要目标之一
所以从视频中定位嫌疑人
回溯查找其行动轨迹是视频侦查的一个基本任务
由于不同摄像设备之间的差异
行人又兼具刚性和柔性的特性
外观易受穿着 遮挡 姿态和视角等等因素的影响
使得行人识别成为计算机视觉领域中
一个既具有研究价值
又极具挑战性的热门课题
大家可以看上面这张图
同一个目标在五个不同的摄像头下走过
他被摄像机捕获时的角度 光照
运动姿态各不相同
要智能 自动 准确的把这个目标
从不同的摄像机当中查找出来
就可以极大的节省办案人员查阅视频的时间
而这正是基于多粒度特征融合的行人检索技术
所能解决的问题
闫工程师
您能不能先为我们介绍一下什么是多粒度呢
我们来看一个例子
在视频中有一个行人
就是我们框选的这个人
我们将他的特征分为粗粒度 中粒度和细粒度
因为人对现实世界中物体的认知
通常也是从粗到细的一个过程
粗粒度特征主要是表达行人的全局特征
包括神经网络提取的行人整体特征和行人性别
年龄等等总体的特征
那中粒度特征主要是表达行人的局部特征
比如说上半身穿的是什么衣服
下半身 脚部都有什么结构化的特征
神经网络特征等等
最后细粒度特征是利用神经网络描述
行人个体具有视觉显着的个性化特征
比如衣服的logo
鞋子的细节纹理
携带物的特征等等
这些是通过结构化信息所无法准确表达的
而通过对多粒度特性的一个表达
融合高度高层语义特征
以及全局和局部的细节神经网络特征
就可以实现对目标更加全面的特征表达
好 这个其实就是我们工作的一个原理
下面给大家详细的展示一下我们系统的工作流程
当然首先第一步
我们要载入的是我们的涉案视频
系统会自动的对视频进行一个预处理
检测目标
并实时的提取我们的目标特征
每段视频处理完成后
就形成了一个特征数据库
这是第一步
然后用户可创建案件的检索目标
目标的来源可以是任意的图像
从中框选出具体的行人目标
系统会自动的对目标进行一个特征的提取
在视频处理完成后
我们可以看到右侧有很多排查的结果
我们可以双击打开
进行目标比对结果的一个查看
可以看到视频中所有的相似的目标
会自动的展示出来
包括了我们视频当中距离比较远的那些目标
多粒度特征的融合
并结合时间空间信息系统
还是从其他多个场景下面
把我们的相似的目标排查了出来
这项技术对目标图像的质量要求不高
这跟人像比对的技术是有一定的区别的
我们可以看到在目标出现在摄像机镜头远处
身形已经非常模糊的情况下
对比的效果依旧是非常理想的
多粒度特征融合算法的最终目标
是建立更接近人脑认知方式的神经网络
也就是更加智能化
这样才更有利于协助办案人员在海量的视频中
快速搜索到我们想要的目标
为了实现这一目标
应主要从三个方面着手
首先是数据集的建立
这也是深度学习的特点
任何算法都是建立在数据的基础之上
利用真实监控环境下的视频数据进行样本采样 标定
以此构建数据集
其次是神经网络的设计
就是综合行人全局特征
大局部特征
局部细节特征
在融合行人结构化属性信息
形成多粒度的深度神经网络
最后是训练优化
利用组建的服务器集群进行训练建模
并且在训练中通过性能评估
不断优化调整参数
最后生成一个效能较为均衡的网络模型
随着智能芯片性能的提升和逐渐的普及
可以在摄像机前端完成目标检测和特征提取
然后将特征信息发回到后端
进行特征数据的存储
以待办案人员使用
通过边云结合的方式
提高整个系统的工作效率
为公安实战提供技术支撑
感谢闫占垒工程师为我们详细介绍了
视频结构化技术的发展历程
使我们看到了有效应对海量视频监控数据的希望
本节课就到这里 再见
-第1节 视频监控的基本概念
-第2节 智慧城市背景下视频监控系统的发展及应用
-第一章 章节作业
-第1节 涉案视频现场勘查技巧
-第2节 新刑事诉讼制度改革驱动下视频证据的应用
-第3节 视频资料取证
-第二章 章节作业
-第1节 公安信息化
-第2节 视频大数据深度应用
-第三章 章节作业
-第1节 视频清晰化处理的基本原则
-第2节 视频清晰化处理的理念
-第3节 视频图像模糊成因分析
-第4节 视频图像清晰化处理方法
-第四章 章节作业
-第1节 视频检验技术综述
-第2节 视频检验基本规则
-第3节 视频检验技术应用实例
-第4节 视频检验工作中的核心问题
-第五章 章节作业
-第1节 视频监控相关技术发展前瞻
-第2节 视频监控相关技术发展趋势
-第3节 视频监控新装备应用
-第六章 章节作业