Video慕课视频播放-2017年清华大学研究生学位论文答辩（一）-MOOC慕课视频教程-柠檬大学

各位老师同学大家好

欢迎大家参加王玉旺郭凯文

两位同学的博士论文学位答辩

然后在答辩开始之前

我先介绍一下答辩委员会的名单

答辩委员会主席北京交通大学信息科学研究所赵耀教授

答辩委员会委员六名

分别是中国科学院大学计算机与控制学院黄庆明教授

中国科学院计算技术研究所张勇东研究员

清华大学自动化系陈峰教授

清华大学自动化系罗予频教授

清华大学自动化系季向阳教授

清华大学自动化系戴琼海教授

那请赵老师来主持

好首先请秘书介绍一下王玉旺同学的个人情况

那个博士生王玉旺籍贯是河北省沧县

2007年9月考入清华大学自动化系

2011年7月本科毕业获得工学学士学位

同年9月免试进入自动化系攻读博士至今

期间在MIT进行了为期七个月的学术交流

在攻读博士学位期间共修39学分

其中37学分为学位课

共发表学术论文6篇其中一作4篇

包括3篇SCI和一篇EI论文

然后申请专项8项 3项已授权

并作为参赛队长获得了2013年国际空中无人机大赛冠军

好那就请答辩同学介绍自己的研究工作

各位老师大家好

我是今天参加答辩的博士生王玉旺

我的答辩题目是多维数据耦合计成像研究

首先对研究背景进行介绍

计算成像技术是实现多维全光信息获取的新一代前沿技术

光是人类对物理世界进行观测的重要媒介

无论是探测宇宙奥秘的天文望远

还是对神经细胞的纤维观察

采集的都是光信息

麻省理工学院的安德尔森教授于1991年

将全光信息的概念引入视觉与感知的研究领域

并将全光函数描述为空间角度频谱时间等七个维度

近年来随着计算成像的发展

也包含了像相位偏振等其他维度

计算成像的研究目标可以概括为从看不到到看得到

以及从看不清到看得清

看不到到看得到指的是利用调制环节和计算重建

对传统成像中丢失的维度信息进行采集和观测

而看不清到看得清是指提升系统的成像质量和成像性能

在某一维度或者是某些维度上打破传统成像系统的限制

成像技术的发展为其他领域的科学研究

提供了重要的研究手段和工具

纵观科技的发展史许多重大的科学发现

都是由于观测仪器的发明所带来的

计算成像是认识客观世界发现自然现象

揭示科学规律的重要研究领域

它具有广泛的应用场景

具体来看从空间角度来看包括十亿像素成像

结构光超分辨 TOF深度成像等

角度维度包括光场纤维

时间维度包含飞秒快速成像

频谱维度包含光谱摇杆

相位维度包含频域拼接然后实现超分辨成像

然后光强维度研究是超暗光环境下极小量光子的成像

传播途径来看包括抗散射借日成像研究等

下面我们首先来看一下传统的基于透镜成像的系统

在全光信息的获取过程各个维度的信息缺失情况

首先角度维度θ和φ在成像透镜的积分的

就是视角的角度范围内积分缺失

然后深度z由于投影就会造成深度z的信息缺失

然后时间t是要在曝光时间内进行积分

而光谱λ则在相感器之内的感光曲线上进行积分

然后通常相感器阵列只保留了RGB三个颜色通道的信息

最终只有xy两个维度被离散采样

那么计算成像则是从系统的角度出发

基于计算技术对整个的成像系统进行改造

在硬件上引入了一些调制器件

在光照端光路传播和采集端进行调制

将需要采集的信息进行耦合

然后再根据采集到的数据进行重建

恢复我们要采集的信息

这里常见的一些调制器件包括用于光强调制的

这个微镜阵列DMD以及用于相位调制的LCoS等

然而计算成像中随着采集维度的提升

也带来了更大的数据量的采集需求

受到相感器阵列的空间像素数量感光时间

以及读出存储带宽的限制

在对多维数据进行观测的时候

往往在这个成像质量然后各维度的范围

和各维度的分辨率上存在一个tradeoff

也就是说你在某一个维度上

然后有一个性能的提升

往往会带来其他维度上的一个性能的降低

因此需要解决在现有器件有限的能力下

我们如果实现多维数据由看得杂到看得精的这个问题

其实也就是说对于利用有限的能力

尽量高效的对多维数据进行采集和恢复

现有的解决思路

我们可以概括为左边的基于软件算法的方面

以及右边基于硬件系统的方面

在算法方面主要包括我们可以根据所采集的数据

各个维度之间的统计特性进行降维重构

利用压缩感知和吸收采集

以及通过字典学习提升数据恢复的精度

从而降低采集所需的数据量

在硬件方面我们一些常见的做法

包括使用多个相机进行并行采集

提升总的采集的像素数和采集的带宽

或者是设计一些合适的系统和光路

将部分计算使用的光路用硬件系统来实现

例如可以使用二维随机编码

或者是傅里叶正弦条纹的结构光照

然后直接获取场景在某些投影机下的采样值

将空间的信息编码到时间维度

利用采集器件在时间维度强大的采集能力

获取到空间维度的信息

我的博士论文的研究工作主要是围绕

多维数据耦合计算成像展开

分析所需采集数据的物理特征和统计特性

设计了数据驱动的稀疏采样通道

相应的计算成像光路以及重建算法

实现了符合分辨率稀疏视角的光场

对四维光场的信息获取重建

然后单像素成像系统对三维高光谱数据

和三维时空数据的采集和重建

有效的增强了现有成像系统对多维数据的采集性能

提供了成像速度与成像的质量

下面我就对各个主要的研究内容进行详细的介绍

首先我的第一个研究内容是

复合分辨率稀疏视角的光场采集

光场是采集了场景中每一个场景点的

不同方向的光强信息

它包含了两维空间维度xy和两维的角度维度θφ

而传统的成像中其实只采集了xy维度的信息

如果使用密集点进行采集的话就会具有数据量特别大

然后带宽也很高的这样的一个难点

现有的光场采集方法主要包括如下的四种方法

第一个方法是基于相机阵列的方法

也就是说我们把很多个相机排成一个阵列

采用密集视点进行采集

然后这种采集方法结构比较复杂

体形也较为庞大整体的造价也高

然后它的适用场景也比较有限

然后另外一种方法基于微透镜阵列的单相机采集

这种方法是通过微透镜阵列来实现

通过牺牲空间分辨率来采集角度信息的目的

由于只有一个单相机

所以它的单个视角的分辨率就会比较小

然后基于光圈编码和空间编码的方法

需要在已有的光路中插入一个调制器件

这样就会破坏相机的光学性质

造成比较差的一个采集质量

最后一种方法是基于光场和单反相机的混合相机系统

这种方法试图通过引入一个单反相机

与原有的光场相机进行混合采集

通过单反相机所采集到的高分辨率的纹理的空间信息

来补偿低分辨率的光场的这个视角

每个视角的低分辨率的图像

但是在重建过程中会丢失单反采集的高频率的空间信息

并且它的采集的视角范围还是受到这个光场相机的限制

基于以上系统的缺点我提出了一种

由主相机和微相机阵列组成的主从采集架构的

HyReS光场相机

这个就是这个整个的设计概念图

中间有一个单反相机构成

然后旁边是一个微相机的阵列

然后这个圆形的实验系统图

然后单反相机采集到的是高分辨率的信息

然后周边的相机采集到的是低分辨率的角度信息

两者的空间像素数量在长宽方向均相差8倍

这样的设计具有造价低体积小

然后具有很好的便携性能

我们把微型相机阵列可以作为单反的整个配件来使用

使得普通的单反相机具备光场采集的能力

这样就有比较好的适用性

以上述系统采集到的稀疏视点

复合分辨率的图像作为输入

我提出了一种迭代框架下的多视角协同超分辨算iPADS

然后进行周边微相机视角的超分辨重建

这个迭代方法主要有五个步骤构成

分别是第一是块匹配超分辨

然后深度估计渲染光流修复以及字典更新

然后我们来看一下我们的目的

我们的目的是讲中心视角

中心视角单反相机的高分辨空间信息

和周边视角的低分辨率的角度信息进行融合

来得到周边视角的高分辨的角度信息

也就是说要得到周边视角的高分辨率的图像

其中步骤一它是通过块匹配将场景的纹理信息

由中心视角传播到周边视角

然后步骤二和步骤三利用周边视角的角度信息

将中心视角的高频率的空间纹理渲染到周边视角

通过步骤四对视差估计和渲染中可能造成的误差进行补偿

最后通过步骤五将这一过程中

提取的高分辨率的周边视角的图像

加入到块匹配的特征字典里边

这样就用于下一轮的迭代优化

最终在得到九个视角的

高空间分辨率的图像和视差图以后

我们就可以渲染生成密集视角的光场

并对一些新视角中可能产生的空洞区域进行处理

右侧的视频就给出的一个实拍场景的密集视角的生成结果

为了验证所提出算法的有效性

首先我们在已有的密集视角的光场数据上进行了仿真实验

这里主要对比的对象就是块钱匹配的超分辨算法

可以看到无论是衡量像素相似度的PSNR指标

还是衡量结构相似度的SSIM指标

我们的这个结果都是优于块匹配结果

并且根据迭代次数它的指标都是在上升的

为了更直观的给出这两个方法的比较

我们下边给出了两个

在仿真的这个光场数据上的一个结果

可以看到与帧值相比呢

块匹配算法它丢失了很多的高频细节部分

而我们的算法基本上恢复了高频细节

利用本工作提出的HyReS相机和iPADS算法

进行光场采集和重建

可以获取高空间分辨率

高角度分辨率的光场数据

然后我们得到了这个空间分辨率是2944×1808

这个是非常高的

然后可以渲染视角可以自由设置

比如说可以渲染生成比较密集的视角

然后这里我们给出了两个实拍的数据

这两个实拍的数据就是将我们的结果与单反相机

就是中心视角进行对比

因为这个是实拍数据

所以它没有一个帧值的周边视角的高分辨的图像

然后通过跟中心的视角的单反视角进行对比

我们可以发现基本也是保留了它的这个高频信息

而块匹配的算法则丢失了很多的高频信息

然后这个是我们给出来了

用我们渲染的密集视角进行一个重聚焦的结果

以及它提取到的深度图

这部分工作是用于一些便携的光场采集

并且具有比较好的这种应用的价值

这部分工作目前已经发表在期刊

IEEE Trans on Visualization and Computer Graphics上边

由于我的第二个工作和第三个工作都和单像素成像有关

所以在这里先对单像素成像进行一个简单的介绍

单像素成像起源于量子成像

它经历了量子关联成像

然后经典关联成像计算关联成像的发展

由于最初阶段它提出的时候跟量子效应有关

所以它当时又被称为鬼成像

这个单像素成像的采集特点是在

它是在采集端它的像素数量仅有一个

就是这个单像素的探测器

它不像传统的CCD或者COMs这种

它是一种阵列式的采集

它就是说阵列式的采集呢是一种并行的采集方式

它通过曝光一次就可以获取图像的多个像素的值

但是单像素需要采集

随着时间不同的变化在不同的光照条件下

它的响应值

所以它的根本是说把空间信息调制到时间维度

然后让单像素探测器采集

在不同的结构光照明下边的响应值

然后我们再根据它的结构光照明的图案和相应的响应值

来进行重建得到最终的样本

这种成像方法由于单像素探测器的使用呢

有一些成像的优势像是对光强比较敏感

它的感光光谱也会比较宽

甚至可以到远红外的光谱

所以这种成像方法是比较适合生物载体成像等

一些对光强较为明显的一些成像场景

第二部分的研究工作

是通过使用空间和光谱的协同光照调制

使单像素系统具备高光谱成像的能力

高光谱图像具有两维空间xy和一维光谱λ

一共三个维度

而单像素仅具有单次采样

它每次采样仅能获得一个光强的数值

并且单像素的采集系统仅有时间维度的光强采集能力

如何加入光谱采集的能力

并且不影响原有的空间采集速度

是设计高光谱单像素成像的一个难点所在

目前的单像素成像系统的工作

都是比较简单通常只是采集了RGB三个通道的图像

或者另外一些工作是把这个单像素成像系统

和光谱议进行结合

但是这种实际上还是利用了光谱议的

对光谱维度的并行采集能力

并且它的采集速度还要受到光谱议的

速度的光谱仪的这个带宽的限制

本部分工作的一个重要的创新点

是对空间光照和光谱光照进行一个协调的调制

然后我们注意到单像素的采集频率可以达到GHz

而空间光调制的频率最快只有几十kHz

因此可以将不同谱段的光谱光照

然后通过时分复用的方式调制到一个

单个空间光照的周期内

从而在不降低空间采集速度的前提下

获得光谱维度成像的能力

但是过多的采集通道就会降低采集的光强

并且增加光强调制的复杂性降低信噪比

因此这里使用PCA对高光谱的31个维度进行主成分分析

利用高光谱31个维度之间的相关性

降低所需采集的通道数量

并使用色轮进行光谱的时分调制

色轮也是投影仪里面常用的一种进行光的

光谱调制的常用的器件

相比于就是31个通道窄带扫描的方法

这种方法在采集所需的次数

以及采集的平均光强上均具有优势

相比之前的单像素成像光路

这里增加了色轮的调制的部分

需要注意的是这里我们先用一个L1透镜

然后让经过DMD调制的光

收输到一个较小的大概只有二乘二毫米的

一个小的光斑上

然后再使用色轮调制这样就减少了这个光斑

在色轮两个不同的滤波片之间停留的时间

从而提升调制的效率

首先使用实测的6个光照光谱

对标准的24色色卡进行重建

测试光谱的重建能力

然后结果显示所有的方均根误差均小于4%

然后右下图给出了其中误差最大的

八个的重建光谱和真值光谱的这个曲线

可以看到有一个较好的重建效果

这里是搭建的植物系统和成像结果

在使用基于压缩感知的算法

进行空间维度重建的时候

这里添加了除了这个第一个是测量约束以外

还添加了光谱的连续性约束

以及光谱的非负性的约束

我们的系统可以在较短时间内

实现比较高效的多光谱单像素成像

这部分工作可以用于单像素的远红外谱端

多光谱的成像研究已应用

该部分工作已经发表在期刊

IEEE Photonics Technology Letters上面

下面介绍第三个工作单像素视频采集

由于单像素需要把空间维度的信息

转化到时间维度进行采集

而单像素的采集频率通常可以达到GHz

而光照调制的频率只有几十kHz

因此它的采集速度主要还是受到光照调制速度慢的限制

现在的研究现状通常是采用算法来降低采集次数

但是这种降低的能力有限并且会影响具体的成像质量

利用压缩感知算法中具体的性能是和样本

以及所选择稀疏投影机有关系

但是一般小于30%的采样率

就会带来成像质量的显著下降

另外一种方法是利用自然图像

傅里叶频谱稀疏的特点

在傅里叶频谱进行这个降低采样率的采样

但是这样破坏图像中的高频信息

还有一种自适应算法

它仅适用于特定的图像结构和运动场景

因此这部分的工作主要是着眼于单像素成像中

光照调制速度慢的这一根本问题

然后从而提升单像素的成像速度

这里其实主要包含了两个调制方法

分别是针对用于压缩感知算法的二值结构光照

以及用于傅里叶频谱采集的灰度正弦条纹结构光照

下面就对这两个方法逐一进行介绍

对于二值结构光照传统的调制方法

是仅用DMD进行光照调制

因此DMD的频率就决定了光照调制的速度

现阶段的单像素成像

其实它的像素数是比较小的

从Nature Communication2015 2016年的三篇文章来看

它的成像的像素数均小于300乘300

而调制器件目前具有比较大的空间像素调制数量

如1920×1080

因此我们可以通过空间扫描的这种方式

将光束平移到不同的调制位置

这样在调制器件一个的调制周期内

就可以生成不同的结构光照

这里我们选择使用两个同步振动的振镜

也就是这两个振镜

这两个振镜在同步振动

光线当这两个振镜始终保持同步振动

平行的状态下

光线经过这两个振镜之后就会也是始终保持平行

并且可以对DMD的调制面进行扫描

但是我们如果要最后成像你就必须要知道

每一次的调制的时候你的最终的调制的

这个图案是什么样的

然后它主要有两个因素来决定

一个是DMD上你显示的这个调制图案

另外一个就是你的这个光束的扫描位置

而光束的扫描位置由几何关系我们可以知道

它是由两个振镜的振动角度所决定的

而两个振镜它都是有它的输入一个电压信号

来表征它的振动角度

然后我们通过标定就标定了振镜的电压输出

以及扫描位置的

扫描位置就是在DMD上面的像素

这两个之间的关系通过这个关系呢

我们通过采集电压就可以知道

最终的光束扫描位置

从而确定最终的调制图案

这个是系统的整个调制和采集的过程

其核心就是用两个同步振动的振镜

来形成一个扫描光束对DMD的调制面进行平移的扫描

在DMD的图案不变的情况下

由空间扫描生成的结构光照之间

只有一个像素的平移

因此它不再是完全随机的二值图案

为了验证这一因素对我们的算法的影响

所以我们先首先进行了仿真实验

其中K是靠平移生成的图案的数量

然后添加了不同的噪声

然后我们利用压缩感知的重建算法

得到均方根误差如这个图所示

然后从这个仿真来看呢当K增大的时候

确实会带来成像质量的下降

然后我们这里选择K等于10

这个就是对它影响比较小的这个参数

作为后边我们选择振镜的扫描频率

和DMD的刷新频率之间的一个参数选择的标准

这里是实验的实际系统以及参数设计

当设计振镜的扫描频率为200Hz

然后DMD的换帧频率为4kHz的情形下

可以达到97kHz的调制频率

约是DMD的最高频率的五倍

并且如果通过更换扫描频率更高的振镜

可以达到约50倍的提升的效果

这里是静态成像的结果和动态成像的结果

为了对比系统的成像质量

我们这里选择了两个

这两个都是光束固定的成像结果

然后我们称之为A和B

然后C是我们用光束扫描的方法生成的成像结果

其中A和C具有相同的就是采样的数量

但是由于A是固定的

所以A的成像时间是C的五倍

B和C具有相同的成像时间

但是B的采样数量只有C的五分之一

对比可以看到C对比B成像质量是明显要好的

但是和A相比 C可以看到一些背景的

由于这个扫描带来了随机噪声

但是它的对比度仍然可以比较好的区分

这个成像样本中的条纹

对于动态场景我们选择和静态场景相同的设置

这样就可以达到80×80分辨率的42帧每秒的视频成像

这个是当前单像素的动态成像中最快的

这部分的工作可以用于远红外视频采集等一些应用领域

目前这部分工作也已经发表于期刊Scientific report

另外一个提升结构光照调制速度的方法

是基于光的干涉

利用二值器件生成灰度的正弦条纹

其具体的原理就是我们使用一个4F系统

在二值条纹首先调制一个二值条纹

在它的傅里叶面上我们进行动态选频

选择两个基频频点

然后在第二个透镜的后胶面上就会得到一个

由于干涉形成的正弦条纹的光照

由于这两步无论是二值条纹的调制

还是傅里叶频谱的选频都可以由二值器件来完成

因此我们就可以用二值器件来生成一个灰度的正弦条纹

这个是实拍的有三个不同的方向

四个不同的频率的条纹

还是具有比较好的质量

但是同时使用两个DMD

如果分别用于二值条纹的调制和选频

就会带来两个之间同步的问题控制也会比较复杂

为了解决这个问题我提出了一种分块使用的方法

就是使用一块DMD对它的左半区域

进行二值条纹的调制

右半区域进行频率选频

并且用两个4F系统将它们串联起来

这样就实现使用一块DMD

就可以实现生成灰度的正弦条纹

这里是使用上述系统的一个成像的结果

相比于之前2015年Nature Communication的工作

我们的成像速度有大约两个数量级的提升

并且我们的分辨率已经做到了600×600

这个是目前单像素成像中的像素数量最大的

从放大的结果来看背景也比较干净

也保持了比较好的这种细节信息

对于视频采集我们可以达到128×128的像素数下

五帧每秒的采集频率

这是也是目前使用傅里叶频谱采集的方法中最快的

该部分的工作可以用于高质量高分辨率的单像素成像

我们现在也正将这一方法用于显微成像的研究

这一部分的结果目前是在整理准备投稿中

在汇报完详细内容以后呢

下面对研究成果进行简要的总结

我的三个研究工作

都是围绕多维数据耦合计算成像研究展开

分别探究了对四维光场数据三维空间光谱

三维时空数据的高效采集方法

三个工作的相关论文都已经发表于相应的期刊

其中第一个复合分辨率稀疏视角光场采集方面

重建了密集视角高空间分辨率高角度分辨率的光场

为光场便携应用奠定了基础

然后时分复用光谱光照单像素高光谱方面

首次实现了基于单像素系统的高光谱成像

为远红外谱段中光谱技术的应用提供了技术支持

基于快速结构光照的单像素视频方面

二值调制方法首次突破了器件调制速度

对单像素成像的速度限制

正弦条纹调制将呈现速度提升了两个数量级

推动了单像素成像更多的实际应用

未来的研究工作将主要围绕三个领域展开

分别是宽现场高分辨率显微成像

以及与具体的生物应用结合和机器学习相结合

进行更多的这个观测内容的信息获取

这是我主要论文的发表情况

其中以第一作者发表论文4篇

包括3篇SCI和1篇EI

这个是其他论文的发表情况

以及专利的授权项目

目前已经有四项获得了授权

其他四项还在申请中

这里也包括其他一些所获得的奖励

最后衷心感谢各位老师

感谢我的导师戴老师

也感谢实验室所有的老师和同学

这么些年来的支持和帮助

以及国家自然科学基金委的支持

最后非常欢迎各位老师的提问和指导

好谢谢大家

Video在线视频

Video

Video课程教案、知识点、字幕

2017年清华大学研究生学位论文答辩（一）课程列表：

黄科科

黄骞

卢维宁

陈志祥

刘文巍

柳华蔚

王玉旺

袁野

戴晓业

刘钦源

王海名

王雨晴

周琴琴

李晓宇

Video笔记与讨论

也许你还感兴趣的课程: