计算机学论文-面向复杂场景的深度图像单目估计与超分辨率
深度图像是场景深度信息的主要表现形式,是三维视觉的数据基础,目前被广泛应用在机器人、自动驾驶、增强现实等领域,因此,对深度图像获取技术的研究具有重要的理论意义和实际应用价值。使用消费类深度相机或单目RGB相机获取深度图像的方法,具有低成本、小型化的特点,是移动设备感知场景深度信息的主要手段。然而,真实场景的复杂多变性使得这类方法难以得到高质量的深度图像,其中涉及深度图像的单目估计和超分辨率两个关键技术问题。为此,论文基于深度学习的理论和方法,对复杂场景下深度图像的单目估计和超分辨率技术进行研究。论文主要的研究工作和贡献如下:
首先,为了提高复杂场景下深度图像细粒度信息的单目估计精度,提出了两种改进全卷积网络的单目深度估计方法。第一种方法通过稠密多尺度特征提取和带混合域注意力机制的残差结构,增强了全卷积网络的特征处理能力,并设计了一种损失函数权重自适应调整策略以提高复合损失函数的优化效果。第二种方法通过特征蒸馏和混合域注意力机制的有效结合,进一步增强了全卷积网络的特征处理能力,并用离散小波变换改造复合损失函数,同样达到了提高复合损失函数优化效果的目的。室内外真实场景数据集上的实验结果证明了两种方法的有效性。
然后,针对消费类深度相机获取的深度图像分辨率低的问题,提出了两种端到端学习的引导式深度图像超分辨率网络模型。第一种网络将可变形卷积和自适应全连接融合方法引入到网络的特征处理过程,以充分发挥彩色RGB图像在深度图像超分辨率过程的引导作用。第二种网络采用了金字塔结构的设计,通过自适应的特征重组以及特征蒸馏和混合域注意力机制的特征增强,使得彩色RGB图像特征和深度图像特征得到有效整合,实现了对深度图像渐进式的重建。真实场景和合成场景数据集上的实验结果表明,两种网络可很好的提高深度图像的分辨率,提出的金字塔结构网络有效的提高了深度图像大上采样率重建时的精度。
最后,针对现有单目深度估计方法完成高分辨率深度图像的估计任务时所需算力过高的问题,提出了一种联合深度图像超分辨率技术的单目深度估计方法。该方法利用全卷积网络推断低分辨率的深度图像,利用设计的一种引导式深度图像超分辨率网络完成高分辨率深度图像的重建,两个网络在一个任务框架下联合求解。真实室内场景数据集上以三种典型的全卷积网络为例开展实验,结果证明了该方法具有较好的深度估计性能和较低的算力消耗。
关键词:深度图像;单目深度估计;深度图像超分辨率;全卷积网络;特征处理;复合损失函数
1.1 研究背景及意义
制造业是保持经济增长、影响社会进程的主体产业,是综合国力的重要体现。在《中国制造2025》的行动纲领中,明确提出了以信息化支撑驱动工业化进一步发展,再以工业化促进信息化升级的“两化融合”的行动主线,通过高新技术完成对传统制造业的升级改造。机器视觉作为一种赋予制造业智能化的有效方式,使机器能通过视觉手段真实地感知周围的世界,为智能制造领域的创新发展提供了重要的技术支持。
传统的二维视觉通过摄像机等光学传感器将三维世界信息投影到二维平面,然后通过图像处理技术对成像平面内的特征进行分析。但二维图像在投影过程中丢失了各成像对象在三维世界中的距离信息,即深度信息,导致在对空间几何、形状和结构等需要空间信息表达的特征的理解和识别时,存在着严重的不足。相比于二维视觉,三维视觉具有深度信息,因此能提供更好的空间信息表征,为机器更好地理解复杂场景提供可能。在智能制造的各个领域,三维视觉技术有着极其广阔的应用前景,如图1.1所示。
在机器人领域,三维视觉能更好地提供三维空间坐标和姿态等信息,有助于工业机器人完成复杂工件特定部位的抓取或安装这些精准的操作[1, 2],如今在柔性制造和仓储物流等领域的应用越来越广泛。随着人工智能技术的发展和社会需求的变化,新型的服务机器人市场需求强劲。服务机器人对人机间的协作要求极高,需要机器人在动静并存的非结构化的复杂环境中,具有较强的场景感知和自主决策能力。三维视觉可突出场景目标的空间边界和轮廓等信息,为各类视觉应用提供了更强的几何约束,在完成对服务对象的目标跟踪、行为识别、位姿估计[3-7]以及服务过程中的同步定位与建图[8, 9](Simultaneous Localization and Mapping,SLAM)等任务上具有突出的优势,大大提升了服务机器人的智能化程度。
近几年,汽车自动驾驶技术的研究是国际汽车工程领域的前沿热点,学术界和工业界都投入大量精力对自动驾驶技术进行研发。自动驾驶系统是一个集环境感知、路径决策、控制决策等功能于一体的综合系统。目前谷歌、优步、百度等企业开发的自动驾驶系统,通过安装在车辆上的RGB相机、超声、激光雷达和惯性测量单元(Inertial Measurement Unit,IMU)等传感器,获取复杂交通环境的信息,辅助驾驶员进行安全的驾驶。行驶过程中,障碍物的形状、距离、位姿、速度等三维信息的获取,有助于车辆驾驶系统实现对周围环境信息全面而准确的感知,并完成目标检测、目标跟踪、语义标注以及行进路线的规划等场景理解任务,为行车安全性和智能性提供重要保障。
(a) (b) (c)
(d) (e)
图1.1 三维视觉技术在智能制造中的应用:(a)机器人;(b)自动驾驶汽车;(c)增强现实;(d)辅助医疗;(e)质量检测
Figure 1.1 Applications of 3D vision technology in intelligent manufacturing: (a) robot; (b) autonomous vehicle; (c) augmented reality; (d) complementary medicine; (e) quality inspection
增强现实(Augmented Reality,AR)通过将数字化的虚拟对象与现实环境进行匹配叠加,可有效增强用户对真实世界的感知和交互体验。基于AR的装配辅助(Augmented Reality Assembly Supporting,ARAS)技术目前是智能制造领域的研究热点,其重要性得到了普遍认可[10, 11]。虚拟物体与现实物体的配准是ARAS技术的关键问题之一,而基于三维视觉的虚实配准技术通过对深度信息的有效获取,实现连续视频帧中物体相对相机的三维位姿计算,以此完成虚拟物体与现实物体的精准配准,具有低成本和非侵入性的优点,是目前配准的主要解决方案。ARAS技术将产品信息、操作流程和其他三维虚拟信息与真实装配场景进行有效匹配叠加,并展示给操作人员,使操作人员可以更清晰、准确地完成各项繁琐的装配操作,有效地解决新进员工装配检修效率低和出错率高的问题。德国莱比锡保时捷车厂的装配操作员利用该技术检测出厂汽车的质量,洛克希德马丁公司、波音公司和俄罗斯苏-57战机的生产线上,都使用了该技术来协助组装飞机。
在辅助医疗领域,三维视觉可对手术方案选择的操作点进行精准定位和实时导航,帮助医生完成传统手术难以完成的复杂手术,提高手术效率和成功率。穿戴、远程诊疗被列入《中国制造2025》医疗器械领域的发展重点,具有三维感知能力的可穿戴或远程诊疗设备有着广泛的市场应用前景。
在质量检测领域,利用视觉方法计算产品的深度信息,完成产品表面三维形貌信息的测量,具有非接触、高精度和全场性等优点,一直都是机器视觉领域中的研究热点。随着高端装备制造业在支撑国民经济各领域发展的基础作用和地位的进一步提升,三维视觉测量已经成为当前质量检测领域重要的研究方向[12]。
综述所述,三维视觉在智能制造领域有着广泛的应用,深度信息是三维视觉的数据基础,对三维视觉的实际应用十分重要。三维视觉应用场景的不断拓展,很多场合需要移动设备在复杂的环境中感知深度信息,同时对设备的体积、功耗、成本等也有较严格要求,这导致深度信息的获取仍然是一项十分具有挑战性的工作。本文针对深度信息获取技术中的深度图像单目估计(即单目深度估计)及深度图像超分辨率视觉任务进行研究,符合当前深度信息获取设备的低成本、小型化发展需求,具有重要的理论意义和实用价值。
1.2 深度信息获取技术概述
目前,获取深度信息的方法通常分为单目深度估计、双目深度估计、结构光、飞行时间(Time of Flight,TOF)、激光雷达等多种,对应的典型设备如图1.2所示。采用结构光法和飞行时间法设计的传感器通常统称为RGB-D相机或深度相机。
单目深度估计:从场景一个视点的RGB图像中提取深度线索,推断出此场景的深度信息。这种方法具有硬件系统结构简单、成本低、灵活性和扩展性强等优势,成为了很多视觉SLAM应用的主要研究对象,但该方法获取深度信息时挑战较大,精度也是几种方法中最差的。
双目深度估计:利用人类双目视差的原理,运用不同视角的两个RGB相机对同一场景成像,通过立体匹配技术实现深度信息的计算。相比单目深度估计,双目深度估计可获取较为精确的深度信息,其感知范围取决于焦距和基线,通过不同的组合和设置方式,可应对不同探测距离的需求。双目深度估计具有成本小、功耗低等优点,但该方法严重依赖成像条件,并且对光照变化、纹理缺失的场景存在重建失败的问题。为了解决这一缺陷,一些研究者提出了主动双目深度估计[13, 14],图1.2(b)为中国小觅智能公司研发的主动双目相机,就是该类方法的代表性产品。该产品通过在双目上添加红外投射器照明被测物体和增加纹理的方式,使得双目匹配在黑暗或缺乏纹理的情况下同样能有效工作。但主动双目深度估计增加了硬件成本,同时存在着计算复杂度高的问题。
(a) (b)
(c) (d) (e)
图1.2 典型的深度信息获取设备:(a)单目相机;(b)双目相机;(c)TOF传感器;(d)结构光传感器;(e)激光雷达
Figure 1.2 Typical depth information acquisition equipment: (a) monocular camera; (b) stereo camera; (c) TOF sensor; (d) structured light sensor; (e) laser radar
飞行时间:利用光信号发射器连续发射光脉冲至被测物体,通过探测器接收从物体反射回的光脉冲,然后计算探测光脉冲的飞行时间进而推算出被测物体距离探测器的深度信息。该方法处理数据的速度更快、实时性更高,但是测量精度则相对较低,因此在对精度要求不高的消费电子领域得到了广泛的应用。图1.2(c)为微软公司开发的便携式Azure Kinect传感器,就是基于飞行时间法实现深度信息的感知。微软公司的增强现实产品HoloLen2系列眼镜,也内嵌了TOF深度传感器获取深度信息。
结构光:通过辅助光源投射特定编码的面结构光到场景,场景的三维深度信息会对面结构光产生空间调制,对应的成像器件接受调制后的结构光信息,根据相关标定参数推算出场景的深度信息。该方法很好地解决了双目视觉存在的同名点匹配过程复杂和鲁棒性差的问题,也被成功的应用在消费电子领域。同时,通过合理的面结构光编码和测量场相关参数的精准标定[15],该方法在近景测量时可以提供高分辨率,高精度的三维深度信息。图1.2(d)所示的PowerScan系列蓝光面扫描三维测量设备就是基于结构光原理设计,实现最高可达0.008 mm的测量精度。但该方法功耗高,结构光容易受环境光干扰导致其室外体验很差。
激光雷达:按照一定时间间隔向测量场空间发射激光,记录各个扫描点的信号从激光雷达发射到被测场景中的物体,并被物体反射回激光雷达的间隔时间,从而推算出物体表面被扫描点与激光雷达之间的距离。该方法具有高分辨率、较强的抗干扰能力和高速的数据刷新率等优势,因此得到了广泛的使用。图1.2(e)为Velodyne公司采用64线扫描的HDL-64E型激光雷达,被谷歌、百度、优步等公司应用于自动驾驶汽车的测试。该方法虽然可快速、高精度的实现三维信息的采集,但通常设备的成本较高且功耗较大,限制了设备的大范围推广。同时,激光雷达一般建立的是稀疏点云,若想获得稠密点云即高密度的深度信息,设备的成本就需大幅度的增加。
综述所述,不同的深度信息获取方法各有其优势和局限性,这导致了三维视觉应用所使用的高精度传感器并未标准化。越来越多的学者[16-19]开始关注多种深度传感器信息融合的深度信息获取方法。目前实际使用的自动驾驶系统,多数都采用了将激光雷达、IMU和RGB相机等多种传感器信息进行融合的技术手段,弥补单一传感器的不足。
在机器视觉领域,点云和深度图像是深度信息的两种主要表现形式(如图1.3所示,两种数据均用了伪彩色表示),两种数据表示形式之间可以相互转换。深度图像又被称为距离图像,采用的是灰度图像的数据格式,与灰度图像中像素点存储亮度值不同,深度图像像素点位置存储的是该点到相机的距离,即深度信息。相比点云对深度信息的稀疏表示,深度图像这种稠密表示的方式,能够更真实准确地体现场景的空间几何信息。因此,本文对场景深度信息获取技术的研究,就转换为计算机视觉中对深度图像获取技术的研究。
(a) (b)
图1.3 深度信息的主要表示形式:(a)深度图像;(b)点云
Figure 1.3 Main representations of depth information: (a) depth map; (b) point cloud
深度图像的获取技术随着愈来愈多研究人员的持续探索,虽然已经取得了一系列重要的研究成果,但使用低成本、小型化的传感器获取高质量的深度图像仍然是一项具有挑战性的工作。单目深度估计具有硬件系统简单、成本低、灵活性和拓展性强等优势,但预测的深度图像在精度、分辨率和细粒度信息的呈现能力等方面都有待提升。利用一些基于结构光或TOF法的便携式低成本深度相机,虽然可很方便的完成深度图像的采集,但此类设备受传感器硬件条件与成本等因素的限制,获取的深度图像普遍存在着分辨率低的缺点,无法充分表征复杂场景繁多的空间信息。因此利用图像超分辨率技术对深度图像进行超分辨率恢复,得到高质量的场景深度图像,是扩展现有深度相机应用范围的主要途径。因此,本文接下来对单目深度估计和深度图像超分辨率进行了深入的研究。
1.3 研究现状及存在问题
1.3.1 单目深度估计
单目深度估计指的是使用场景的一幅RGB图像,基于相似的深度区域对应着从RGB图像中提取的是相似性特征的假设,获取场景深度图像的过程。由于单目RGB图像缺乏运动、立体视觉关系等可靠的深度线索,要提取相似性特征并计算深度,本质上是一个病态(Ill-posed)问题,即由单目RGB图像提取图像上一点的真实深度在理论上可以有无数个解[20]。因此,单目深度估计一直以来都是极具挑战性的计算机视觉课题。
单目深度估计的发展过程可大体分为三个阶段,每个阶段的主导方法分别为环境假设法、机器学习法和深度学习法,如图1.4所示。
早期的单目深度估计利用环境假设的方法,如图像消隐点[21, 22]、离焦与对焦[23]、阴影[24]等,对场景单目RGB图像进行建模并提取深度线索,通过添加约束的方式求解病态的优化问题,实现深度图像的获取。
2005年开始,研究人员着手利用机器学习的方法实现单目深度估计[25-31],代表性的工作有Sexena等[25, 26]利用马尔可夫随机场(Markov Random Field,MRF)描述全局信息和长距离信息的概率图模型,将单目深度估计问题转化为一个随机场下的学习问题。Liu等[27]利用图像超像素处理方法,提取彩色RGB图像的超像素信息并编码为连续变量,同时编码相邻超像素之间的联系为离散变量,进而将单目深度估计问题转化为离散-连续条件随机场(Conditional Random Field,CRF)的优化问题。Konrad等[28]利用K最近邻(K-nearest Neighbor,KNN)搜索方法,从数据集中选取与目标图像最相近的K张图像,将K张图像对应深度图像进行有效融合,完成深度图像的计算。但机器学习方法采用的是手工特征或概率图模型表征复杂场景的先验性,这种方法本质上存在很大的局限性,估计出的深度图像无法达到实际应用所需的精度要求。
随着深度学习方法的兴起与发展,神经网络强大的特征学习和映射能力为获取单目深度线索提供了全新的解决思路,很多学者开始设计各类神经网络来解决深度图像的单目估计问题。Khan等[32]和Ming等[33]先后对基于深度学习的单目深度估计方法进行了综述。对于基于深度学习方法的单目深度估计模型,按照训练方式划分可分为监督学习、无监督学习和自监督学习三种,按照最终完成的视觉任务数量划分可分为单任务框架和多任务框架两种,本文只讨论监督学习的相关研究情况。
图1.4 单目深度估计的发展过程
Figure 1.4 The evolution of monocular depth estimation
2014年,Eigen等[34]首次将卷积神经网络(Convolutional Neural Network,CNN)引入到深度图像的单目估计任务中,该团队设计了一种包含两个尺度的CNN结构,将深度计算分成从粗到精的操作,即在整幅图像上对场景全局深度进行粗估计,然后利用图像局部特征优化对粗估计深度图像进行精估计,该工作开创了深度学习在单目深度估计领域的先河。随后,Laina等[35]提出了使用残差网络[36]和几个自定义的特征上采样模块的方法完成深度图像的估计任务(如图1.5所示),也收到了较好的深度估计效果,该团队将这类型的网络结构定义为全卷积(Fully Convolutional)结构网络,即网络的编码器部分选择图像分类任务中的经典网络结构,通过特征的池化操作逐渐降低并丰富特征表示的分辨率,通过深层的网络结构完成图像特征的多样化表示。网络的解码器部分通过上采样操作完成特征表示分辨率的逐步提高,最终实现RGB图像到深度图像的非线性映射。本文提到的全卷积网络就是指符合这种特征处理过程的卷积神经网络。Cao等[37]也设计了一个全卷积结构的深度残差网络,该网络充分考虑到真实深度存在的长尾分布性特点,将深度估计视为像素级的分类任务。
以上这些网络都属于单任务框架。这些网络的编码器部分在丰富特征表示的过程中,重复的池化操作降低了特征表示的空间分辨率,虽然有利于图像全局特征的提取,却对后续深度图像细粒度特征的映射带来了不利的影响。
很多研究者尝试利用各种深度学习方法,在解码器端解决这一弊端。比如,Li等[38]和Zheng等[39]通过自定义的上卷积操作将编码器不同分辨率的层次化特征进行有效整合,实现编码器特征从粗到精的处理,然后在与解码器最后一层的特征进行融合,用融合后的特征实现对深度图像的映射工作。再比如,Godard等[40]、Liu等[41]和Alhashim等[42]均使用了跳跃连接将卷积神经网络网络不同阶段的相同分辨率特征进行有效的融合,有效的提高了深度图像边缘细节的估计精度。也有一些研究通过使用多尺度特征提取操作提取图像上下文信息以提高深度估计性能,例如,Fu等[43]应用具有多个扩张率的扩张卷积来提取多尺度特征,Zhao等[44]采用图像超分辨率技术来生成多尺度特征,中国科技大学的陈雪锦等[45]提出了一种自适应密集特征聚合模块用于聚合有效的多尺度特征,以推断场景深度图像的结构信息,同样使用多尺度特征提取概念的还有文献[46-49]的工作。鉴于注意力机制可以增加模型对重要特征的敏感性来增强网络表征的特点,最近很多研究者[50-55]开始将注意力机制嵌入到单目深度估计任务的网络结构设计中,例如,Chen等[50]设计了一个基于注意力机制的上下文融合网络来提取图像和像素级上下文信息,从而增强了特征细化处理的效果,天津大学的Wang等[51]在设计的网络框架中使用了混合注意力机制来提高最高层次特征的表征,Huynh等[53]提出了一种通过引入非局部共平面性约束和非局部注意机制(Non-local Attention)来提高深度图像中平面结构区域的估计效果。
图1.5 Laina等[35]提出的全卷积结构的单目深度估计网络
Figure 1.5 Monocular depth estimation network proposed by Laina et al.[35]
很多研究者也开始将循环神经网络、生成对抗网络等先进的深度学习模型引入到单任务的深度估计设计框架中。如Mancini等[56]通过长短期记忆网络[57](Long Short-Term Memory,LSTM),利用输入流的序列性预测场景深度,其中LSTM层在编码器网络中紧随卷积层。Kumar等[58]提出了一种卷积LSTM[59]的深度估计网络,能够充分利用单目图像序列中的时间信息。Jung等[60]将生成对抗网络引入到单目深度估计中,其中生成器由一个用于提取全局特征的子网络和一个用于从输入图像估计局部结构的子网络组成。整个模型通过基于估计深度和真实深度的对抗损失进行训练。Lore等[61]基于生成对抗网络模型架构,完成RGB图像到深度图像的映射,同样收到了较好的预测结果。
图1.6 Eigen和Fergus[62]提出的单目深度估计网络
Figure 1.6 Monocular depth estimation network proposed by Eigen and Fergus[62]
除了单任务的设计框架,研究者也设计了多任务联合学习的深度学习框架计算深度图像信息。例如,如图1.6所示,Eigen和Fergus[62]将语义分割、法线估计、深度估计三个任务统一在一个卷积神经网络中,这种统一的体系结构便于多任务之间共性特征的捕捉,同时多任务的协同也提高了各自任务的预测精度。Yan等[63]提出了一种多任务的CNN框架模型,该网络首先通过两路CNN结构分别对场景法线和深度信息特征进行提取,然后引入了一个CRF和一个基于自动编码器的二元势(Pairwise Potential)函数,并通过最后设计的一个混合优化算法,有效的整合RGB图像的超像素信息和预估的法线信息和深度信息,进一步的提高了深度图像的预测精度。Zhang等[64]提出了一种联合任务递归学习(Joint Task Recursive Learning)框架,同时实现语义分割和深度估计任务,该框架通过序列化的交互来递归优化两个任务的预测结果,沿着由粗到精的过程,逐步重建深度图像所需的细节信息。文献[65-68]也采用了类似的多任务学习方法。虽然多任务学习方法可以提高深度估计性能,但训练数据集需要满足高精度的多任务数据标准,同时解码器中所需的多分支设计也增加了模型参数并降低了运行速度,这些缺陷大大限制了该类方法的实际应用。
单目深度估计的深度学习方法本质上是一个优化过程,即网络在训练过程中,根据损失函数计算的数值,通过梯度优化算法完成网络参数的调整。因此,有效的损失函数设计,可辅助网络完成高质量的深度估计任务。众多研究者从不同的设计角度出发,使用不同的单个损失项或多个损失项的组合来构造损失函数[69-75]。比如,Eigen等[34]提出了一种尺度不变损失来优化模型学习。Fabio等[70]将其总损失定义为三个主要贡献的总和,即视差平滑度损失、图像重建损失和代理监督损失。Alhashim等[42]和Gur等[71]将训练损失视为欧式距离损失和结构相似性(Structural Similarity,SSIM)损失之和,以寻求点对点差异和图像域中高频细节失真之间的平衡。Hu等[48]和陈雪锦等[45]对不同类型误差的正交敏感性进行了简单分析,然后设计了包含点到点的深度损失、梯度损失和法线损失三种损失项的复合损失函数。Yin等[72]设计了一种损失项来执行一种简单的三维几何约束,在重建的深度图像三维空间中随机采样的三个点,计算由此确定的虚拟法线方向产生的损失,并通过实验证明这种虚拟法线带来的几何约束可显著提高深度预测精度。Lam Huynh等[73]提出了一种包含稀疏损失、深度置信度损失和规范化的海森(Hessian)损失的复合损失函数,其中的规范化的海森损失可有效的克服广义浅浮雕转换(Generalized Bas-relief Transformation)的模糊性。一些研究人员也开始尝试用自适应的方法来设置每个损失项的权重。例如,Jiang等[74]提出了一种基于高斯模型的自适应权重分配算法,最大限度地提高其提出的复合损失函数的有效性。Zheng等[39]使用简单的求和规则来完成权重的自适应调整。Lee等[75]提出了一种损失权重再平衡算法,用于在训练期间自适应地初始化和重新平衡损失项的权重,这些方法旨在固定损失项组合下的情况下,提高复合损失函数的有效性。
1.3.2 深度图像超分辨率
图1.7 深度图像超分辨率方法分类
Figure 1.7 Classification of the depth map super-resolution methods
消费类深度相机可方便的采集到深度图像,但采集的深度图像普遍存在着分辨率过低的问题,深度图像超分辨率为提高深度图像质量提供了一条有效的途径。根据是否利用相同场景的彩色RGB图像,可将深度图像超分辨率划分为两大类,即只利用深度图像的单幅深度图像超分辨率和联合RGB图像和深度图像的引导式深度图像超分辨率。如图1.7所示,两大类方法进一步细分,都可分为传统方法和深度学习方法。本小节对各种方法的研究现状进行展开介绍。
1.3.2.1 单幅深度图像超分辨率
单幅深度图像超分辨率只利用一幅低分辨率深度图像重建出对应的高分辨率深度图像,是典型的单幅RGB图像超分辨率技术的一个应用分支,因此,单幅RGB图像超分辨率的方法一般均可直接用于单幅深度图像超分辨率。受采集设备与成像环境等诸多干扰因素的影响,采集到的原始场景深度信息变成了低分辨率的深度图像,此退化过程无法用一个严谨的数学模型对其进行精确表述。实际研究中,通常构造如式(1.1)所示的退化模型来表示低分辨率深度图像y和原始高分辨率深度图像x之间的关系。
(1.1)
式中,退化矩阵H可以看做是由降采样、模糊和运动形变等共同作用而成,n为退化过程的加性噪声。
由式(1.1)可知,该退化问题本质上和单目深度估计一样,都是一个病态问题。研究者在实际研究中对退化模型做出了明确定义,通常假设低分辨率深度图像是由原始高分辨率图像经过双三次插值下采样获得。
单幅深度图像超分辨率的传统方法可分为基于滤波[76-78]、基于优化[79-81]和基于学习[82-84]的方法三种。
基于滤波的方法利用深度图像深度值的局部或非局部邻域关系,逐步的重建出高分辨率的深度值。这类方法由于运算复杂度较低,因此实时性强,但对深度图像细节的恢复效果很差。
基于优化的方法利用各种先验知识,将深度图像重建问题转化为特定代价函数的最优化问题。比如,Aodha等[79]根据深度图像的特点,提出了基于补丁(Patch)的马尔可夫随机场模型。Li等[80]在此基础上,增加了自相似结构(Similarity-aware)的集合约束。Xie等[81]利用基于边缘引导的马尔可夫优化模型,先从低分辨率深度图像中提取高分辨率深度图像的边缘,然后用边缘引导高分辨率深度图像的重建。这类方法与基于滤波的方法相比,深度图像的重建精度有所提升,但运算复杂度高,且先验知识的设计对最终重建效果影响较大,因此只适应特定的应用场景。
基于学习的方法利用稀疏编码等策略来学习高低分辨率深度图像之间的关系。例如,Yang等[82]提出了一种用于深度图像重建的稀疏表达法,该方法基于了低分辨率深度图像块能被高分辨率深度图像块字典的基元素线性稀疏表示的假设,用高、低分辨率深度图像块联合字典学习进行深度图像重建。Mandal等[83]自定义了一种子字典,并通过增加边缘保持约束来提高重建效果。Ferstl等[84]从额外的训练库中学习包含边缘先验的字典,并基于变分稀疏编码来计算强边缘先验。这类方法虽然优于基于滤波和基于优化的方法,但深度图像的重建质量仍需要进一步的提高。
考虑到卷积神经网络强大的特征学习和映射能力,研究者尝试用深度学习方法完成图像的超分辨率任务,2015年,Dong等[85]提出的超分辨率CNN,第一次将CNN用于RGB图像的超分辨率重建。单幅深度图像超分辨率技术可以认为是RGB图像超分辨率技术的扩展,即将RGB图像的超分辨率网络输入输出的维度统一为深度图像的维度,然后用深度图像训练数据集训练网络并最终得到最终的网络参数。因此,用于提高RGB图像超分辨率性能的各种典型深度学习模型,如残差网络、循环神经网络、生成对抗网络等,以及各类基于深度学习的特征提取方法,如特征多尺度提取[86]、注意力机制[87, 88]和前馈反馈[89, 90]等,均可用于单幅深度图像的超分辨率重建。
图1.8 Song等[94]提出的深度图像超分辨率网络
Figure 1.8 Depth map super-resolution network proposed by Song et al.[94]
与RGB图像相比,深度图像代表的距离信息包含较少的纹理细节和较锐利的结构边缘,很多研究者基于此特性设计了专用于深度图像超分辨率的网络结构。例如,Riegler等[91]将总广义变分(Total Generalized Variation,TGV)约束与CNN结合起来,为单幅深度图像超分辨率构建了端到端的卷积神经网络框架。山东大学的Song等[92]将深度图像超分辨率任务建模成一系列视图子任务合成的方案(如图1.8所示),由卷积神经网络执行多尺度特征的融合过程,来实现高精度的深度图像超分辨率。黄立勤等[93]利用金字塔结构实现特征的不同层次表示,并在网络训练过程中对每个分辨率深度图像进行监督,渐进式的生成不同分辨率的深度图像。西北工业大学戴玉超的团队[94]对深度传感器捕获的低分辨率深度图像的噪声进行了分类,并提出了一个基于全局注意力机制的渐进处理网络,该网络具有很好的通用性来处理不同种类的深度传感器噪声。Kim等[95]利用残差网络结构,搭建了更深的网络模型用于深度图像超分辨率重建。Chen等[96]设计了一种新的全变差正则化项,辅助网络模型生成高质量的边缘映射,实现深度图像的高精度重建。大连理工大学的叶昕辰等[97]提出了一个深度切分模块,从分而治之的角度通过多个切分支路(Slicing Branches)精确恢复不同深度范围的深度场景,并通过额外的距离感知网络对切分支路进行参数化加权,以自适应地融合多个切分支路的输出结果,实现细粒度的深度图像重建。
单幅深度图像超分辨率的深度学习方法存在着如下两个问题:第一,部分网络需要对输入深度图像进行上采样插值的预处理(如双三次插值或双线性插值),这不仅增加了后续网络处理的运算量,同时在大尺度的深度重建时,上采样插值后的深度图像边缘过于模糊会导致后续的深度重建很难获得满意的边界信息。第二,低分辨率深度图像受分辨率限制,能够表征的信息体量有限,因此无法精确的重构深度图像边缘细节较丰富的区域。
1.3.2.2 引导式深度图像超分辨率
深度相机在获取场景深度图像的过程中,往往能同时获得同一视角的高分辨率RGB图像信息。RGB图像丰富的结构边缘信息往往与深度图像中的深度值变化间断处(即深度图像的边缘信息)有着很好的共生关系(Co-occurrence),或称相似性。因此,大量的研究者将高分辨率RGB图像的结构信息传递到深度图像的超分辨率过程中,引导深度图像细节特征的修复,因此通常将此类方法称为引导式深度图像超分辨率。
给定任意高分辨率深度图像x,描述同一场景失真的深度图像y和彩色RGB图像z,Deng等[98]从多模态图像复原的角度出发,给出了如下的引导式深度图像超分辨率方法的数学模型描述:
……
在智能制造的行业背景下,机器人、智能驾驶、虚拟现实等领域对复杂场景深度信息的高质量获取有着迫切的需求。本文以低成本、小型化的深度信息获取设备存在的问题展开研究,将研究涉及的单目深度估计及深度图像超分辨率两个关键技术的研究现状进行了分析和总结。在此基础上,利用深度学习技术,对存在的若干难点问题开展研究
版权声明
本文为日月星论文查重(100036.com)发表,未经论文查重许可,不得转载。