欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
基于RGB-D图像的语义场景补全研究综述
来源:一起赢论文网     日期:2023-10-27     浏览数:207     【 字体:

 基于RGB-D 图像的语义场景补全研究综述*张 康, 安泊舟, 李 捷, 袁 夏, 赵春霞(南京理工大学 计算机科学与工程学院, 江苏 南京 210094)通信作者: 袁夏, E-mail: yuanxia@njust.edu.cn摘 要: 近年来随着计算机视觉领域的不断发展, 三维场景的语义分割和形状补全受到学术界和工业界的广泛关注. 其中, 语义场景补全是这一领域的新兴研究, 该研究以同时预测三维场景的空间布局和语义标签为目标, 在近几年得到快速发展. 对近些年该领域提出的基于RGB-D 图像的方法进行了分类和总结. 根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类. 其中, 对于基于深度学习的方法, 根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法. 在对已有方法分类和概述的基础上, 对语义场景补全任务所使用的相关数据集进行了整理, 并分析了现有方法的实验结果. 最后, 总结了该领域面临的挑战和发展前景.关键词: 三维场景; 语义场景补全; 环境理解; 计算机视觉; 深度学习中图法分类号: TP391中文引用格式: 张康, 安泊舟, 李捷, 袁夏, 赵春霞. 基于RGB-D图像的语义场景补全研究综述. 软件学报. http://www.jos.org.cn/1000-9825/6488.htm英文引用格式: Zhang K, An BZ, Li J, Yuan X, Zhao CX. Survey on Semantic Scene Completion Based on RGB-D Images. Ruan JianXue Bao/Journal of Software (in Chinese). http://www.jos.org.cn/1000-9825/6488.htmSurvey on Semantic Scene Completion Based on RGB-D ImagesZHANG Kang, AN Bo-Zhou, LI Jie, YUAN Xia, ZHAO Chun-Xia(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)Abstract: In recent years, with the continuous development of computer vision, semantic segmentation and shape completion of 3D scenehave been paid more and more attention by academia and industry. Among them, semantic scene completion is emerging research in thisfield, which aims to simultaneously predict the spatial layout and semantic labels of a 3D scene, and has developed rapidly in recent years.This study classifies and summarizes the methods based on RGB-D images proposed in this field in recent years. These methods aredivided into two categories based on whether deep learning is used or not, which include traditional methods and deep learning-basedmethods. Among them, the methods based on deep learning are divided into two categories according to the input data type, which are themethods based on single depth image and the methods based on RGB-D images. Based on the classification and overview of the existingmethods, the relevant datasets used for semantic scene completion task are collated and the experimental results are analyzed. Finally, thechallenges and development prospects of this field are summarized.Key words: 3D scene; semantic scene completion; environment understanding; computer vision; deep learning研究表明, 为了能够执行诸如导航、互动或物体检索等高级任务, 机器人需要具备对周围环境进行语义级别理解的能力. 同时, 为了进行抓取等任务, 机器人需要具备从单一视角图片中推断出完整三维场景的能力. 人类可以从单视角观察到的图像估计出对象的完整几何形状, 从而建立环境的三维模型, 目前机器人在这方面的能力还比较薄弱. 在语义场景补全提出之前, 研究者们通常分别使用语义分割方法和形状补全方法来使机器人获得语义* 基金项目: 国家自然科学基金(61773210)收稿时间: 2020-09-16; 修改时间: 2021-02-21, 2021-05-31; 采用时间: 2021-08-29软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cnJournal of Software [doi: 10.13328/j.cnki.jos.006488] http://www.jos.org.cn©中国科学院软件研究所版权所有. Tel: +86-10-62562563网络首发时间:2022-11-16 11:14:35网络首发地址:https://kns.cnki.net/kcms/detail/11.2560.TP.20221115.1406.006.html理解能力和推断完整形状的能力. Song 等人[1]认为语义分割和形状补全实际上是高度耦合、相互促进的, 并由此提出了语义场景补全(semantic scene completion, SSC) 这一概念. 语义场景补全是一项结合了三维形状补全与三维语义分割的计算机视觉任务, 可以帮助机器人感知三维世界, 并和环境交互.无论是形状补全还是语义分割, 首先需要对三维空间进行有效的表示. 体素作为一种常用的三维数据表示方式, 经常作为三维空间的形状补全和语义分割的基本操作单元, 是语义场景补全常用的数据形式. 在体素表示的基础上, 场景补全的目标是将被遮挡的空间区分为被占据空间和空闲空间. 具体而言, 形状补全是依据场景的布局和物体的形状, 将三维栅格中的每个体素标记为空体素或实体素的二分类问题. 然而, 形状补全仅考虑场景的几何信息, 缺少了物体的语义类别. 在形状补全的基础上进行语义分割, 则能够实现对所有被物体占据的空间的语义类别分类. 也就是说, 在三维场景中, 无论是处于物体表面的实体素, 还是处于遮挡区域的实体素, 每个体素均对应于一个特定的语义类别.c = fc0; c1; c2; : : : ; cNg c0 c1; c2; : : : ; cN为了将形状补全和语义分割在形式上统一, 语义场景补全的目标是为视野内的每个体素预测一个类别标签. 其中, 表示空体素, 表示N 个物体类别, 因而总类别数为N+1. 换而言之, 语义场景补全是将空体素也作为一种类别, 并将包括遮挡区域在内的所有体素进行分类, 从而同时实现形状补全和语义分割.语义场景补全对于许多计算机视觉和机器人应用都有重要意义, 例如: 机器人导航、自动驾驶、场景重建等.对于室内导航任务, 语义场景补全可以从局部观察重建和理解三维场景, 有利于整个场景的构建, 从而指导导航任务. 在增强现实任务中, 语义场景补全可以进行有效的三维建模, 从而促进增强现实技术的改进. 该项研究虽然是一个出现时间不长的计算机视觉细分研究方向, 但是发展速度很快, 本文总结了近年来基于RGB-D 图像的语义场景补全方法.本文第1 节对语义场景补全的相关背景进行介绍. 2 节对传统的语义场景补全方法进行总结. 3 节对基于深度学习的语义场景补全方法进行总结. 4 节对数据集和评价指标进行总结. 5 节对现有方法的性能进行分析. 6 节对面临挑战与发展前景进行分析. 最后总结全文.1 相关背景场景理解是计算机视觉研究的核心问题之一, 而语义分割则是为场景理解铺平道路的一项高级任务, 其目的是对显示出来的图像依照不同目标存在的区域进行划分和标注. 其涉及的应用领域包括自动驾驶、人机交互、图像搜索、增强现实等. 因此, 语义分割是计算机视觉领域的一项关键任务. 已经有很多学者对RGB-D 图像分割展开了研究[25]. 然而, 这些方法注重于获取观察到的像素的语义标签, 基本不考虑物体的完整形状, 因此不能预测可见表面以外的标签或完成场景补全.形状补全是场景理解的一个核心问题, 其目的是从单一视觉图像推断出物体的完整形状. 到目前为止, 已经有很多关于形状补全的工作[69]. 不过大多数方法只针对单个物体的形状进行补全. 要将这些方法应用到场景中, 需要额外的分割或目标掩码. 对于场景补全, 当缺失区域相对较小时, 可以采用平面拟合[10]或物体对称的方法[11,12]来填充空洞. 然而, 这些方法严重依赖几何的规律性, 当缺失区域很大时往往会失败. Firman 等人[13]提出了一种基于几何信息的场景补全方法并取得了较好的实验结果. 由于该方法没有考虑语义信息, 因此当场景结构比较复杂时会产生不准确的结果.鉴于以上方法不能很好地处理场景补全任务, 所以Song 等人[1]2017 年提出了语义场景补全的概念, 将形状补全和语义分割相结合来解决这一问题. 以单一深度图像为例, 1 给出了语义场景补全任务的直观解释, 1(b)颜色仅用于可视化, 为了三维显示效果更好, 此图 的显示角度与深度图略有差异. 近些年随着深度学习技术的不断发展, 特别是其在机器视觉应用领域取得了巨大成功, 越来越多的基于深度学习的语义场景补全方法被提出, 并且性能也得到了较大提升.以下主要对基于RGB-D 图像的语义场景补全方法进行总结、分类和对其性能进行分析. 近年来提出的基于RGB-D 图像的语义场景补全方法的时间线如图2 所示[1334].2 软件学报地板墙床窗户沙发物体家具(a) 输入的单视图深度图(b) 深度图可见表面(c) 语义场景补全结果图 1 语义场景补全2017 2018 2019 2020SSCNet[1]VVNet[17]ESSCNet[20]ASSC[19]CRF-SSC[18]SSC-GAN[24]CCPNet[25]ForkNet[26]360-SSC[28]SATNet[21]TS3D[22]DDRNet[23]EdgeNet[33]Sketch-Net[30]AMFNet[29]基于深度学习的方法: 只使用深度图像基于深度学习的方法: 使用深度图像联合彩色图像Zheng 等人[14]Lin 等人[15]Geiger 等人[16]Firman 等人[13]传统的方法PALNet[27] AICNet[31]RTSSC[32]SISNet[34]2021 · · · · ·图 2 基于RGB-D 图像的语义场景补全方法的时间线2 传统的语义场景补全方法传统的场景理解任务主要集中在二维图像的分割和目标识别上. 这样的表示缺乏重要的物理信息, 例如对象的三维体积、支持关系、稳定性和功能可见性, 而这些对于机器人进行抓取、操作和导航等应用来说是至关重要的. Zheng 等人[14]提出了一种通过从点云推理物体的物理稳定性来理解场景的方法. 作者将RGB-D 数据转为点云, 并使用了一个简单的假设, : 受重力作用影响, 人工物体在静态场景中应该处于稳定状态. 这一假设适用于所有场景类别, 并为场景理解中似是而非的解释提出了有用的约束条件. 该方法包括两个主要步骤: (1) 几何推理: 从不完整的点云中恢复三维体积基元; (2) 物理推理: 通过优化稳定性和场景先验, 将不稳定的基元分组为物理稳定的对象. 作者提出使用一种新的不连通图[35]来表示能量绘景, 并使用Swendsen-Wang Cut 方法[36]进行优化. 实验证明该算法在目标分割、场景的三维体积恢复和场景理解方面取得了较好的实验结果.Firman 等人[13]Kim 等人[37]的工作中获得灵感, 使用从不同的对象类中学习到的轮廓去分割图像中的对象.其证明形状可以超越类别, 使形状预测不需要语义理解. 由于作者关心形状, 独立于语义理解, 所以可以自由地使用与测试时呈现对象不同的训练对象. Firman 等人[13]假设具有不同语义类别的对象通常共享类似的三维形状组件, 从而使有限的数据集能够建模大量对象的形状, 进而估计它们隐藏的几何形状. 为了探究这一假设, 提出了一种算法, 该算法可以基于已有的体积元素训练的监督模型来补全未观察到的桌面大小物体的几何形状. 模型将单一深度图像的局部观察映射到周围邻域表面形状的估计上. 并且在一系列室内对象集和真实场景上定性和定量地验证了方法的性能.Lin 等人[15]利用RGB-D 数据处理室内场景的理解问题. 为了实现这一目标, 提出了一种利用二维分割、三维几何以及场景和对象之间的上下文关系的方法. 具体地说, CPMC[38]框架扩展到三维以生成候选长方体, 并利用条件随机场来整合多源信息以对长方体进行分类. 该方法将场景分类与三维物体识别结合起来, 通过概率推理共同解决这一问题. 在具有挑战性的NYUv2 数据集上测试了方法的有效性. 实验结果表明, 通过有效的证据整合和张康 等: 基于RGB-D 图像的语义场景补全研究综述3整体推理, 方法取得了显著的改进.之前的三维场景理解方法通常只推断物体[39,40]或将布局估计作为预处理步骤[15], Geiger 等人[16]的方法将三维物体和场景布局结合起来考虑. 利用Kinect 摄像头捕获的单一RGB-D 图像推断三维对象和室内场景的布局是一项具有挑战性的任务. 为了实现这一目标, Geiger 等人[16]提出了一个高阶图形模型, 并对图像中的布局、对象和超像素进行了联合推理. 与之前的方法相比, 其模型通过使用可逆图形得到了详细的三维几何信息, 并为了充分考虑到场景属性和投影几何学, 显式地加强了遮挡和可见性约束. 作者将此任务转换为因子图中的映射推理, 并使用消息传递有效地解决此问题. 通过NYUv2 室内数据集上的几个基线评估该方法. 实验结果表明, 该方法能够较好地推断出含有大量噪声和遮挡的场景.综上所述, 前两种方法只考虑了几何信息, 没有考虑语义信息, 只能完成场景补全的任务; 后两种方法可以完成语义场景补全任务, 使用传统的数学方法进行处理, 得到的补全结果精度有待提高. 随着数据的海量化和深度学习的迅速发展, 语义场景补全领域也涌现出大量的深度学习方法, 并且取得了不错的成绩.3 基于深度学习的语义场景补全方法近年来, 深度学习成功应用于计算机视觉的很多领域, 并取得了骄人的成绩. 针对基于RGB-D 图像的语义场景补全任务, 目前基于深度学习的方法可分为两类: 基于单一深度图像的方法和基于深度图像联合彩色图像的方法. 本节将详细介绍这两类方法.3.1 基于单一深度图像的方法Song 等人[1]提出了一个直接的解决方法, 即用三维卷积神经网络来提取上下文特征. 该方法使用单张深度图作为输入, 并使用flipped-TSDF 编码将其编码为一个三维体积. 其中TSDF 表示截断符号距离函数(truncatedsigned distance function), 是一种常见的编码三维空间的方法. 其作用是在每个体素中储存该体素到其最接近的物体表面的距离d (含符号), 并用正负符号来表示该体素是位于表面前方还是位于表面后方. 之前常用的TSDF 编码有普通的TSDF 编码和投影TSDF 编码. 而这两种编码都有各自的缺点. 普通的TSDF 编码会使得三维网格中的空白体素上出现强梯度; 投影TSDF 编码有严重的视角依赖性. Song 等人[1]提出的flipped-TSDF 编码改进了这两个缺点. flipped-TSDF 编码的计算公式如下:dflipped = sign(d)(dmax ���d) (1)其中, dmax 为规定的最远距离, sign(d) 表示 d 的符号.flipped-TSDF 编码基础上, 将编码后的三维网格输入到三维卷积神经网络中, 该网络提取并聚合局部几何和上下文信息, 并生成相机视图截锥内所有体素的占用率和对象类别的概率分布. 具体地, 网络以一个高分辨率的三维体积作为输入, 首先使用多个三维卷积层来学习局部几何表示. 使用卷积层和池化层来降低分辨率到原始输入的四分之一. 然后, 使用一个基于膨胀的三维上下文模块来捕获更高层次的对象间上下文信息. 然后将来自不同尺度网络的输出特征图连接并输入到另外两个卷积层中, 以聚合来自多个尺度的信息. 最后, 使用基于体素的Softmax 层来预测最终的体素标签. 另外, 为了更好地传播梯度, 添加了几个短连接. 此网络命名为SSCNet, 其网络结构如图3 所示. 其主要贡献有两个: 一是首次将场景补全和深度图的语义标注两个任务结合起来进行处理; 二是构建了人工合成的带有密集标注的三维场景数据集——SUNCG. 自此之后, 在计算机视觉和机器视觉领域, 语义场景补全任务引起了很多学者的兴趣. 该网络的性能限制在于没有用到颜色信息, 并且该网络对GPU 显存的较大依赖限制了输出分辨率和神经网络的深度, 此外该三维网络的计算量也非常庞大.为了减少网络的计算量, Guo 等人[17]提出使用二维卷积神经网络代替部分三维网络. 这不仅能够减少网络的计算量, 还能从输入的图像中计算出多个特征图来作为三维投影的输入. 该网络称为VVNet (view-volumenetwork), 网络结构如图4 所示. 通过将二维神经网络和三维神经网络的结合, VVNet 有效地降低了计算成本, 实现了从多通道高分辨率输入中提取特征, 从而显著提高了结果的准确性. 其具体的做法是首先输入单一深度图, 经过数个二维神经网络后, 再将输出的特征图投影为三维网格. 相比之下, SSCNet 直接将深度图投影为三维网格, 4 软件学报后将三维网格输入到三维神经网络中. VVNet 通过这种方式将网络最前面的几个三维卷积层和三维池化层替换为二维卷积层和二维池化层, 大大减少了网络的计算量. 此外, 作者还设计了一种新的扩大感受野的主干网(见图5),新主干网加入了一个新的池化层, 对提取的三维特征进行采样. 在合成数据集SUNCG 和真实数据集NYU 上的实验证明了该方法的有效性.Depth 0.02 mConv (16,7,2,1)Conv (32,3,1,1)Conv (32,3,1,1)AddPoolingConv (64,3,1,1)Conv (64,3,1,1)AddConv (64,3,1,1)Conv (64,3,1,1)AddDilated (64,3,1,2)Dilated (64,3,1,2)AddDilated (64,3,1,2)Dilated (64,3,1,2)AddConcatConv (128,1,1,1)Conv (128,1,1,1)Conv (12,1,1,1)0.14 mConv (32,1,1,1) Conv (32,1,1,1)0.3 m 0.66 m 0.98 m 1.62 m 2.26 m2.26 mPredictionEmptyFloorWallCeilingChair3 SSCNet 网络结构640×480Res2D (8,1)PoolingRes2D (16,1)Feature projectionRes3D (32,1)PoolingRes3D (64,1)Res3D (64,2)Res3D (64,2)Res3D (64,2)ConcatConv (128,1,1,1)Conv (128,1,1,1)Conv (12,1,1,1)320×240 120×72×120 60×36×60 Backbone 60×36×604 VVNet-120 网络结构, 其中, 数字“120”代表投影后三维特征图的分辨率Res3D (64,1)PoolingRes3D (128,1)Res3D (128,2)Res3D (128,2)ConcatConv (128,3,1,1)30×18×30 60×36×60Conv (128,1,1,1)Conv (12,1,1,1)5 新的主干网结构Zhang 等人[18]将密集的条件随机场(conditional random field, CRF) 引入语义场景补全模型. 其主要思想是将SSCNet 的输出概率图与处理后的深度图像相结合, 提出的模型称为VD-CRF (volume data-CRF). 其主要步骤如下: 首先, 使用TSDF flipped-TSDF 来表示输入的深度图像. 然后, 将来自SSCNet 的输出概率图和下采样的体积数据相结合, 以构建VD-CRF 模型的势函数. 最后, 选择一种可靠的推理算法对预测进行推理. 为了方便之后的实验结果分析, 我们将该方法命名为

[返回]
上一篇:基于人工智能的智能机械故障诊断与预测方法研究
下一篇:面向递增累积型缺陷的灰盒模糊测试变异优化