无人驾驶汽车协同感知信息传输负载优化技术 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

无人驾驶汽车协同感知信息传输负载优化技术

来源：一起赢论文网日期：2022-08-03 浏览数：839 【字体：大中小】

第44 卷第10 期2021 年10 月计算机学报CHINESE JOURNAL OF COMPUTERSVol. 44 No. 10Oct. 2021无人驾驶汽车协同感知信息传输负载优化技术吕品1），2），3）李凯1）许嘉1），2），3）李陶深1），3）陈宁江1），3）1）（广西大学计算机与电子信息学院南宁530004）2）（广西多媒体通信与网络技术重点实验室南宁530004）3）（广西高校并行分布式计算技术重点实验室南宁530004）摘要无人驾驶近年来成为了学术界和工业界的研究热点，无人驾驶汽车的环境感知则是其中的重要基础. 仅通过提升无人驾驶汽车上的传感器数量和精度并不能完全消除车辆的感知盲区，因此无人驾驶汽车与路边基础设施进行协同环境感知越来越受到关注. 通过车路协同感知，无人驾驶汽车的感知范围能够得到有效扩展，有助于消除感知盲区，对于提升无人驾驶的安全性具有重要意义. 在各类环境感知信息中，摄像头拍摄的视频占有最重要的地位. 然而，视频帧所包含的数据量较大，传输每个视频帧会导致网络负载过重，传输延迟增大，影响环境感知信息的时效性. 本文提出了一种视频感知数据的传输负载优化方法，主要思想是通过路边基础设施把视频帧中的静态背景与动态前景进行分离，仅在初始时传输一次静态背景，其余每次仅传输动态前景信息，这样可以使得传输负载大幅降低. 无人驾驶汽车将收到的静态背景图像与动态前景图像重新融合成视频帧，然后基于视频帧所反映的行车环境做出正确的驾驶决策. 对于静态背景与动态前景的分离，本文提出了一种基于像素值计算的视频帧背景去除和降噪方法，能够快速地从视频帧中提取动态前景；对于静态背景与动态前景的融合，本文提出了一种基于生成对抗网络的视频帧生成方法，能够快速地把静态背景和动态前景融合成视频帧. 通过在真实数据集上的测试可知，本文提出的方法能够在重要环境感知信息不丢失的前提下使传输负载降低85% 以上，感知信息处理时间降低70% 以上. 这表明本文提出的方法能够高效地实现无人驾驶汽车与路边基础设施的协同环境感知，有助于构建更加安全的无人驾驶系统.关键词无人驾驶汽车；协同环境感知；深度学习；生成对抗网络；传输负载中图法分类号TP393 DOI 号10. 11897/SP. J. 1016. 2021. 01984Cooperative Sensing Information Transmission Load Optimization forAutomated VehiclesLV Pin1）,2）,3） LI Kai1） XU Jia1）,2）,3） LI Tao-Shen1）,3） CHEN Ning-Jiang1）,3）1）（College of Computer，Electronics and Information，Guangxi University，Nanning 530004）2）（Guangxi Key Laboratory of Multimedia Communications and Network Technology，Nanning 530004）3）（Guangxi Colleges and Universities Key Laboratory of Parallel and Distributed Computing，Nanning 530004）Abstract Automated driving has become a research hot spot in both academic and industrialcircles in recent years. Environment perception of automated vehicles is a fundamental technologyin automated driving. However， only increasing sensors on the automated vehicle or improvingthe accuracy of the sensors cannot completely eliminate the blind area of environment sensing.Therefore， cooperative environment sensing between automated vehicles and roadside收稿日期：2020-05-11；在线发布日期：2021-01-13. 本课题得到国家自然科学基金（62062008，62062006）、“广西八桂学者”专项经费、广西自然科学基金（2018JJA170194，2018JJA170028，2019JJA170045）资助. 吕品，博士，副研究员，中国计算机学会（CCF）高级会员，主要研究领域为无线网络、群智感知. E-mail：lvpin@gxu. edu. cn；李凯，硕士研究生，中国计算机学会（CCF）学生会员，主要研究领域为人工智能、群智感知；许嘉（通信作者），博士，副教授，中国计算机学会（CCF）高级会员，主要研究领域为大数据分析与处理技术. E-mail：xujia@gxu. edu. cn；李陶深，博士，教授，中国计算机学会（CCF）杰出会员，主要研究领域为无线网络、协同计算；陈宁江，博士，教授，中国计算机学会（CCF）高级会员，主要研究领域为软件工程、协同计算.10 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术infrastructure has attracted increasingly more attention. With the help of the cooperativeenvironment sensing with roadside infrastructure， the sensing range of an automated vehicle isenlarged， which also promotes blind area elimination. Cooperative environment sensing issignificant to improve the safety of automated driving. Among all kinds of environmental sensinginformation，the videos captured by cameras occupy the most important position. However，videoframes contain a large amount of data. Transmitting each video frame leads to a heavy networktraffic load and a long transmission delay， which affects the timeliness of environmental sensinginformation. In this paper， a video transmission load optimization framework is proposed. Themain idea of the framework is the roadside camera separates the dynamic foreground from thestatic background in the video frame. It only transmits the static background once at thebeginning；and in the following transmissions， only dynamic foreground in the video frames aretransmitted， which reduces the transmission load greatly. After receiving dynamic foregroundimages， the automated vehicle fuses them with the previously received static background， andrecovers the video frames. Hence， the automated vehicle can make the correct driving decisionbased on the driving environment reflected by the recovered video frames. For dynamicforeground and static background separation， a pixel-based method is proposed to remove thebackground and reduce the noise quickly. With the help of the proposed method， the dynamicforeground is able to be extracted from the video frame in an efficient manner. For dynamicforeground and static background fusion， an approach based on generative adversarial network（GAN）is utilized in this paper to fuse dynamic foreground and static background into new videoframes efficiently. With the confrontation between the generative model and the discriminativemodel，the quality of the recovered video frame improves. Through the performance evaluation onthe real data set containing more than 43，000 images captured by roadside cameras，the followingresults are obtained. The framework proposed in this paper can reduce the transmission load byover 85% without losing in the key environmental sensing information， and also can reduce theenvironmental sensing information processing time by over 70%. Measurements on severalmetrics reveal that the quality of the fused image also outperforms other contrast methods. Theresults indicate that the proposed framework achieves efficient cooperative environment sensingfor automated vehicles and roadside infrastructure， which is conducive to build a safer unmanneddriving system.Keywords automated vehicle； cooperative environment sensing； deep learning； generativeadversarial networks；transmission load1 引言随着人工智能技术的发展，无人驾驶汽车逐渐从愿景走向现实，成为学术界和工业界近年来的研究热点，各大传统汽车厂商和新兴科技公司都积极投身于无人驾驶汽车的研发之中.在无人驾驶汽车相关技术中，环境感知是车辆自动做出各项行为决策和运动控制的基础. 只有获得了充分、精确、可靠的环境感知信息，无人驾驶汽车才能做出安全、合理的驾驶决策. 无人驾驶汽车依靠多种传感器（如摄像头、激光雷达、毫米波雷达等）进行环境感知. 当前业界提升无人驾驶汽车环境感知能力的主要方法是安装数量更多、精度更高的传感器，然而这种方法并不能消除因障碍物遮挡而产生的感知盲区. 因此，仅提升无人驾驶汽车的单体感知能力存在一定的局限性. 采用群智协同环境感知的策略则可以突破上述局限. 当一个区域对于一辆无人驾驶汽车来说是感知盲区，而这个区域对其他节点来说是可感知区域时，那么这辆无人驾驶汽车就可以从其他节点获取这个区域的感知信息，从而可以扩大自身的感知范围，消除感知盲区，实现非视1985计算机学报2021 年距感知. 由此可见，群智协同环境感知对于提升无人驾驶安全性具有重要意义［1］.与其他感知数据相比，摄像头拍摄的视频数据所包含的环境信息往往更加丰富和直观，对于环境感知具有更重要的作用，百度、特斯拉等公司甚至研发了基于纯视觉感知数据的无人驾驶汽车. 因此，在进行协同环境感知时，视频数据是无人驾驶汽车与其他感知节点共享的主要数据类型. 在实际应用场景中，道路监控摄像头往往具有固定的安装位置、稳定的电源供应、广阔的拍摄视野，因此非常适合作为无人驾驶汽车的协同感知节点. 如图1 所示，路边摄像头把拍摄到的视频数据发送给无人驾驶汽车，就能帮助车辆扩大自身的感知范围，根据环境情况及早做出安全、合理的驾驶决策.然而，随着摄像头分辨率不断提高，摄像头每秒钟所产生的视频数据量急剧增长. 一个高清摄像头每秒产生的数据量可达几十兆比特，而车辆或路侧单元通常会安装多个摄像头以覆盖各个方向，使得每个节点产生的数据量更是成倍增长. 现有的车载网通信技术，如车辆专用短程通信技术（DSRC）、3G/4G 等，很难支持如此巨大的传输负载；特别是在高速移动时，车辆能获得的有效传输速率会更低.即使采用容量更大的5G 网络进行传输，当一个区域内有很多车辆时，为这些车辆传输大量视频数据也会使得网络负载过重，进而造成传输延迟增大，不利于环境感知数据的时效性，同时也会影响其他网络应用的正常运行. 因此，网络传输负载受限成为阻碍无人驾驶汽车进行群智协同环境感知的重要因素.为了降低协同环境感知数据的传输负载，本文提出了一种基于深度学习的传输负载优化方法. 该方法的主要思想是，协同环境感知数据的发送方将视频帧中的静态背景与动态前景相分离，静态背景只需在初始时传输一次，对于之后的每个视频帧，仅传输其中的动态前景数据；无人驾驶汽车在收到动态前景数据后，将其与静态背景数据重新融合成视频帧，并基于视频帧所反映出的环境信息做出正确的驾驶决策. 与传统方法不同，本文提出的方法不是传输每个完整的视频帧，而是传输其中发生动态变化的部分，这样就可以使得网络负载大幅降低，有利于保证环境感知信息传输的时效性. 通过在真实数据集上的实验可知，使用这种方法能够在不丢失对驾驶决策起作用的环境感知信息的基础上，将视频图像数据的传输负载降低85% 以上.本文的主要贡献总结如下：（1）提出了一种降低协同环境感知信息传输负载的方案，通过在发送端对视频帧中静态背景与动态前景进行分离，在接收端再对两者进行融合，可以使得传输负载大幅降低；（2）针对如何快速分离视频帧中静态背景和动态前景的问题，提出了一种基于像素值计算的视频帧背景去除和降噪方法，能够快速地从视频帧中提取动态前景；（3）针对如何快速融合视频帧中静态背景和动态前景的问题，提出了一种基于生成对抗网络的视频帧生成方法，能够快速地把静态背景和动态前景融合成视频帧；（4）在真实数据集上进行了测试，结果表明本文提出的方法不会丢失对驾驶决策起作用的环境感知信息，并且能够把传输负载降低85% 以上.本文后面的部分安排如下：第2 节对相关工作进行了总结；第3 节和第4 节分别对环境图像数据中静态背景和动态前景的分离方案和融合方案进行描述；第5 节对本文方法进行了实验评估，并对实验结果进行了分析；第6 节对全文进行了总结.2 相关工作2. 1 面向无人驾驶的协同环境感知群智感知是指以普通用户的移动设备作为基本感知单元，大量感知单元通过移动互联网进行有意识或无意识的协作，实现感知任务分发与感知数据收集，完成大规模的、复杂的社会感知任务［2-3］. 群智感知已经在智慧城市［4］、环境监测［5］、智能交通［6］、公共安全［7］等领域都有了不少研究工作. 受群智感知思想的启发，无人驾驶汽车协同环境感知已经开始受到关注［8］，即无人驾驶汽车通过与其他车辆和路边基础设施共享环境感知数据，使得无人驾驶汽车的环境感知能力获得提升. 但与传统群智感知问题不同的地方在于，在无人驾驶汽车协同环境感知场图1 协同感知示意图198610 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术景下，摄像头、激光雷达等传感器带来的数据量更大，并且无人驾驶汽车对感知数据的实时性和可靠性有着更为严格的要求，而车联网环境又具有显著的异构性和动态性，这使得已有的群智感知机制并不能很好地满足无人驾驶汽车的独特需求.一些研究人员针对无人驾驶汽车的激光雷达感知数据提出了不同的压缩技术. 例如，首先将激光雷达的点云数据组织为二维图像阵列，然后使用传统图像压缩技术［9］、聚类技术［10］或深度学习技术［11］对图像进行压缩. 由于基于纯视觉的无人驾驶汽车成为重要的发展方向，因此本文主要关注以摄像头拍摄的图像数据作为无人驾驶汽车环境感知信息来源的应用场景.对于图像数据，H. 265 编码技术［12］可以利用帧内预测编码和帧间预测编码来降低视频图像空间冗余和时间冗余，从而实现视频图像的数据压缩.H. 265 中的编码帧包括I 帧、P 帧和B 帧，I 帧为帧内编码帧，P 帧为当前帧与前一帧（I 帧或P 帧）的差别，B 帧为双向预测编码帧. 然而，帧间编码具有依赖性，一旦I 帧或P 帧在传输过程中出错或丢失都会导致后续的帧出错，不适用于丢包率较高的车载网络环境.本文针对无人驾驶汽车协同环境感知这一应用场景进行研究，提出了将视频图像中的静态背景与动态前景相分离的策略，能够大幅降低传输负载，与已有研究工作［1，8，12］有着显著的不同.2. 2 视频图像静态背景与动态前景的分离和融合由于本文提出的传输负载优化方法涉及视频帧中静态背景与动态前景的分离和融合，以下分别从这两个方面对相关工作进行总结.静态背景与动态前景的分离是许多计算机视觉任务（如目标跟踪、人群分析等）的关键步骤，近年来深度学习技术被越来越多地应用于这个领域. 文献［13］使用卷积神经网络从给定的视频序列中进行背景构造和前景信息提取. 文献［14］考虑了视频的时间连续性，将三维卷积应用于视频的最新帧，追踪视频序列的时间变化，实现了端到端的背景减除. 文献［15］利用多尺度的全卷积网络提升模型学习能力，大大提高了前景检测准确性. 上述背景减除方案都仅考虑了前景物体的大致形状，而对前景物体的细节方面刻画不够精准.在静态背景与动态前景融合方面，近年来深度学习技术已被成功应用于图像融合领域，主要包括红外与可见光图像融合、医学图像融合和多焦点图像融合等. 文献［16］首次将卷积神经网络引入图像融合领域，提出了一种可用于多焦点图像融合的卷积网络，展示了卷积神经网络在图像融合领域中的潜力. 文献［17］在文献［16］的基础上将卷积神经网络进一步引入医学图像融合领域，视觉质量和客观评估方面都可以取得令人满意的结果. 文献［18］将三维卷积神经网络引入泛锐化处理，生成高分辨率高光谱图像. 文献［19］在泛锐化问题中引入残差网络，取得了更好的结果. 文献［20］利用生成对抗网络［21］的思想处理可见光与红外线的问题，融合的图像更好地保留了所需的信息. 文献［22］利用文献［23］提出的密集连接卷积神经网络结构进行可见光与红外线融合，充分利用了中间层所获得的信息.为了更好地满足多任务的需求，通用的网络模型被人们提出，在有监督学习和无监督学习方面都取得了优异的表现. IFCNN［24］是最新提出的通用有监督图像融合模型，以卷积神经网络为基础. 随着输入图像的不同，模型可以选择不同的融合规则. 利用预训练好的Resnet 网络［25］良好的特征提取能力和与之相关的感知损失函数，IFCNN 在不同的任务中获得了比以往模型更好的表现. DIF［26］是关于通用无监督图像融合的最新研究成果，为各类缺少标记的无监督学习任务提供了新的思路. 与IFCNN相同，DIF同样使用卷积神经网络作为模型构造的基础. 在进行图像融合的过程中，DIF以生成与高维输入图像具有相同对比度的输出图像作为目标. 为了使模型的融合结果保留更多的原始图像细节，DIF将结构张量引入损失函数，重新考虑了局部对比度的概念. 在定量和定性评估方面，DIF都优于各类任务的最新技术.由于在无人驾驶应用场景中环境感知信息的时效性和准确度要求更高，因此本文提出了更加快速的静态背景和动态前景的分离与融合方法，更加适合无人驾驶汽车协同环境感知应用场景.3 静态背景与动态前景的分离系统中的信息传输如图2 所示. 路边摄像头将拍摄到的原始图像发送给路侧单元中的计算模块，计算模块将前景和背景图像进行分离，通过传输模块发送给无人驾驶汽车. 无人驾驶汽车将收到的前景和背景图像通过环境构建模块进行融合，并且结合自身摄像头拍摄的图像，形成环境感知信息. 根据这些环境感知信息，驾驶决策模块将做出车辆控制决策，交由车辆控制模块实施.1987计算机学报2021 年为了降低视频数据的传输负载，本文采用了“动静分离”的传输方法，即把图像静态背景与动态前景进行分离，分别进行传输. 图3 显示了传输每一帧视频数据的传统方法与动静分离的传输方法的不同.动静分离的传输方法在初始时传输一次环境图像的静态背景，之后就仅传输环境图像中动态前景，这样能够避免静态背景数据的重复传输，从而大幅降低传输负载.已有的研究工作［13-15］均需要较长时间的训练和运行时间. 为了保证环境感知数据处理的实时性，本文采用了更为高效的静态背景与动态前景分离方法，步骤如下：（1）路边摄像头首先拍摄一张视野内无移动物体时的图像，作为静态背景图像.（2）由于光照强度会随时间发生变化，摄像头实时拍摄的图像与之前所拍摄背景图像的光照条件可能不同. 如果直接进行背景减除，会造成减除背景后的图像存在较多噪音. 为了降低光照变化对图像背景减除带来的影响，路侧单元需要对摄像头拍摄的实时图像与静态背景图像中的每个像素按公式（1）进行灰度归一化预处理：xt =(x - xminxmax - xmin)*255 （1）其中x 为本次拍摄的图像像素灰度值，xmin 为图像矩阵中灰度最小值，xmax 为图像矩阵中灰度最大值，xt代表经过灰度归一化预处理后的像素灰度值. 因此无论图像的光照条件有何不同，处理后的图像灰度都被统一到［0，255］这个范围内，从而方便进一步的处理和匹配.（3）将经过第（2）步处理的背景图像和实时图像进行相似度比较. 比较的过程为：首先，对背景图像和实时图像按照相同的规格划分成多个区域，然后比较对应区域的相似度. 如果两个对应区域相似，则说明该区域内的图像为背景，因此需要去除该区域内的图像信息，即将该区域内的像素值都置为0；如果两个对应区域不相似，则说明实时图像中该区域内包含前景物体，因此需要保留. 相似度计算方法如公式（2）所示：p = cov ( x，xb )σx σxb=Ε [( x - μx )( xb - μxb ) ]σx σxb（2）σx = Σi = 1n( xi - μx )2 （3）σxb = Σi = 1n( xb i - μxb )2 （4）其中，xb 和x 分别是背景图像和实时图像中对应区域像素矩阵转换成的向量，cov ( x，xb )为两个向量的协方差，μx 和μxb 分别是x 和xb 的均值，σx 和σxb 分别是x 和xb 的标准差. 标准差的计算分别如公式（3）、公式（4）所示.使用上述方法后，路边摄像头就可以从拍摄到的视频帧中快速分离出动态变化的前景图像用于传输. 与直接传输整个视频帧相比，用这种方法所需传输的数据量大幅降低，可以有效降低网络负载，并且提升了环境感知数据的时效性.4 静态背景与动态前景的融合无人驾驶汽车收到动态变化的前景图像数据后，需要把前景图像与背景图像重新融合成完整视频图像，有助于无人驾驶汽车判断前景图像所代表物体的相对位置，从而做出正确的驾驶决策.本文设计了一个基于生成对抗网络（Generative图3 动静分离的传输方法与传统传输方法对比图2 信息传输示意图198810 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术Adversarial Networks，GAN）的前景图像与背景图像的融合机制. 该机制包括生成模型和判别模型两个部分，对于判别模型还需设计梯度约束以帮助模型进行深度学习. 考虑到无人驾驶对时延和精度的高要求，我们分别从两个方面进行设计：一是利用注意力机制对关键信息的关注和对噪音的抑制，结合生成对抗网络的思想帮助提升网络融合精度；二是利用密集卷积神经网络对特征图的复用，降低网络的深度，减少融合所需的时间. 结合WGAN-GP［27］的思路，提出了对抗性背景融合模型：FWGAN.本文出现的符号如表1 所示.4. 1 生成模型生成模型模拟了人类视觉对两张透明度不同图像的叠加过程：背景图像不透明，前景图像透明度高且空白区域较多. 视觉会将背景图像整体内容作为基底，忽视前景图像中的空白区域，将其中的关键信息与背景图像叠加，获得最终视觉效果.生成模型的结构如图4 所示，分别由2 个通道注意力层、1 个空间注意力层、密集连接模块和普通卷积层构成. 每一个卷积层后使用ReLu 作为激活函数.针对背景图像与前景图像所包含信息量差距较大的特性，利用通道注意力层1 和空间注意力层［28］对输入的双通道图像进行直接处理. 通道注意力层1 在通道层面给包含信息量更多的背景图像赋予更大的权重，空间注意力层则对前景图像给予更多的关注，因此生成模型能够在特征提取过程中将注意力更快地集中到关键信息. 通道注意力层1 的结构如图5 所示，空间注意力层的结构如图6 所示.密集连接模块对提取的特征图进行复用，不仅帮助降低模型的深度，还通过特征复用给与图像边缘像素点更多参与计算的机会，拓展有效感知范围，提升模型的精度. 在卷积计算中，图像边缘像素点参与运算次数小于图像中央像素点，这会影响融合图像边缘清晰度. 密集连接模块通过复用多尺度的特征层，增加了图像边缘像素点参与卷积运算的次数，增强融合图像清晰度.通道注意力层2 结合特征图之间的信息依赖［29］，帮助模型对不同阶段获得的特征图进行权重分配，其结构如图7 所示.表1 本文出现的符号符号risitikiκλρθωδα∇含义神经网络第i层感受野大小（输入图像作为第0层）第i 卷积层的步长大小第i 卷积层的有效步长第i 卷积层的卷积核大小生成器对抗性损失和内容性损失平衡系数内容性损失中的信息损失和结构性损失平衡系数对真实图像和生成图像采样范围进行插值采样的系数判别器梯度的范围生成器参数判别器参数RMSProp 优化器参数梯度初始值11——11000. 31——0. 9—图4 生成模型结构图图5 通道注意力层1 结构图图6 空间注意力层结构图1989计算机学报2021 年在通道注意力层2 之后，还需经过3 个普通卷积层对特征图做进一步处理，以完成对背景图像和前景图像的融合.4. 2 判别模型上述生成模型需要学习图像数据的深层特征并能够重构图像；与此不同，FWGAN 的判别模型本质是一个二分类网络，根据输入图像产生为真或假的判别结果，对生成模型进行反馈. 判别模型的结构如图8 所示. 在图像分辨率为256×256 时，判别器由6 个卷积层构成，卷积核大小均为4×4，输入层步长设为4，输出层步长设为1，中间层步长设为2. 判别器最后一个卷积层使用Sigmoid 作为激活函数来完成二分类任务，其余卷积层均使用LeakyReLu 激活函数，这是因为LeakyReLu 函数能够帮助判别模型更好地学习数据特征［30］.判别模型中卷积层的数量由感受野的大小决定. 感受野是指输入中对当前层产生影响的区域大小［31］，计算方式如公式（5）所示.ri =( ki - 1)*si + ri - 1 （5）si = si - 1*ti （6）公式（6）为有效步长计算计算公式，其中ri 为第i 层感受野的大小，输入层是第1 层，初始r0 为1；si 为第i 层的有效步长，初始s0 为1；ki 为第i 卷积层的卷积核大小；ti 为第i 层卷积层步长的大小.在图像分辨率为256×256 时，可以计算得出感受野大小为376×376. 由于输入图像像素小于感受野的大小，所以判别模型是合理的. 在图像分辨率为128×128 和512×512 的情况下，判别模型中卷积层的数量分别为5 和7.4. 3 损失函数FWGAN 的损失函数包括生成模型的损失函数LG 和判别模型的损失函数LD 两部分.生成模型的损失函数LG 反映了生成模型的训练目标，其中包括如公式（7）所示的两部分：LG = VFWGAN ( G )+ κLcontent （7）VFWGAN ( G )为生成模型和判别模型之间的对抗性损失，计算方法如公式（8）所示：VFWGAN ( G )= min (-Σxˉ~Pg [ D ( xˉ ) ] ) （8）其中，xˉ 为所得融合图像样本域Pg 的随机采样，D ( xˉ )为判别模型对融合图像采样的判别结果.Lcontent 表示融合图像和真实图像的内容性损失差异，参数κ 用于平衡对抗性损失和内容性损失. 内容性损失包括图像信息损失和结构性损失两部分，如公式（9）所示：Lcontent = Lpixel + λLssim （9）Lpixel 代表融合图像和真实图像的像素差，作为衡量图像整体损失的指标；Lssim 代表融合图像和真实图像的结构性差异［32］，作为衡量图像结构性损失的指标. 参数λ 用于平衡信息损失和结构性损失.Lpixel 和Lssim 的定义如公式（10）和（11）所示：Lpixel = Σ i = 1，j = 1n( xˉi，j - xi，j )2 （10）Lssim = 1- ( 2μx μxˉ + c1 )( 2σxxˉ + c2 )( μx2 + μxˉ2 + c1 )( σx2 + σxˉ2 + c2 ) （11）其中，x 为真实图像样本域Pr 的随机采样；公式（10）中，xˉi，j 为融合图像xˉ 在点( i，j )处的像素大小，xi，j 为真实图像x 在点( i，j )处的像素大小，n 为图像大小；公式（11）中μx、μxˉ 分别为x 和xˉ 的平均值，c1 和c2 是用来维持稳定的常数.判别模型的损失函数LD 反映了判别模型的训练目标，其定义如公式（12）所示：LD = min ( Exˉ~Pg [D (xˉ)] - Ex~Pr [D (x)]+θEx̂~Px̂ [(|| ∇x̂ D (x̂) ||2 - 1)2 ] )（12）其中，x̂ 为融合图像与真实图像之间区域的随机插图7 通道注意力层2 结构图图8 判别模型结构图199010 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术值采样，如公式（13）所示：x̂ = ρx + (1- ρ) xˉρ ∈ uniform [0，1] （13）θ E x̂~Pr [(|| ∇x̂ D (x̂) ||2 - 1)2 为梯度惩罚项，将判别模型梯度约束在固定范围，以保证训练的稳定.4. 4 训练流程在WGAN［33］中，批归一化（Batch Normalization）［34］被用来帮助网络的训练. 通过加入可训练参数对数据进行批归一化处理，可以规范神经网络层的输入分布，从而加快神经网络的训练速度. 但是，批归一化将判别模型问题的形式从单个输入映射到单个输出更改为一批输入映射到一批输出. 公式（12）中的梯度惩罚项要求对每个样本独立地施加梯度惩罚，与批归一化的批量处理方案冲突. 因此在判别模型中批归一化层无法使用. 在优化算法的选择方面，实验证明RMSProp 算法能够比WGAN-GP［27］所使用的Adam 算法取得更好的结果，因此本文选择了RMSProp 算法. 训练流程如算法1 所示.算法1. FWGAN 算法.输入：前景图像样本x，t 真实样本x，背景图像样本xb，内容损失系数λ，梯度约束项系数θ，参数为ω 的生成模型Gω，参数为δ 的判别模型Dδ，学习率l，RMSProp超参α，批处理大小m，判别器更新次数n输出：判别器分类结果1. WHILE ω has not converged DO2. FOR t = 1，. . .，n DO3. FOR i = 1，. . .，mDO4. get background picture xb~Pb5. get foreground picture xt~Pt6. get real picture x~Pr7. get a random number ρ ∈ uniform [0，1]8. xˉ ← Gω (xt，xb)9. x̂ ← ρx + (1- ρ) xˉ10. LD ←[ Dδ (xˉ) - Dδ (x) + θ (|| ∇x̂ Dδ (x̂) ||2 - 1)2]11. END FOR12. δ ← RMSPRop(∇δ1mΣi = 1m LD，δ，l，α)13. END FOR14. ω←RMSPRop(∇ω1mΣi=1m-Dδ (Gω (xt，xb))，ω，l，α)15. END WHILE5 性能评估5. 1 实验设置本文使用NVIDIA 公司发布的CityFlow［35］数据集作为训练和测试用数据集，其中共包含15 种不同场景. 训练集包含43264 张图像，测试集包含1952 张图像，分别采用分辨率为128×128、256×256 和512×512 三种图像尺寸对模型性能进行验证.在模型训练过程中，使用RMSProp 作为模型优化器. 设置衰减为0. 9，学习率为0. 001，每一个批次大小m=16. 生成模型损失函数中的λ 取值范围较广，较大的λ 取值能够帮助更快的收敛. 实验中将λ取值设置为100，能够帮助实验取得较好的结果. 判别模型的θ 取值为1.实验中，以具有16GB 内存的Intel Core 7700CPU 作为路侧单元配置，以Tesla T4 16G RAM 和Intel Xeon Gold 6230 作为车辆单元配置.5. 2 实验结果与分析5. 2. 1 图像分离与融合的视觉效果对比图9 展示了对视频帧中的静态背景和动态前景进行分离和融合的视觉效果. 图9（a）是真实的拍摄图像（包含前景与背景）；图9（b）是真实的拍摄图像（只包含背景）；图9（c）是子图（a）减子图（b）后提取出的前景图像；图9（d）是使用本文方法将子图（b）与子图（c）融合形成的图像；图9（e）是不使用生成对抗网络融合出的图像；图9（f）是使用有监督学习算法IFCNN［24］融合得到的图像；图9（g）是使用无监督学习算法DIF［26］融合得到的图像.通过对比图9（a）和图9（d）可以看到，使用本文方法融合前景与背景得到的图像与原始图像在视觉效果上极为接近，对于图9（d）中黑色圆框标记的远处物体也能够很好地还原出来，使得对驾驶决策有影响的环境信息不被丢失.通过对比图9（d）和图9（e）可知，如果不使用生成对抗网络，融合得到的图像中车辆轮廓仍然完整，对阴影部分的拟合效果也较好，但对于黑色圆框标记的远处物体清晰度差于生成对抗网络的表现. 说明本文方法使用生成对抗网络对于提升图像融合效果有帮助.通过对比图9（d）和图9（f）可知，IFCNN 对背景的拟合较好，但对从动态前景图像融合的效果较差，圆框标记的远处物体也没有能够恢复出来，不利于无人驾驶汽车从融合得到的图像中进行环境物体识别.通过对比图9（d）和图9（g）可知，DIF 融合得到的图像中，静态背景和动态前景都不够清晰，会对无人驾驶汽车的环境感知造成不利影响.1991计算机学报2021 年为了验证不同光照条件下本文提出的背景减除方法的有效性，在实验中还选取了路边摄像头夜间拍摄的图像进行了测试. 图10（a）是夜间条件下包括前景与背景的图像，图10（b）是夜间条件下只包含背景的图像，图10（c）是从图10（a）中去除图10（b）得到的前景图像. 从图10 中可以看出，本文提出的背景去除方法能够适应较大范围的光照条件，具有较好的通用性.5. 2. 2 前景物体保留率根据本文提出的方法，视频图像需要经过静态背景与动态前景的分离与融合. 在这个过程中，如果出现重要前景物体丢失的情况，则可能会对无人驾驶汽车的安全行驶造成不利影响，因此需要对动态前景物体的保留率进行测试与统计.在路边摄像头拍摄的画面中（如图11 所示），画面下方区域距离摄像头较近，其中的前景物体较大且相对清晰；画面上方区域距离摄像头较远，其中的前景物体较小且相对模糊. 因此将视频图像分为两个区域：将图像上方四分之一的区域称为“远区域”，将图像下方四分之三的区域称为“近区域”.其中，近区域前景物体对于无人驾驶汽车的驾驶决策影响更大，远区域前景物体的影响则较小，因此（a）是真实的拍摄图像（包含前景与背景）(b) 是真实的拍摄图像（只包含背景）(c) 是从（a）中去除（b）后得到的前景图像(d) 是使用本文方法将（b）与（c）融合形成的图像（e）是不使用生成对抗网络融合得到的图像（f）是使用文献[24]中的有监督学习算法IFCNN 融合得到的图像（g）是使用文献[26]中的无监督学习算法DIF 融合得到的图像图9 图像分离与融合对比示例（a）是真实的拍摄图像（包含前景与背景）（b）是真实的拍摄图像（只包含背景）（c）是从（a）中去除（b）后得到的前景图像图10 夜间光照条件下的背景去除示例199210 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术分别对近区域和远区域内前景物体的保留率分别进行统计.经统计，如图12 所示，在使用本文方法对视频图像进行背景与前景分离和融合后，近区域的前景物体保留率为100%，远区域的前景物体保留率约为83. 3%. 由此可见，本文方法能够保证近区域内的前景物体不会出现丢失，从而能够保证无人驾驶汽车环境感知的可靠性. 远区域前景物体虽然有17% 左右的丢失率，但由于距离无人驾驶汽车较远，不会对车辆的安全行驶造成不利影响.5. 2. 3 传输负载按照传统的传输方法，路边摄像头不会对拍摄的图像进行处理，直接把类似于图9（a）的每个视频帧向无人驾驶汽车进行传输. 而本文提出的方法在图9（a）所示的视频帧中去除如图9（b）所示的静态背景，提取得到如图9（c）所示的动态前景. 在生成的前景图像中，除了前景物体部分，背景部分都具有相同的像素值（值为0）. 使用JPEG 格式存储这种前景图像时，能够有效压缩图像文件的大小，从而降低传输前景图像的数据量. 因此，使用本文方法传输协同环境感知数据时，将首先传输如图9（b）所示的静态背景一次，之后对于每个视频帧，仅传输如图9（c）所示的动态前景图像，使得传输负载大幅降低.实验中，图像尺寸为256×256 时，每帧原始图像与每帧背景图像的大小约为50 KB，而去除背景的前景图像平均大小约为7 KB，如图13 所示.由于道路监控摄像头的拍摄覆盖距离通常为200 米，假设道路被路边摄像头完全覆盖，则路边至少每200 米就有一个摄像头. 若无人驾驶汽车以20 米/秒的速度行驶，则每个摄像头为该车辆的服务时间为10 秒. 当路侧单元以10 帧/秒的速率向无人驾驶汽车传输图像时，则在服务时间内一共需要传输100 帧视频图像. 若直接传输原始图像，传输的数据量为50 KB×100=5000 KB；而使用本文方法的传输数据量为50 KB+7 KB×100=750 KB，仅为5000 KB 的15%. 若服务时间内路侧单元向无人驾驶汽车传输更多的视频帧，使用“动静分离”的方法将使传输负载降低的比例更大. 因此，本文方法能够将传输负载降低85% 以上.5. 2. 4 感知信息处理时间按照本文的方法，一帧视频图像从拍摄完成到交付给无人驾驶汽车的环境构建模块需要经历三个阶段，分别是前景与背景分离阶段、前景图像传输阶段、前景与背景融合阶段.在分离阶段，对于尺寸为256×256 的图像，对一帧图像进行前景与背景分离所需的时间约为图12 近区域与远区域的前景物体保留率图13 图像文件的大小对比图11 视频图像近区域与远区域划分示意图1993计算机学报2021 年4. 6 ms，而已有研究工作［13-15］对一帧图像进行背景去除所需的时间一般在50 ms 以上.在传输阶段，若使用车辆专用短程通信技术（DSRC）进行传输，传输速率为6 Mbps，那么传输一帧前景图像所需的时间约为9. 3 ms；而传输一帧未经处理的原始图像所需时间约为66. 7 ms.在融合阶段，使用FWGAN 将前景与背景融合成一帧图像所需的时间为4. 6 ms. 由此可知，使用本文方法处理感知信息时，一帧图像在三个阶段共需耗时18. 5 ms，约为传统方法的27. 7%（如图14 所示）. 从上述结果可以看出，本文方法能够有效降低环境感知信息处理时间，更能满足无人驾驶汽车对环境感知的实时性要求.5. 2. 5 图像融合质量的定量分析本文对融合得到的图像与原始图像进行对比，用于评估模型融合表现的指标包括：（1）衡量图像结构相似度的SSIM 指数，该指数的值越接近1 说明融合图像与原始图像越相似；（2）衡量图像失真程度的UQI［36］指数，该指数的值越大说明图像失真程度越低；（3）基于视觉信息保真度提出的衡量融合图像质量的指标VIFF［37］，值越大说明融合表现越好；（4）衡量融合图像与原始图像相似程度的皮尔逊相关系数（Pearson correlation coefficient，PCC）［38］，该数值越大说明图像融合效果越好以上几类指标完整地考虑了融合图像保留细节信息、结构信息及失真效果的能力.以下实验中分别对比了本文方法（FWGAN）、本文方法但不使用生成对抗网络（FW-Net）、基于有监督学习的IFCNN［24］、基于无监督学习的DIF［26］这四种方法在上述指标上的表现.对于SSIM 指标（如图15 所示），在图像分辨率为128×128 时，FW-Net 的融合表现最好，FWGAN 的表现次于FW-Net，都高于DIF 和IFCNN；在图像分辨率为256×256 和512×512时，FWGAN 和FW-Net 的融合表现近似，仍明显优于DIF 和IFCNN，说明本文所提出的方案（无论是否使用对抗思想）在保持图像整体结构方面具有优势.对于UQI 指标（如图16 所示），在三种图像分辨率下，FWGAN 的表现略优于FW-Net，FWGAN 和FW-Net 的表现明显优于另外两种方案，说明本文提出的方案融合图像时能够达到更低的失真程度，图14 感知信息处理时间对比图16 在UQI 指标上的对比图15 在SSIM 指标上的对比199410 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术在使用对抗思想的情况下达到最优.对于VIFF 指标（如图17 所示），在图像分辨率为128×128 时，FWGAN 的表现优于FW-Net；三种图像分辨率下，FWGAN 和FW-Net 均优于另外两种方案，说明本文提出的方案能获得较高的视觉信息保真度，在使用对抗思想时达到最优.对于PCC 指标（如图18 所示），在图像分辨率为128×128 时，FWGAN 的表现最好，FW-Net 的表现与FWGAN 近似；在图像分辨率为256×256时，FWGAN 的表现明显优于FW-Net. 在三种图像分辨率的情况下，FWGAN 和FW-Net 的融合表现均优于另外两种方案.综合考虑上述四种指标可以得出结论：本文提出的方法具有最佳的融合图像质量. 与IFCNN 和DIF 方法相比，FWGAN 更充分地考虑了背景图像和前景图像的数据特性，利用注意力机制对关键信息赋予更高的权重，因此更适合无人驾驶汽车进行环境感知.6 总结协同环境感知对于无人驾驶技术的发展具有重要意义，但是受到网络容量的制约. 本文提出了一种协同环境感知信息的传输负载优化方法，通过把视频帧中的静态背景和动态前景相分离，可以使静态背景在初始时只传输一次，之后仅需传输动态前景数据，达到了大幅降低传输负载的目的. 无人驾驶汽车使用生成对抗网络将动态前景与静态背景重新融合成视频帧，并能够基于视频帧反映出的行车环境信息做出正确的驾驶决策. 在真实数据集上的实验证明了本文提出方法的有效性，能够促进面向无人驾驶汽车的协同环境感知技术的进一步发展.参考文献［1］ Hobert L， Festag A， Llatser I， et al. Enhancements of V2Xcommunication in support of cooperative autonomous driving.IEEE Communications Magazine，2015，53（12）：64-70［2］ Ma H， Zhao D， Yuan P. Opportunities in mobile crowdsensing. IEEE Communications Magazine，2014，52（8）：29-35［3］ Guo B， Wang Z， Yu Z， et al. Mobile crowd sensing andcomputing：the review of an emerging human-powered sensingparadigm. ACM Computing Surveys，2015，48（1）：1-31［4］ Wang J，Wang Y，Zhang D，et al. Crowd-powered sensing andactuation in smart cities：current issues and future directions.IEEE Wireless Communications，2019，26（2）：86-92［5］ Vahdat-Nejad H， Asef M. Architecture design of the airpollution mapping system by mobile crowd sensing. IETWireless Sensor Systems，2018，8（6）：268-275［6］ Qiu H，Chen J，Jain S，et al. Towards robust vehicular contextsensing. IEEE Transactions on Vehicular Technology， 2018，67（3）：1909-1922［7］ Simoens P，Xiao Y，Pillal P，et al. Scalable crowd-sourcing ofvideo from mobile devices//Proceedings of ACM MobiSys，Taipei，China，2013：139-152［8］ Wei S， Yu D， Guo C， et al. Survey of connected automatedvehicle perception mode：from autonomy to interaction. IETIntelligent Transport Systems，2019，13（3）：495-505［9］ Beek P V. Image-based compression of LiDAR sensor data.Electronic Imaging，2019，43（7）：1-7［10］ Sun X， Ma H， Sun Y， et al. A novel point cloud compressionalgorithm based on clustering. IEEE Robotics and AutomationLetters，2019，4（2）：2132-2139［11］ Tu C，Takeuchi E，Carballo A，et al. Point cloud compression图17 在VIFF 指标上的对比图18 在PCC 指标上的对比1995计算机学报2021 年for 3D LiDAR sensor using the recurrent neural network withresidual blocks//Proceedings of the IEEE InternationalConference on Robotics and Automation，Montreal， Canada，2019：3274-3280［12］ Sullivan G， Ohm J， Han W， et al. Overview of the highefficiencyvideo coding（HEVC）standard. IEEE Transactionson Circuits & Systems for Video Technology， 2013， 22（12）：1649-1668［13］ Babaee M， Dinh D， Rigoll G. A deep convolutional neuralnetwork for video sequence background subtraction. PatternRecognition，2018，76：635-649［14］ Sakkos D，Liu H，Han J，et al. End-to-end video backgroundsubtraction with 3D convolutional neural networks. MultimediaTools Applications，2018：23023-23041［15］ Zeng D， Zhu M. Background subtraction using multiscale fullyconvolutional network. IEEE Access，2018，6：16010-16021［16］ Liu Y，Chen X，Peng H，et al. Multi-focus image fusion with adeep convolutional neural network. Information Fusion， 2017，36：191-207［17］ Liu Y，Chen X，Cheng J，et al. A medical image fusion methodbased on convolutional neural networks//Proceedings of the20th International Conference on Information Fusion， Xi'an，China，2017：1-7［18］ Giuseppe M， Davide C， Luisa V， et al. Pansharpening byconvolutional neural networks. Remote Sensing， 2016，8（7）：594［19］ Rao Y， He L， Zhu J. A residual convolutional neural networkfor pan-shaprening//Proceedings of the International Workshopon Remote Sensing with Intelligent Processing （RSIP），Shanghai，China，2017：1-4［20］ Ma J， Yu W， Liang P， et al. FusionGAN： a generativeadversarial network for infrared and visible image fusion.Information Fusion，2019，48：11-26［21］ Goodfellow I， Pouget-Abadie J， Mirza M， et al. Generativeadversarial networks. Advances in Neural InformationProcessing Systems，2014，3：2672-2680［22］ Li H， Wu X. DenseFuse：a fusion approach to infrared andvisible images. IEEE Transactions on Image Processing，2019，28（5）：2614-2623［23］ Huang G， Liu Z， Laurens V， et al. Densely connectedconvolutional networks//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition，Honolulu，USA，2017：2261-2269［24］ Zhang Y，Liu Y，Sun P，et al. IFCNN：A general image fusionframework based on convolutional neural network. InformationFusion. 2020，54：99-118［25］ He K，Zhang X，Ren S，et al. Deep residual learning for imagerecognition. //Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition， Las Vegas， USA，2016：770-778［26］ Jung H，Kim Y，Jang H，et al. Unsupervised deep image fusionwith structure tensor representations. IEEE Transactions onImage Processing，2020，19：3845-3858［27］ Gulrajani I，Ahmed F，Arjovsky M，et al. Improved training ofwasserstein GANs//Proceedings of the 31st InternationalConference on Neural Information Processing Systems. LongBeach，USA，2017：5769-5779［28］ Woo S， Park J， Lee J， et al. CBAM：convolutional blockattention module//Proceedings of the European Conference onComputer Vision. Munich，Germany，2018：3-19［29］ Wang Q， Wu B， Zhu P， et al. ECA-Net：efficient channelattention for deep convolutional neural networks//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，2020：11534-11542［30］ Radford A， Metz L， Chintala S. Unsupervised representationlearning with deep convolutional generative adversarialnetworks//Proceedings of the International Conference onLearning Representations，San Juan，Puerto Rico，2016［31］ Luo W， Li Y， Urtasun R， et al. Understanding the effectivereceptive field in deep convolutional neural networks//Proceedings of the 30th International Conference on NeuralInformation Processing Systems， Barcelona， Spain， 2016：4905-4913［32］ Wang Z，Bovik A，Sheikh H，et al. Image quality assessment：from error visibility to structural similarity. IEEE Transactionson Image Processing，2004，13（4）：600-612［33］ Arjovsky M， Chintala S， Bottou L. Wasserstein GAN//Proceedings of the 34th International Conference on MachineLearning. Sydney，Australia，2017：214-223［34］ Ioffe S， Szegedy S. Batch normalization：accelerating deepnetwork training by reducing internal covariate shift//Proceedings of the 32nd International Conference on MachineLearning，Lille，France，2015：1-9［35］ Zheng T， Naphade M， Liu M， et al. CityFlow：a city-scalebenchmark for multi-target multi-camera vehicle tracking andre-identification//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，Long Beach，USA，2019：8789-8798［36］ Hossny M， Nahavandi S， Creighton S. Information measurefor performance of image fusion. Electronics Letters， 2008， 44（18）：1066-1067［37］ Han Y，Cai Y，Cao Y，et al. A new image fusion performancemetric based on visual information fidelity. Information Fusion，2013，14（2）：127-135［38］ Wu W， Xu Y. Correlation analysis of visual verbs'subcategorization based on Pearson’s correlation coefficient//Proceedings of the International Conference on MachineLearning and Cybernetics，Qingdao，China，2010：2042-2046199610 期吕品等：无人驾驶汽车协同感知信息传输负载优化技术LV Pin， Ph. D.， associateresearcher. His research interest includewireless networks and crowd sensing.LI Kai， M. S. candidate. His research interest includeartificial intelligence and crowd sensing.XU Jia， Ph. D.， associate professor. Her researchinterest include big data analysis and processing.LI Tao-Shen， Ph. D.， professor. His research interestinclude wireless networks and cooperative computing.CHEN Ning-Jiang， Ph. D.， professor. His researchinterest include software engineering and cooperativecomputing.BackgroundAutomated driving is a current research hot-spot in theworld. Due to the limitation of sensors， blind sensing area isinevitable for automated vehicles. Hence， cooperativeenvironment sensing is an effective way to eliminate the blindsensing area and improve the safety of automated driving.Among all kinds of environmental sensing information， thevideo captured by camera occupies the most importantposition. However， video frames contain a large amount ofdata. Transmitting each video frame leads to heavy networkload and increased transmission delay， which affects thetimeliness of environmental sensing information. In this paper，a video transmission load optimization method is proposed.The main idea of the method is the transmitter separates thedynamic foreground from the static background in the videoframe， and transmits the static background once at thebeginning and only dynamic foreground in the followingtransmissions， which reduces the transmission load greatly.Using the generative adversarial network， the automatedvehicle fuses the static background and dynamic foregroundinto video frames and then makes the correct driving decisionbased on the driving environment reflected by the videoframes. Through the performance evaluation on the real dataset， it can be seen that the method proposed in this paper canreduce the transmission load by over 85% without being lost inthe environmental sensing information， which lays thefoundation for the promotion and application of cooperativeenvironment sensing for automated vehicles.This work is supported in part by the National NaturalScience Foundation of China （NSFC） under Grant Nos.62062008 and 62062006， the special funds for GuangxiBaGui Scholars， the Guangxi Natural Science Foundationunder Grant Nos. 2018JJA170194， 2018JJA170028， and2019JJA170045.1997

[返回]

上一篇：Nature论文Grandmaster level in StarCraft II using multi-agent reinforcement learning
下一篇：基于无监督域适应的仿真辅助SAR目标分类方法