欢迎访问一起赢论文辅导网
博士论文
当前位置:首页 > 博士论文
基于孪生网络的快速视频目标分割
来源:一起赢论文网     日期:2020-07-07     浏览数:1352     【 字体:

  期年 月电 报收稿日期: ; 修回日期: ; 责任编辑: 李勇锋基金项目: 北京市自然科学基金( )基于孪生网络的快速视频目标分割付利华,赵 宇,孙晓威,卢中山,王 丹,杨寒雪( 北京工业大学信息学部,北京 )摘 要: 视频目标分割是计算机视觉领域中的一个研究热点,传统基于深度学习的视频目标分割方法在线微调深度网络,导致分割耗时长,难以满足实时的需求本文提出一种快速的视频目标分割方法 首先,参数共享的孪生编码器子网将参考流和目标流映射到相同的特征空间,使得相同的目标具有相似的特征 然后,全局特征提取子网在特征空间中匹配给定目标相似的特征,定位目标对象最后,解码器子网将目标特征还原,并通过连接目标流的低阶特征,提供边缘信息,最终输出目标的分割掩码在公开基准数据集上的实验表明,本文方法的分割速度有大幅度提升,同时具有较好的分割效果关键词: 视频目标分割; 计算机视觉; 深度学习; 孪生网络; 特征空间中图分类号: 文献标识码: 文章编号: ( )电子学报 : : :, , , , ,( , , , ): ( ),, ,;, ,: ; ; ; ;引言视频目标分割( ) 是在不知道视 频 帧 语 义 的 情 况 下,自 动 计 算 视 频 帧 序 列中前景对象 的 像 素 级 掩 码 根 据 第 一 帧 给 定 的 目 标 分割掩码,在视频后续帧中分割出标注的特定目标,即为半监督视频 目 标 分 割 半监督视频目标分割广泛应用于基于视频 理 解 的 精 确 对 象 跟 踪 交 互 式 视 频 编 辑 和增强现实等领域目前,关于半 监 督 视 频 目 标 分 割 的 方 法 大 多 基 于两种主流的方法: 基于目标检测[ ]的单次视频目标分割法( )[]和基于掩码传播[ ]的掩码跟踪法( )[]等基于目标检测的视频目标分割方法[ ],主要通过匹 配 第 一 帧 给 定 目 标 的 外 观 特 征,实 现 视 频目标的分割这类方法能够有效解决目标遮挡等问题,在处理目标 外 观 稳 定 的 视 频 时,能 得 到 较 好 的 分 割 结果但由于其没有考虑帧间的时序信息,因此,当目标的外观发生较大变化时,其分割精度会大幅下降等 基 于 掩 码 传 播 的 视 频 目 标 分 割 方法[ ],主要通过传播前一帧的分割结果,从而为当前帧的分割位 置 提 供 指 导 这 类 方 法 考 虑 了 连 续 帧 间 的时序信息,因此能够很好地适应目标复杂的外观变化但遮挡和快速运动等会影响 目标分割掩码的传播过电 子 学 报 年程,并且多个相似目标重叠容易造成跟踪飘移,导致方法的目标分割性能下降和 都是采用在线微调的 方 式 进行视频目标 分 割这种方式根据视频第一帧图像与给定的目标掩 码 对 网 络 进 行 在 线 微 调,使得网络模型具有记忆给定 目 标 外 观 的 能 力 但 由 于 在 线 微 调 需 要 对网络进行多次迭代训练,会大大增加分割的时间孪生网络是 一 种 度 量 学 习 方 法,其 通 过 神 经 网 络将两个输入 映 射 到 同 一 特 征 空 间 内,将同类物体不断拉近,不同类物体不断远离,以此获得两个输入间的相似程度孪生网络广泛应用于视频目标跟踪[,]人脸验证[]图像检索[,]等任务为了解决上 述 问 题,本 文 采 用 孪 生 网 络 提 取 第 一帧中给定目 标 对 象 与 后 续 帧 之 间 共 同 的 外 观 特 征,以此在后续帧 中 检 测 给 定 目 标,代 替 主 流 视 频 目 标 分 割方法的在线微调方式,从而有效地减少分割的时间,同时为了保留 视 频 的 时 序 信 息,使 用 前 一 帧 的 目 标 分 割掩码为当前帧提供位置指导基于孪生网络的快速视频目标分割本文提出一个基于孪生网络的快速视频目标分割方法,采用深度 网络[]作为框架,将参考帧和给定的目标分割掩码组成参考流,当前帧与前一帧的目标分割掩码组成目标流,共同作为网络的输入设计孪生编码器子网,将参考流和目标流映射到相同的特征空间,使得相同的目标具有相似的特征; 全局特征提取子网在特征空间中匹配与给定目标相似的特征,定位目标对象; 最后,解码器子网将目标特征还原,最终输出目标的分割掩码本文的视频目标分割方法主要包括三部分: 参数共享的孪生编码器子网基于扩张卷积的全局特征提取子网和解码器子网,其主体结构如图所示参数共享的孪生编码器子网孪生网络将两个输入映射到同一特征空间中,可以有效提取 输 入 间 的 相 似 特 征 视 频 目 标 分 割 的 目 的是在后续帧中匹配第一帧给定的目标对象 因此,本文设计参数共享的孪生编码器子网,代替在线微调方式,从而有效地减少目标分割的时间参数共享的孪生编码器子网的输入由两部分组成: 参考流与目标流如图 所示,首先,使用可分离卷积残差块,将具有相似外观特征的向量不断拉近,不同外观特征的 向 量 不 断 远 离,以 此 逐 步 建 立 高 维 特 征 空间然后,将目标流和参考流的特征图进行特征融合,得到 维特征向量作为孪生编码器子网的输出在图 中,黄色的特征图即为孪生编码器子网的输出,本 文 使 用 ()[]算法对其进行降 维 显 示 由 结 果 图 可 以看出,在高维特征空间,参考流中的给定目标与目标流中的待分割 目 标 具 有 相 似 的 特 征,而 目 标 流 中 的 背 景特征与这两者分离基于扩张卷积的全局特征提取子网基于扩张卷积的全局特征提取子网用于进一步提取参考流和目标流共同的全局特征,进而提取更抽象更鲁棒的内 在 语 义 特 征,并 在 特 征 空 间 中 搜 索 与 给 定目标相似的特征,以定位待分割目标如图 所示,全局特征提取子网输入为孪生编码器子网输出首先,以更深的层次结构提取更丰富的全局特征; 然后,利用扩张卷积,增加卷积操作的感受野,更好地表达目标内在的语义信息; 最后,采用扩张空间金字塔 池 化 操 作[]( ) ,使用不同扩张率的扩张卷积,得到具有不同感受野的特征图,以 多 尺 度 的 方 式 将 不 同 感 受 野 的 特 征 图第 期 付利华: 基于孪生网络的快速视频目标分割融合,生成前景特征同样使用 算法对输出的 维特征向量进行降维显示,从结果图可以看出,高阶特征已经将待分割目标的特 征 与 背 景 特 征 很 好 地 分 离,表 明 全 局 特 征提取子网能有效地在特征空间中搜索与给定目标相似的特征,以定位待分割目标对象解码器子网解码器子网将特征空间中抽象的目标特征还原,并通过连接目标流的低阶特征,获得目标的边缘信息,最终输出目标的分割掩码,其结构图如图 所示因为高阶特征更 能 表 达 图 像 的 内 在 语 义 信 息,所 以 在 融 合低阶特征图时,使用 卷积降低低阶特征图的通道数,使得高阶特征图的通道数占较大比重由于在目标流的输入中加入了第四通道 前一帧的分割掩码,这会导致在低阶特征中,前一帧的分割掩码影响目 标 的 边 缘 细 节 信 息,使 目 标 分 割 结 果 的 细节与边缘并不理想为解决该问题,在本文的解码器子网中,利用残差结构保留有效信息,去除冗余信息的特点,将低阶特征经过一个残差块后输入到解码器子网中,能更好地过滤冗余低阶特征实验结果与分析为评价 提 出 算 法 的 有 效 性,本 文 在 三 个 大 型 公 开的基 准 数 据 集:[] []和[]进行实验 用于单目标分割验证, 用于多目标分割验证 数据集是 年月 () 最新推出的公开基准数据集,包含 个视频数据在 数据 集 进 行 测 试 时,本 文 首 先 采 用数据集[]进行预训练,然后在 数据集中选取 个视频继续训练,余下的 个视频作为验证 集在 和位操作系统下,基于 开源框架,采用随机梯度下降算法( )训练模型, 大小为, 为 ,第 一 阶 段预训练学习率为 ,训练 万步,第二阶段训练学习率 ,训练 万步在 数据集进行测试时,由于其数据量较大,本文直接在 数据集上进行训练采用算法( ) 训练模型,大小为,设置初始学习率为 ,训练 个主流方法测评本文使用 数据集[,]提供的基准代码计算预测的分割掩码与标注掩码之间的区域相似度 () 轮廓精确度 ( ) 以及对应的运行速度本文方法与当前几种较流行的方法进行对比实验,其中基于非深度学习的方法为:[],基于深度学习的 方 法[],[],[],[],[],[]在 数据集上,本文方法与对比方法的性能评估结果如表 所示表 不同视频目标分割方法在 数据集上的性能评估结果( )方法 在线微调 速度( )本文方法从表 可以看出:( ) 基于在线微调的方法可以取得较好的分割效果,但是在线微调非常耗时,且不能很好地满足场景的快速变化[] [] []等 方 法 采 用 了在线微 调 方 式 由 表 可 知 这 些 方 法 分 割 速 度 都 在以下本文采用孪生网络匹配参考流与目标电 子 学 报 年流中具有相似外观特征的目标对象,以代替在线微调,大大降低了分割时间( ) 相比其它目标分割方法,[] []分割速度最快 本文方法采用深度[]网络作为模型的主体网络,具有更深的网络层次和较少的模型参数,因此本文方法的分割精度和速度都优于[]和[]本文 方 法 与 对 比 方 法 在 数 据 集 上 的部分分割结果如图 所示,性能评估结果如表 所示表 不同视频目标分割方法在 数据集上的性能评估结果( )方法 速度( )本文方法从图 和表 中可以看出:( )[]基于语义实例分割且单独处理每一帧,没有考 虑 视 频 帧 间 的 时 序 信 息 如 ,由 于语义分割模块没有学习到 纸箱这一语义类别,所以出现分割丢失本文方法基于孪生结构,可以有效地获取参考帧与目标帧之间的共同外观特征,实 现 目 标 分割,不受特定语义的限制( )[]基于目标跟踪,依赖时序稳定性如,视频中 目 标 运 动 剧 烈,产 生 跟 踪 飘 移,导致分割结果不连续本文在目标 流 中 加 入 前 一 帧 的目标分割掩码,当目标外观变化剧 烈 或 存 在 多 个 相 似目标时,可获得更好的分割结果( )[]受网络层次的限制 如 ,目标与背景颜色相似,内容较为复杂由于网络本身不能很好地描述内在的语义特征,从而导致将目标与背景混淆本文以深度 网络[]作为模型的主体网络,具有更深的网络层次和较少的模型参数,可以提取更加丰富且稳定的特征,因此在处理复杂场景时可以获得较好的分割结果[]的验证集包含 个目标类别为第 期 付利华: 基于孪生网络的快速视频目标分割了评估算法对分割目标的泛化能力,验证集中有 个是训练集包含的目标类别,称为已知类别( ) , 个是训练集不包含的目标类别,称为未知类别( )代表四个评估指标的平均值本文方法与对比方法在 验证集上的性能评估结果如表所示,在验证集上部分的分割结果如图 所示表 不同视频目标分割方法在 验证集上的性能评估结果( )方法在线微调本文方法从表 中可以看出,本文将视频目标分割看作一种特征匹配问题,利用孪生结构,有效地提取第一帧给定目标与当前帧共同外观特征,以定位并分割目标对象,所以本文方法不需要预先学习目标类别,对已知类别对象和未知类别对象均可获得 较 高 的 分 割 精 度 从图 中可以看出,随着视频序列的播放,分割效果可以保持较高的鲁棒性本文算法分阶段的效果对比为了验证本 文 算 法 各 阶 段 的 有 效 性,从 网 络 的 输入: 参考流和 目 标 流 两 个 方 面,在 数 据 集上进行实验分析评估实验结果如表 和图 所示表 本文算法分阶段效果的定量分析( )阶段网络输入––完整算法 – –为了评估目标检测的有效性,将参考流的输入设置为空图,此网络结构命名为 此时网络仅依赖视频帧间的时序稳定性,当目标被遮挡时,则会丢失分割目标其次,通 过 掩 码 的 传 播,错 误 的 分 割 会不断地传播给后续帧,造成错误叠加为了评估掩 码 传 播 的 有 效 性,将 目 标 流 中 前 一 帧的目标分割 掩 码 设 置 为 空 图,此 网 络 命 名 为此时网络仅依赖参考流中给定的目标外观信息随着视频的播放,目标的外观逐步发生改变,使得网络难以适应较大的外观变化,造成分割精度下降结论本文提出了一个基于孪生网络的快速视频目标分割方法,能快速有效地处理单目标和多目标的视频目标分割问题针对传统基于深度学 习 的 视 频 目 标 分 割方法采用在线微调网络导致分割速度慢的问题,本 文方法设计了参数共享的孪生编码器子网,将 输 入 的 参考流和目标流映射到同一特征空间,并 提 取 给 定 目 标与后续帧 间 的 共 同 外 观 特 征,以 此 检 测 给 定 目 标 同时,本文采用深度 网络为主体网络,利用其网络层次深感受野大以及模型参数少等特点,获得良好的分割精度实验结果表明本文方 法 能 有 效 地 解 决 目标遮挡大幅度外观 变 化 等 问 题,能 快 速有 效 地 分 割出视频中的目标参考文献[] , , ,[][], , : ,[] , , ,[][] , : ,[] ,[][],: ,[] , , ,[][] , : ,[] , , ,[][] , : ,电 子 学 报 年[] , , ,[], ,( ) :[] , , ,[][] , , : ,[] , ,[][] ,, : ,[] ,[][] , , : ,[] , , ,[][] , : ,[] , , ,[][] , : ,[] , , ,[][] ,: ,[] , , ,[][] , , : ,[] , , ,[][], : ,[] , ,[][] , , : ,[] , , ,[][] , :,[] , , , :[][] ,, : ,[] , , ,[][], , : ,[] , , ,[], , :[] , , , :[][], : ,[] , , , :[][] , : ,[] :[][], , : ,[] , , , :,, [], ,( ) :[] , [], ,( ) :作者简介付利华 女, 年 月 出 生,四 川 安 岳人 年在西北工业大学计算机学院获得工学博士学位现为北京工业大学信息学部副教授,主要研究方向为智能信息处理 图像处理和计算机视觉:赵宇( 通信作者) 男, 年 月出生,河北唐山人 年在华东交通大学获得工学学士学位,现为北京工业大学信息学部硕士研究生,主要研究方向为图像处理和计算机视觉:

[返回]
上一篇:基于图神经网络的动态网络异常检测算法
下一篇:基于格局检测的模型计数方法