欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
一种仿生物视觉感知的视频轮廓检测方法
来源:一起赢论文网     日期:2016-08-07     浏览数:3594     【 字体:

 41 卷第10 期自动化学报Vol. 41, No. 102015 10 ACTA AUTOMATICA SINICA October, 2015一种仿生物视觉感知的视频轮廓检测方法谢昭1 童昊浩1 孙永宣1 吴克伟1摘要消除背景的局部边缘干扰同时保证目标的完整轮廓是视频轮廓检测的一个难点, 基于运动感知的生物视觉证据, 提出一种运动能量抑制模型, 有效抑制背景边缘, 激励目标的强边缘. 通过归一化整理视频运动切片的四方向运动能量抑制响应, 反映V1 层视觉神经元的周围抑制感知特性, 进而采用\双半圆盘" 算子提取边缘梯度响应, 同时, 结合运动和外观线索,用随机森林对边缘梯度响应的局部结构进行树划分, 得到最终的检测结果. 实验表明, 本文提出的方法较已有的视频轮廓检测方法有更优的量化查全{ 查准率曲线、F-measure 值和AP 值以及更好的视觉轮廓感官效果.关键词运动能量抑制, 随机森林, 边缘置信度图, 视频轮廓检测引用格式谢昭, 童昊浩, 孙永宣, 吴克伟. 一种仿生物视觉感知的视频轮廓检测方法. 自动化学报, 2015, 41(10): 1814¡1824DOI 10.16383/j.aas.2015.c150018Dynamic Contour Detection Inspired by Biological Visual PerceptionXIE Zhao1 TONG Hao-Hao1 SUN Yong-Xuan1 WU Ke-Wei1Abstract There is a primal challenge to eliminate local edges from noisy clutter while simultaneously preserving thecomplete object silhouette in dynamic contour detection. Inspired by biological evidences for visual motion perception,we formulate the motion energy inhibition model as a computational mechanism for e®ective background suppressionand foreground enhancement in boundary responses. The normalized integration with four-direction-channel motion-¯lterresponse in spatio-temporal slices re°ects the dynamical \surrounding-suppression" characteristic in V1 visual neuron,which uses two half-disc structure to extract contour gradient. Finally, we exploit the random forest model to partitionthe contour gradient from jointly motion and appearance cues in tree-like style to achieve object contours in video.Experimental results demonstrate better performances of this approach in quantitative precision-recall curve, F-measureand AP values, and qualitative visual e®ects.Key words Motion energy inhibition, random forest, boundary con¯dence map, dynamic contour detectionCitation Xie Zhao, Tong Hao-Hao, Sun Yong-Xuan, Wu Ke-Wei. Dynamic contour detection inspired by biologicalvisual perception. Acta Automatica Sinica, 2015, 41(10): 1814¡1824轮廓检测是计算机低层视觉研究的重要组成部分, 在视觉处理任务中具有广泛的应用, 如目标识别[1]、表面重构[2] . 视觉任务常涉及到从自然场景中提取一维的轮廓结构, 这些线性特征可用于描绘物体的外观轮廓与形状, 确定区域之间的界线. 因此, 清晰准确地提取出物体的轮廓对后续的视觉任务具有重要的意义[3], 有助于对图像理解[4] 的研究.对于视频中运动场景的轮廓与边界提取仍是一项非常困难的工作, 主要难点在于: 1) 视频中存在大量由背景所产生的局部边缘, 而这些成分往往并不属于任何物体的轮廓和边界; 2) 判断轮廓存在与否的基本假设和前提是场景中的感知线索存在局部差收稿日期2015-01-14 录用日期2015-06-13Manuscript received January 14, 2015; accepted June 13, 2015国家自然科学基金(61273237, 61503111) 资助Supported by National Natural Science Foundation of China(61273237, 61503111)本文责任编委王亮Recommended by Associate Editor WANG Liang1. 合肥工业大学计算机与信息学院合肥2300091. School of Computer and Information, Hefei University ofTechnology, Hefei 230009, 这些线索可能包括运动(视频数据)、亮度、色彩、纹理、立体视差、深度(深度图像), 如何将多个线索进行优化组合同样是一个难点.目前, 很多对静态图像的目标轮廓提取方法, 在检测过程中主要通过外观线索判断像素是否属于目标的轮廓, 根据图像局部特征并基于学习策略进行轮廓判断. Arbelaez [5] 利用一种叫做\双半圆盘"算子的梯度算子计算亮度、色彩、纹理多种外观线索的方向梯度特征, 通过逻辑回归得到各种外观线索的优化组合, 生成强大的局部边缘检测器, 在去除虚假边缘方面表现出较好的性能, 并且建立了具有轮廓和分层分割手工标记的静态图像轮廓数据库用于训练学习. Dollar [6¡7] 以亮度、色彩线索为判定标准利用集成分类器对图像块分类, 获取到图像块内的结构边缘信息. 他们的轮廓检测器在检测性能和文献[5] 相当的情况下, 提升了处理效率.同时, 深度线索作为特殊的外观线索, 可以辅助判断目标轮廓, Kinect 深度相机得到的场景深度图像,对光照变化和背景中颜色相近的物体的干扰具有10 期谢昭等: 一种仿生物视觉感知的视频轮廓检测方法1815鲁棒性. Leordeanu [8] 结合图像的像素级表达和区域块表达, 将不同类型边缘结构的局部定位应用于深度图像. 徐玉华等[9] 采用活动轮廓对人体目标建模, 提出一种新的水平集框架下自适应融合RGB-D 图像的颜色和深度信息的人体轮廓跟踪方法.静态图像轮廓检测对外观相似的目标和背景不具有识别力, 背景的局部边缘干扰会导致目标的伪轮廓. 因此越来越多的轮廓检测研究[10¡11] 基于运动视频获取运动信息来区分外观一致的目标和背景,并激励运动目标的强边缘.在运动视频中, 运动线索是判断运动目标轮廓的关键. 相关研究[10; 12] 已实验表明了运动线索在轮廓检测、目标识别等视觉任务中的重要性. 格式塔(Gestalt) 原则中的Common fate 理论, 指出相似运动的点被认为是连贯一致的整体, 运动线索作为几乎所有视觉类别所共有的信息, 在生物学视觉系统中也一直强调其重要性[13¡14]. 相比于亮度、色彩和立体视差这些外观线索, 运动线索更有助于区分不同的运动目标. 在增加了额外时间维度的视频数据中, 相机的运动或场景的变化使得我们可以挖掘运动目标边界与背景间的相对运动信息并用于推断目标轮廓, 即运动轮廓.视频轮廓检测中的运动线索主要由数据驱动得到, 分为两大类方法. 第一类利用光流法获取运动线索: Stein [11] 在超像素图上建立区域光流场, 结合外观特征, 利用adaboost 学习方法建立轮廓检测的总体框架, 并且建立了具有轮廓手工标记的视频轮廓数据库用于训练学习; He [15] 在建立光流场后基于奇异值分解(Singular value decomposition,SVD) 因子分解方法建立伪深度图, 将运动线索转化为深度线索用于轮廓检测. 第二类利用帧差法获取运动线索: Sundberg [10] 利用关键帧及其前后帧的帧间差异作为运动线索之一, 同时依据Arbe-laez [5] 的静态轮廓检测结果作为初始分割图建立光流场, 通过支持向量机(Support vector machine,SVM) 学习特征权重, 线性加权各个特征得到轮廓概率值. 然而, 光流法基于亮度守恒假设条件, 在复杂自然场景中, 由于遮挡性、多光源、透明性和噪声等原因, 使得光流的可靠性估计较差, 获取到的运动信息误差较大; 帧差法主要是依据关键帧及其前后帧的帧间差异建模, 仅获取了三帧之间的运动信息,缺少三帧之外的运动信息, 容易造成部分运动信息的缺失.另一方面, 大量运动视觉感知的生物神经学研究成果使得基于生物感知驱动的运动线索获取备受关注. 对于人类视觉系统的底层运动感知, 运动能量模型模拟V1 层神经元感受野对视野中特定区域的刺激产生运动能量响应, 已成为其中的一种标准感受野参考模型[13], 主要通过构建运动能量模型分析其运动特性, 可用于跟踪和行为识别任务中.Chakraborty [16] 利用运动能量模型提取空时兴趣点用于人体行为识别; Cannons [14] 利用运动能量模型获取目标的空时方向结构用于目标视觉跟踪.运动能量模型非常适合描述刻画一维运动的刺激响应, 然而, 标准的运动能量模型无法刻画感受野的周围抑制感知特性[17]. 在神经元感受野外部的周边区域, 都存在着一个对细胞反应起调制作用的外区域, 称为非经典感受野, 其面积比传统感受野大得多. 此区域内的光点刺激并不能直接引起神经元细胞的反应, 但可以抑制其反应, 调节由感受野产生的原有的效果, 这种特性称为周围抑制感知特性[17].Carandini [18] 发现, 随着对比度的增加, 简单细胞响应在高对比度时饱和. 由于理想的线性算子响应会随着刺激对比度的增强而增强, 运动能量模型无法表达这种非线性感知特性. 对于抑制机制, 其优化方法非常多样, 本文仅举例用于图像轮廓检测中的相关研究动态. Grigorescu [19] 将初级视皮层非经典感受野抑制特性应用到图像的轮廓检测, 通过各向同性抑制或各向异性抑制减少纹理边缘的影响,突出区域的边界并保存孤立的轮廓. 桑农等[20] 基于Grigorescu 的工作对非经典感受野的形状和调制模式做了改进, 开发出碟形抑制区和带易化区域的非经典感受野模型. 其模型比较复杂, 并且轮廓中容易形成断裂, 破坏了轮廓的完整性. 本文通过模拟V1层简单细胞的线性响应与大量集群细胞响应的相互作用机制, 使得每个细胞的响应根据刺激对比度完成响应尺度上的归一化, 更为简单有效地解释抑制特性.针对视频场景目标轮廓检测中因背景的局部边缘干扰导致轮廓虚警的问题, 模拟仿生视觉感知中的非经典感受野, 本文提出一种基于运动能量抑制模型的视频轮廓检测方法, 能够有效增强运动目标边缘, 抑制视频背景中的杂乱边缘, 提高视频轮廓检测准确性. 主要创新点包括: 1) 模拟仿生视觉感知中的非经典感受野建立运动能量模型, 并采用运动能量抑制机制优化能量模型, 能够有效解释V1 层视觉神经元的周围抑制感知特性; 2) 在运动线索的基础上, 加入亮度、色彩、纹理多种外观线索, 优化组合多视觉线索计算边缘特征描述子, 能提升目标边缘强度; 3) 依据随机森林的多重随机性提高边缘检测能力的多样性, 进行多特征轮廓检测器的学习,生成视频关键帧的边缘置信度图.本文的轮廓检测模型基本流程如图1 所示. 首先对视频数据预处理获取运动切片, 通过运动能量抑制模型获取运动线索, 结合亮度、色彩、纹理外观1816 自动化学报41 卷图1 基于运动能量抑制的视频轮廓检测模型Fig. 1 Dynamic contour detection based on motion energy inhibition线索用\双半圆盘" 算子[5] 计算各个感知线索的梯度特征描述子, 并通过随机森林方法进行多特征轮廓检测器学习, 得到鲁棒的视频轮廓检测模型.本文内容安排如下: 1 节详细介绍本文提出的运动能量抑制模型, 生成空时滤波边缘响应, 可较好地抑制背景边缘干扰; 2 节介绍融合的其他外观线索, 并用随机森林方法进行训练分类得到边缘置信度图, 从而生成最终的轮廓; 3 节给出视频边缘检测的实验结果并分析本文方法的优势; 4 节是总结和展望.1 运动能量抑制模型基本的运动能量模型可描述人类视觉系统的底层运动感知(视皮层V1 神经元) 响应, 从性能上来讲它和目前现有的大量精神物理学数据是相一致的[13], 是运动能量抑制模型的基础, 通过对视频数据预处理得到二维运动切片, 从而进一步计算得到方向运动分量.同时, V1 层细胞的非经典感受野形态决定了其响应过程呈现出明显的周围抑制表象, 而标准的运动能量模型无法解释这种非线性响应现象. 我们通过分析运动能量抑制机制扩展标准运动能量模型,通过模型优化反映周围抑制的运动感知特性.1.1 运动切片视频序列是若干连续图像帧的排序集合, 可用坐标(x; y; t) 表示三维数据, 作为运动分析的原始输入. 与分析帧间差值[10] 相比, 这种表示方式的运动分析基于具有更宽的时间范围的数据, 从而更具有识别力.一个x-y-t 三维数据可视为是y 个二维x-t 平面堆叠而成, 或者是x 个二维y-t 平面堆叠而成. 视频中的运动目标可以在三维数据(包括两个空间维xy 和一个时间维t) 中标注. 如图2 (a), 平行于y轴的竖直线沿着x 轴水平向右运动, 直线上的每个点的水平运动轨迹都可以用一个x-t 平面的形式表示. 用水平矩形在三维数据中截取一个横截面, 可以得到一个x-t 平面(2 (b)), 其中x 坐标为时间变量t 的一维函数, 运动轨迹与t 轴夹角的正切值对应该点运动的水平速度.(a) 视频数据x-y-t(a) Video data x-y-t(b) 运动切片x-t(b) Motion slice x-t2 运动切片示例Fig. 2 One example of motion slice上述平面称之为y 轴方向上的运动切片I(x; t).以此类推, 可以得到x 轴方向上的运动切片I(y; t).在运动切片中, 运动表示为倾斜的轨迹, 其斜率正比于速度. 运动使得x-t 平面产生了方向性结构, 形成空时方向. 通过运动切片, 三维x-y-t 数据表示的运动检测问题就可以转化为对应每一列(或每一行) 的二维平面的方向边缘检测问题. 通过对三维数据预处理获取运动切片, 在运动切片这样的二维数据上进行卷积操作等底层数据处理. 相比在三维数据上直接操作, 可以加快获取运动能量响应的速度, 并且减少数据处理时的内存占用.1.2 空时滤波的运动能量响应人脑通过视皮层中方向选择细胞的感受野处理视觉运动输入, 对运动刺激作出响应, 而运动能量模10 期谢昭等: 一种仿生物视觉感知的视频轮廓检测方法1817型主要通过构建简单的滤波器描述感受野, 利用运动切片上的感受野响应获取运动空时方向信息, 从而感知运动. 这种感受野主要包含两类滤波器, 一类滤波器是偶对称滤波器, 即中心点镜面对称; 另一类则是奇对称滤波器. 由这两个分别奇偶对称的滤波器可以分别得到正相位响应和负相位响应. 当考虑感受野的空间结构时, V1 简单细胞的感受野剖面结构可以通过二维Gabor 函数或高斯导数函数模拟[16]. Goris [21] 证明这些滤波器和V1 中方向选择简单细胞的感受野剖面是相一致的.本文采用二阶和三阶高斯导数滤波器描述感受野, 对于二维高斯函数G(x; t), 可计算其二阶导数Gµ(x; t) 以及对应的Hilbert 转换对Hµ(x; t), 并根据计算不同方向的运动响应来调整对应滤波器的空时方向µ (相对于Gµ(x; t) 的对称轴).对于给定的三维空时数据, 运动能量计算按如下操作: 首先按第1.1 节说明获取运动切片I(x; t)I(y; t), 并计算方向为45± 和135± 的二阶和三阶高斯导数滤波器. I(x; t) 运动切片与滤波器组的卷积结果可得到水平方向的正负相位运动分量响应;I(y; t) 运动切片与滤波器组进行卷积操作, 获取竖直方向的正负相位运动分量响应. 根据式(1), 对同一运动方向两个正反相位的运动分量响应进行平方求和的操作得到运动能量响应:E(x; t; µ) = (Gµ ¤ I(x; t))2 + (Hµ ¤ I(x; t))2 (1)其中, ¤ 表示卷积操作, Gµ 的滤波响应是一组正交对响应, 平方求和的操作使得获取的运动信息去除了相位敏感性[12]. 同理可以得到E(y; t; µ).1.3 运动能量抑制机制V1 层细胞中非经典感受野形态使其响应呈现出明显的周围抑制, 周围抑制是指线性响应受到周围刺激的影响, 抑制观测单元响应, 增强调谐的选择性[22]. 而采用标准的运动能量模型无法解释这种非线性响应现象. 简单细胞的运动能量抑制机制[23] 可以用来解释上述周围抑制感知特性, 即将每个细胞的线性响应与大量集群细胞响应(本文为4 个不同运动方向能量响应) 进行归一化处理, 公式如下:N(x; t; µ) = P E(x; t; µ)µE(x; t; µ) + "(2)其中, " 为极小的常数(依照经验设置为最大能量响应的1 %), 确保公式有效(分母非零). 同理可以得到上下运动方向的运动能量抑制响应N(x; t; µ). 大量集群细胞的活性可以抑制各个单一细胞的活性.很显然, 运动能量抑制机制是一种非线性算子, 这种抑制的作用使得每个细胞的响应根据刺激对比度完成响应尺度上的归一化. 目前已有大量研究证据显示大脑依赖于一种规范的神经元计算, 并将这种计算方式重复用于不同问题中, 运动能量抑制机制则是这种计算方式的最佳表示形式之一[18].1.4 边缘特征描述子在得到运动能量抑制响应图之后, 可在此基础上获取运动通道的特征. 轮廓检测器一般通过对每个像素点分配一个\强度值", 来表征该点是否在边缘上的程度值(一般为0»1 之间的概率值). 判断的基础则是场景中多种多样的感知线索的局部差异,包括运动、亮度、色彩、纹理、深度.基于梯度的特征是一种较好的\强度值" 表达方式. 采用\双半圆盘" 算子[5] 计算方向边缘梯度响应, 通过计算两个半圆之间强度值差异性表示圆中心点是否为边缘点的概率.\双半圆盘" 算子具体操作步骤如下: 如图3, 对于运动能量响应图上的固定点(x; y), 以该点为圆心画半径为r 的圆, 并把它按照方向´ 分成两个半圆.根据式(3) 对两个半圆内的所有点值分别进行直方图统计.hi(N(x; t; µ);L´(x)) =Pp2L´±(N(x; t; µ); bi) (3)同理可得hi(N(x; t; µ);R´(x)), 其中L´(x), R´(x)分别表示两个半圆, bi 表示统计区间, ´ 为圆盘方向,基于经验值的考虑[5] 0»180± 之间的8 个等分角度.(a) 双半圆盘(a) Two half-discs(b) 半圆盘直方图统计(b) Half-discs histogram(c) 边缘梯度响应(c) Edge gradient response3 双半圆盘算子Fig. 3 Two half-discs descriptor1818 自动化学报41 卷两个半圆的差异性通过计算两个半圆直方图统计的卡方距离得到:FM(x; t; µ; ´) =Â2(h(N(x; t; µ);L´(x)); h(N(x; t; µ);R´(x))) =12Xi(hi(N(x; t; µ);L´(x)) ¡ hi(N(x; t; µ);R´(x)))2hi(N(x; t; µ);L´(x)) + hi(N(x; t; µ);R´(x))(4)同理可得FM(y; t; µ; ´) 的值, 差异值FM 即为运动通道的方向边缘梯度响应. 差异值越大, 则这个点处于两半圆直径上不连续处的可能性越大, 而轮廓点对应的即是图像的不连续点.对于8 个圆盘角度, 8 个方向边缘梯度响应的最大值作为该点最大边缘梯度响应.FM(x; t; µ) = max´(FM(x; t; µ; ´)) (5)最后通过二阶Savitzky-Golay 滤波器卷积操作以增强局部极大值. 由此, 可将运动能量抑制模型统一表示为如下的特征响应集合:FM(x; y; t) = [FM(x; t; µ); FM(y; t; µ)] (6)2 轮廓检测模型除运动线索外, 多种常用于图像结构判断的外观线索(亮度、色彩、纹理等) 对视频轮廓检测也非常重要, 通过组合运动线索和外观线索, 形成完整的多特征轮廓检测器. 采用随机森林学习轮廓检测模型, 得到最终的轮廓置信图.2.1 外观特征的方向梯度边缘响应对于外观线索, 本文采用亮度、色彩、纹理作为目标轮廓的重要感知线索, 同样采用运动能量抑制模型中的\双半圆盘" 算子计算各特征通道的最大边缘梯度响应. 对于亮度通道, 获取方向边缘梯度响应的公式FLig(p) = max´(Â2(h(Lig;L´(p)); h(Lig;R´(p))))(7)其中, Lig 为亮度值, p 对应像素坐标. 我们采用CIELab 色彩空间的颜色a、颜色b 通道作为色彩特征通道, Lab 空间三通道方向边缘梯度可统一为FLAB(p) = [FLig(p); FA(p); FB(p)] (8)对于纹理特征, 则利用词袋模型获取纹理基元图Tex. 首先, 对关键帧灰度化, 并通过一组包含高斯导数滤波器和高斯差分滤波器的滤波器组滤波后得到特征向量. 再对特征向量进行K-means 聚类得到K 个聚类中心, 聚类中心定义了一组特定图像的纹理基元, 每个像素点都可以根据距离最近的聚类中心分配1 K 之间的索引di, 以此生成纹理基元图. 最后, 计算纹理特征通道的最大边缘梯度响应:hi(Tex;L´(p)) =Xp2L´±(Tex; di) (9)FTex(p) = max´(Â2(h(Tex;L´(p)); h(Tex;R´(p))))(10)其中, di 为纹理基元字典索引值, Tex 为纹理基元图.2.2 随机森林分类随机森林是一种典型的集成学习模型, 基本思想是基于统计学信息熵这一信息增益标准对信息进行划分和学习, 得到若干个树形分类器, 具有快速有效的优点[24]. Dollar [7] 将随机森林应用于静态图像的边缘检测模型学习, 通过训练过程中多个步骤的随机性, 不仅保持了检测器的检测性能, 而且大大提升了检测效率. 借鉴此方法, 我们将随机森林用于视频轮廓检测中, 学习多特征分类器, 得到轮廓检测器.随机森林是多个相互独立的随机决策树的总和,其最终结果通过多数投票或者平均值决定. 构建随机森林首先需要构建多个随机决策树, 其中每个决策树按递归方式独立训练.随机决策树的训练过程, 就是决策树的生成过程, 包括每个节点的二值划分阈值选择, 以及二值叶子节点停止生长的终止条件. 决策树的随机性体现在训练每个节点时随机采样特征位, 即每个节点只对其中部分特征维数进行训练. 随机决策树使用信息熵作为评价标准, 判定该节点是否需要划分, 如果划分后的信息熵有所减少, 则每一次划分产生2 个新节点; 如果信息熵并未减少, 则节点稳定, 停止划分. 4 (b) 为随机决策树节点分裂示例.对于包含多个节点的决策树, 进一步讨论对于训练集合T 的初次划分过程. 训练集合对应树的根节点, 编号为0, 记做n0, 并将训练集合T 记做T0.节点划分函数h0(Fr0 ; th0), 其中r0 是指特征的随机下标, th0 是该随机特征划分的阈值. 根据该划分函数训练集合可以划分为左右两个子树(TL0 ; TR0 ), 并计算初始集合T0 划分为左右子树的信息量变化I0= I(T0; TL0 ; TR0 ).参照上述初次划分过程的标准, 以此类推, 可以泛化到任意节点Tj、划分函数hj(Frj ; thj) 以及对应的信息量变化Ij = I(Tj ; TLj ; TRj ). 信息量变化Ij的标准定义公式如下:10 期谢昭等: 一种仿生物视觉感知的视频轮廓检测方法1819Ij = I(Tj ; TLj ; TRj ) = H(Tj) ¡Xk2fL;RgjTkj jTjH(Tkj )(11)Ij 的数值越大, 说明信息量减少越多. 其中H(T)为信息熵, 本文采用Gini 不纯度作为信息熵计算标准. 信息量变化Ij 最大时, Tj 划分为左右子树;当信息量变化Ij 小于阈值时, 节点稳定, 停止划分;反之则节点不稳定, 继续划分.单一随机决策树表现出高方差和易于过拟合的缺点[25], 而随机森林通过训练多棵相互独立的树以改善问题, 训练过程的关键是获得具有充分多样性的一组树. 多样性体现在训练每棵树的时候有放回的随机采样样本数据, 在训练每个节点分裂时随机采样特征. 在节点层注入随机性易于生成高精度模型.本文采用上述随机森林方法训练生成轮廓检测器. 首先对数据集以16 £ 16 图像块为单位采样, 构建图像块训练样本集合(4 (a)), 并根据树节点的信息量变化生成随机决策树[7]. 当划分收敛时获得叶子节点, 叶子节点在划分过程中, 若特征位大于阈值, 则该图像块结构信息显著, 对其标记为1, 否则,若特征位小于阈值, 则对其标记为0. 4 (b) 为得到的一个随机决策树. 为了保证随机森林的多样性,每次随机选择节点中的特征位, 训练得到8 个不同的随机决策树, 组成随机森林轮廓检测器. 测试阶段, 为了获得像素级的轮廓点标记, 通过16 £ 16 的滑动窗口扫描区域块, 可得到16£16 = 256 个包含区域中心点的评价图像块, 注意, 所有评价图像块都在中心点半径16 以内, 即一个31 £ 31 区域块以内.测试过程对256 个评价图像块依次通过随机森林轮廓检测器得到对应的轮廓分类标记, 利用256 个评价图像块的平均检测结果, 作为该点的边缘置信度;以此类推便可逐点得到视频关键帧的边缘置信度图(4 (d)).2.3 算法流程本文算法通过归一化整理视频运动切片的四方向运动能量抑制响应, 反映V1 层视觉神经元的周围抑制感知特性, 进而采用\双半圆盘" 算子提取边缘梯度响应, 同时结合运动和外观线索, 用随机森林对边缘梯度响应的局部结构进行树划分, 得到最终的检测结果. 算法具体流程如下.输入. 自然场景视频V (x; y; t).输出. 关键帧的边缘置信度图.步骤1. 通过横向截面和竖向截面分别获取水平运动切片I(x; t) 和竖直运动切片I(y; t).步骤2. 将运动切片与高斯导数滤波器组卷积并求能量和, 得到运动能量响应; 并引入运动能量抑制机制进行归一化处理, 得到运动能量抑制响应N(x; t; µ) N(y; t; µ).步骤3. 将运动能量抑制响应以及关键帧的LAB 色彩空间分量和纹理基元图放入\双半圆盘", 计算两个半圆直方图统计的卡方距离, 得特征梯度响应.步骤4. 训练阶段, 用随机森林方法根据边缘梯度响应特征对像素点进行树划分, 训练轮廓检测器.步骤5. 测试阶段, 采用滑动窗口的形式将图像块依次通过随机森林轮廓检测器得到对应的轮廓分类标记, 利用图像块的平均检测结果, 逐点得到视频关键帧的边缘置信度图.(a) 图像块采样(a) Image sampling patch(b) 随机决策树(b) Random decision tree(c) 滑动检测窗口(c) Sliding detection window(d) 边缘置信度图(d) Edge con¯dence map4 随机森林生成边缘置信度图Fig. 4 The generation of object edge con¯dence map viarandom forest3 实验结果与分析我们从两方面评估视频轮廓检测的性能: 1) 对只含有外观线索的轮廓检测结果和加入运动线索的轮廓检测结果定性分析, 分析运动能量抑制模型的有效性; 2) 将本文方法与现有视频轮廓检测方法对比, 证明运动抑制模型相比其他运动线索的优势. 检测指标主要采用PR 曲线, 以及平均查准率AP F-measure (具体指标说明见第3.3 ).3.1 视频数据集实验采用的数据集为Carnegie Mellon Univer-sity 的视频数据集[11], 5 为数据集中部分视频的1820 自动化学报41 卷关键帧图像及其对应的轮廓手工标记示例. CMU数据集包含30 个视频序列, 每个视频序列含有8»20 帧不等, 每个视频关键帧都有对应的轮廓手工标记. 该数据集主要用于运动分析, 包含了各种室内、室外场景类型, 除了目标运动, 还包括噪声、亮度变化、压缩失真、摄像机运动等干扰, 具有一定的挑战性. 帧与帧之间运动数量级在2»20 个像素之间.5 CMU 数据集中部分视频的关键帧以及对应的手工标记Fig. 5 The key frames with corresponding groundtruth from CMU dataset3.2 运动能量抑制分析首先以CMU 数据集中的一个车辆遮挡视频为例, 依据运动能量抑制模型的实验得出的中间结果,分析抑制机制的合理性和有效性.示例视频中, 由于摄像机移动导致拍摄视角的变动, 场景中的景物整体向左上方运动. 6 为该视频序列通过运动能量抑制模型处理的示例. 6 (a)为标准运动能量模型获取到的上下左右(6 (a) 中依次是左上、右上、左下、右下) 四个运动方向的能量响应, 6 (b) 为运动能量抑制后的运动能量抑制响应. 输入视频序列如图1 中所示.从图中可以明显地看到抑制前和抑制后的响应差异. 6 (a) , 抑制前的运动能量响应整体很弱,除了极少数强运动边缘, 其余运动区域的运动能量看不出差异性, V1 层方向选择简单细胞的实际响应并不相符, 也无法解释场景向左上方运动的整体趋势. 这是因为运动能量响应随着刺激对比度的增强成比例增大, 在刺激对比度差异较小的情况下, 使得各像素点之间的能量响应差异性也很小. 6 (b), 抑制后的能量响应较好地描述了整个场景的运动趋势, 并且运动突出的位置响应明显增强了. 可见运动能量抑制机制通过模拟V1 层简单细胞的线性响应与大量集群细胞响应的相互作用机制, 使得每个细胞的响应根据刺激对比度完成响应尺度上的归一化, 较好地解释了周围抑制感知特性.3.3 视频轮廓检测通过CMU 视频数据集的轮廓检测结果, 对本文检测方法进行定性和定量的分析. 由于对比方法的代码是基于Matlab , 故本文方法在Matlab2013a 环境下, 电脑配置为HP 工作站Z820 (处理器为Xeon E5-2603, 主频1.8 GHz, 内存16 GB).(a) 抑制前的运动能量响应(a) The response of motion-based detectorbefore inhibition(b) 抑制后的运动能量响应(b) The response of motion-based detectorafter inhibition6 运动能量抑制模型分析Fig. 6 The response of motion-based detectorbefore and after inhibition首先进行定性分析. 本文提出的运动能量抑制模型(Motion energy inhibition) 视频轮廓检测方法用MEI 表示. 7 给出了在CMU 数据集上MEI和文献[7] 的部分检测结果. 7 (a) 为视频关键帧原图, 7 (b) 为关键帧对应的手工标记, 7 (c) 为文献[7] 的轮廓检测结果, 7 (d) 为文献[10] 的轮廓检测结果, 7 (e) MEI 的轮廓检测结果.整体上看, MEI 的轮廓检测结果具有较好的视觉轮廓感官效果, 具有较少的背景边缘和较强的运动目标轮廓, 与手工标记一致.对比文献[7] 的检测结果发现, MEI 的结果明显减少了视频背景中的杂乱边缘, 有效降低了虚警率, 并且运动目标边缘更加显著, 更加贴近于数据集中的手工标记轮廓. 如图7 1 行中, 文献[7] 的结果中, 手后面的枕头上的纹理清晰可见, MEI 的结10 期谢昭等: 一种仿生物视觉感知的视频轮廓检测方法1821(a) 关键帧(a) Key frames(b) 手工标记(b) Ground truth(c) 文献[7] 结果(c) Results of [7](d) 文献[10] 结果(d) Results of [10](e) MEI 结果(e) Results of MEI7 CMU 数据集上部分轮廓检测结果Fig. 7 Contour detection results on CMU dataset果有效抑制了这些背景纹理, 与手工标记更具有一致性. 文献[7] 是目前领先的静态图像轮廓检测方法之一, 仅依靠外观线索来判断像素点是否为轮廓点,对于与背景外观相似的运动目标缺乏有效地识别力,在视频轮廓检测中虚警率较高. MEI 除了外观线索,还通过运动能量抑制模型获取多帧视频数据的运动线索辅助判断, 有效地抑制了背景中的杂乱边缘, 激励了运动目标的强边缘.对比文献[10] 的检测结果发现, MEI 的结果具有更精确的运动目标边缘. 如第1 行中, 文献[10]的结果中看不到枕头的整体轮廓, MEI 的结果枕头轮廓清晰可见, 与手工标记更加相近. 2 行中, 文献[10] 的结果中木马的轮廓有断裂痕迹, MEI 中的木马轮廓更加连贯. 4 行中, 文献[10] 的结果中最左边的袋鼠隐约可见, MEI 中更加清晰. 可见,本文基于仿生物视觉感知的运动能量抑制模型, 相比文献[10] 基于帧差值和光流场计算的运动线索,对运动目标边缘具有更高精度.为考察视频轮廓检测模型的综合性能, 采用PR曲线作为检测性能的评价准则. PR 曲线反映在检测返回值变化时模型的查全率(R) 与查准率(P). TP 代表真阳性样本, FP 代表假阳性样本, FN 代表假阴性样本, TN 代表真阴性样本, 根据式(12)计算查全率、查准率.R = TPTP + FN; P = TPTP + FP(12)对于PR 曲线来说, 其查全率和查准率都是越接近1 越好, 即越靠近坐标(1, 1) PR 曲线检测效果越好. CMU 数据集中关键帧的手工标记轮廓作为真实值, 选取不同的阈值统计TP, FP, FN, TN样本数, 并根据统计数据拟合PR 曲线.8 CMU 数据集上MEI 和三种对比方法的PR 曲线比较. 首先比较MEI (粗实线) 和文献[7] (细实线) PR 曲线; MEI PR 曲线整体上高于文献[7] PR 曲线, 即在同一阈值下, MEI 的查全率与查准率均高于文献[7]; 这与图7 MEI 具有更少的背景杂乱边缘和更强的运动目标边缘的视觉感官效果相对应; 同时, 对比两者PR 曲线也证明了运动能量抑制模型的有效性.比较MEI (粗实线) 和文献[10] (细虚线) PR曲线, 在查全率大于0.5 的部分, MEI PR 曲线和文献[10] 基本一致, 文献[10] 以帧差和光流场作为运动线索, 是目前最好的视频轮廓检测方法之一, 阈值较低时, MEI 的查全率与查准率与文献[10] 基本一致; 但在查全率小于0.5 的部分, MEI PR 曲线高于文献[10] PR 曲线, 说明在较高阈值时MEI在查全率相同的情况下, 降低了虚警率, 即对运动目标的强边缘具有更高的精度.文献[10] 在高阈值下有较高虚警率的原因主要有两点: 一是帧差法依据关键帧及其前后帧的帧间差异建模, 缺少三帧之外的运动信息, 造成部分运动信息的缺失; 二是光流法基于亮度守恒假设条件, 1822 自动化学报41 卷复杂自然场景中, 由于遮挡性、多光源、透明性和噪声等原因, 使得光流的可靠性估计较差, 获取到的运动信息误差较大. 对比两者PR 曲线, 本文基于仿生物视觉感知的运动能量抑制模型, 相比数据驱动的帧差法和光流法, 在高阈值下降低了虚警率, 对运动目标边缘具有更高精度.8 不同方法视频轮廓检测的PR 曲线对比Fig. 8 Precision-Recall curves for comparison进一步分析PR 曲线, 还可说明本文方法使用随机森林进行多特征轮廓检测器学习的合理性. 如图8 左上角曲线, 在查全率较低的情况下(R < 0:1),MEI 和文献[7] 的查准率都趋近与1, 远高于其他对边方法. 说明当取较高阈值时, 所获取的轮廓点基本都集中在真实标记上, 即检测结果中概率值高的点基本上都是轮廓点, 也就是说取较高阈值时轮廓点的虚警率几乎为0. 分析其原因, 主要是MEI 和文献[7] 都采用了随机森林方法进行训练, 说明具有充分树多样性的随机森林作为轮廓检测器, 不仅提升了检测效率, 而且在查全率小于0.1 , 虚警率几乎为0. 我们认为本文方法在高阈值上的低虚警率特性, 可以为目标候选提取和目标检测这类高层视觉应用提供目标的底层轮廓线索.为进一步证明本文方法相比其他对比方法的优势, 我们对PR 曲线进行定量评价和比较, PR 曲线计算F-measure 值和平均查准率(AP). 单一使用P R 指标有时不能全面衡量方法的性能, 为了综合考虑P R, 最常见的方法就是计算F-Measure值作为Precision Recall 的加权调和平均数, 公式如下:F = PR®R + (1 ¡ R)P(13)其中, ® 按照经验值取0.5. 沿着PR 曲线, 最大F-measure 值的位置点所取的阈值即为最优检测阈值. 由于在一般情况下F-measure 曲线是单峰的, 因此最大F-measure 值可以作为检测模型的综合检测性能指标. 另一个反映模型检测性能的指标是AP, 即平均查准率(Average precision). 由于部分视频轮廓方法只提供了查全率在区间[0.25, 0.7] 上的平均查准率[10], 本文也仅计算查全率在区间[0.25,0.7] 上的平均查准率, 便于比较. 简单来说, 平均查准率和最大F-measure 值越大, 检测性能越好.1 CMU 数据集上各视频轮廓检测模型的定量评价结果. 其中MEI 的最大F-measure 值和文献[8] 的最大F-measure 值相等, 优于其他对比方法. 平均查准率度AP 值则优于所有其他对比方法, 说明MEI 具有更高的轮廓精确度. 几种对比方法中, 基本采用光流法或者帧差来获取运动线索, 而本文的基于仿生物视觉感知运动能量抑制模型则提高了平均查准率, 在轮廓检测精度上比其他方法更具有优势.1 CMU 数据集上最大F-measure 值和平均查准率(AP) 评估Table 1 The maximal F-measure and average precision(AP) on CMU benchmark方法F-measure APStein [11] 0.48 0.47Sargin [26] 0.57 0.58He [15] 0.47 0.43Sundberg [10] 0.61 0.72Dollar [7] 0.60 0.67Leordeanu [8] 0.62 |MEI 0.62 0.74视频轮廓检测方法主要是对检测效果的评价,鲜见对方法整体的效率性讨论. 本文方法对于分辨率为640 £ 480 大小的视频数据, 检测时间在1.2/帧左右, 由于运动特征的计算, 略慢于文献[7] 的静态图像轮廓检测方法(0.4 /), 稍快于文献[10] 的视频轮廓检测方法(2.1 /).4 结论本文针对运动视频场景中的轮廓检测问题, 将非经典感受野的视觉特性引入视频轮廓检测, 基于仿生物视觉感知建立运动能量抑制模型获取运动线索, 同时结合外观线索进行多视觉线索组合, 并通过随机森林方法进行多特征轮廓检测器学习, 提出一种基于运动能量抑制的视频轮廓检测模型. 实验表明, 基于仿生物视觉感知的运动能量抑制模型通过10 期谢昭等: 一种仿生物视觉感知的视频轮廓检测方法1823获取运动线索, 可以有效地抑制运动视频背景中的杂乱边缘; 多视觉线索组合的边缘特征描述, 加强了运动视频中的运动目标边缘. 实验证明, 本文的视频轮廓检测模型, 在定量评价中提高了平均查准率, 保持了最大F-measure , 与其他方法相比, 在轮廓检测精度上更具有优势.本文方法仍存在以下两个问题: 一是虽然在一定程度上降低了局部背景边缘的干扰, 但是检测结果仍存在一些微小的局部背景边缘; 二是在快速运动场景下的轮廓检测精度不高. 针对上述两个问题,下一步工作将研究: 1) 在现有感知线索基础上, 加入深度线索用于辅助判断目标轮廓; 2) 进一步优化运动能量抑制模型使之适用于快速运动目标. 另外,为体现方法在实际应用中的便捷性, 可考虑在C++环境下的代码集成与优化.References1 Zhang Gui-Mei, Zhang Song, Chu Jun. A new object detec-tion algorithm using local contour features. Acta Automat-ica Sinica, 2014, 40(10): 2346¡2355(张桂梅, 张松, 储珺. 一种新的基于局部轮廓特征的目标检测方法.自动化学报, 2014, 40(10): 2346¡2355)2 Arbelaez P, Pont-Tuset J, Barron J T, Margues F, MalikJ. Multiscale combinatorial grouping. In: Proceedings ofthe 2014 IEEE Conference on Computer Vision and Pat-tern Recognition. Columbus, USA: IEEE, 2014. 328¡3353 Tang Qi-Ling, Sang Nong, Liu Hai-Hua, Chen Xin-Hao.Detecting natural image contours by combining visual per-ception and machine learning. Science China Informationis,2013, 43(9): 1124¡1135(唐奇伶, 桑农, 刘海华, 陈心浩. 视觉感知结合学习的自然图像轮廓检测. 中国科学: 信息科学, 2013, 43(9): 1124¡1135)4 Cai Jia-Xin, Feng Guo-Can, Tang Xin, Luo Zhi-Hong. Hu-man action recognition based on local image contour andrandom forest. Acta Optica Sinica, 2014, 34(10): 1015006-1¡1015006-10(蔡加欣, 冯国灿, 汤鑫, 罗志宏. 基于局部轮廓和随机森林的人体行为识别. 光学学报, 2014, 34(10): 1015006-1¡1015006-10)5 Arbelaez P, Maire M, Fowlkes C, Malik J. Contour detec-tion and hierarchical image segmentation. IEEE Transac-tions on Pattern Analysis and Machine Intelligence, 2011,33(5): 898¡9166 Dollar P, Zitnick C L. Structured forests for fast edge detec-tion. In: Proceedings of the 2013 IEEE International Confer-ence on Computer Vision. Sydney, Australia: IEEE, 2013.1841¡18487 Dollar P, Zitnick C L. Fast edge detection using structuredforests. IEEE Transactions on Pattern Analysis and Ma-chine Intelligence, 2015, 37(8): 1558¡15708 Leordeanu M, Sukthankar R, Sminchisescu C. E±cientclosed-form solution to generalized boundary detection. In:Proceedings of the 12th European Conference on ComputerVision. Florence, Italy: Springer, 2012. 516¡5299 Xu Yu-Hua, Tian Zun-Hua, Zhang Yue-Qiang, Zhu Xian-Wei, Zhang Xiao-Hu. Adaptively combining color and depthfor human body contour tracking. Acta Automatica Sinica,2014, 40(8): 1623¡1634(徐玉华, 田尊华, 张跃强, 朱宪伟, 张小虎. 自适应融合颜色和深度信息的人体轮廓跟踪. 自动化学报, 2014, 40(8): 1623¡1634)10 Sundberg P, Brox T, Maire M, Arbelaez P, Malik J. Occlu-sion boundary detection and ¯gure/ground assignment fromoptical °ow. In: Proceedings of the 2011 IEEE Conferenceon Computer Vision and Pattern Recognition. Providence,USA: IEEE, 2011. 2233¡224011 Stein A N, Hebert M. Occlusion boundaries from motion:low-level detection and mid-level reasoning. InternationalJournal of Computer Vision, 2009, 82(3): 325¡35712 TÄunnermann J, Mertsching B. Region-based arti¯cial visualattention in space and time. Cognitive Computation, 2014,6(1): 125¡14313 Adelson E H, Bergen J R. Spatiotemporal energy modelsfor the perception of motion. Journal of Optical Society ofAmerica. A, Optics and Image Science, 1985, 2(2): 284¡29914 Cannons K J, Wildes R P. The applicability of spatiotempo-ral oriented energy features to region tracking. IEEE Trans-actions on Pattern Analysis and Machine Intelligence, 2013,36(4): 784¡79615 He X M, Yuille A. Occlusion boundary detection usingpseudo-depth. In: Proceedings of the 11th European Con-ference on Computer Vision. Heraklion, Greece: Springer,2010. 539¡55216 Chakraborty B, Holte M B, Moeslund T B, Gonzµalez J.Selective spatio-temporal interest points. Computer Visionand Image Understanding, 2012, 116(3): 396¡41017 Wang Y Y, Shanbhag S J, Fischer B J, Pe~na J L. Population-wide bias of surround suppression in auditory spatial re-ceptive ¯elds of the owl0s midbrain. The Journal of Neuro-science, 2012, 32(31): 10470¡1047818 Carandini M, Heeger D J. Normalization as a canonical neu-ral computation. Nature Reviews Neuroscience, 2011, 13(1):51¡6219 Grigorescu C, Petkov N, Westenberg M A. Contour detec-tion based on nonclassical receptive ¯eld inhibition. IEEETransactions on Image Processing, 2003, 12(7): 729¡73920 Sang Nong, Tang Qi-Ling, Zhang Tian-Xu. Countour detec-tion based on inhibition of primary visual cortex. Journal ofInfrared Millimeter Waves, 2007, 26(1): 47¡51(桑农, 唐奇伶, 张天序. 基于初级视皮层抑制的轮廓检测方法. 红外与毫米波学报, 2007, 26(1): 47¡51)21 Goris R L T, Movshon J A, Simoncelli E P. Partitioning neu-ronal variability. Nature Neuroscience, 2014, 17(6): 858¡8651824 自动化学报41 22 Yuval-Greenberg S, Heeger D J. Continuous °ash suppres-sion modulates cortical activity in early visual cortex. TheJournal of Neuroscience, 2013, 33(23): 9635¡964323 Tsui J M G, Hunter J N, Born R T, Pack C C. The role ofV1 surround suppression in MT motion integration. Journalof Neurophysiology, 2010, 103(6): 3123¡313824 Criminisi A, Shotton J, Konukoglu E. Decision forests: auni¯ed framework for classi¯cation, regression, density es-timation, manifold learning and semi-supervised learning.Foundations and Trends in Computer Graphics and Vision,2012, 7(2¡3): 81¡22725 Geurts P, Ernst D, Wehenkel L. Extremely randomizedtrees. Machine Learning, 2006, 63(1): 3¡4226 Sargin M E, Bertelli L, Manjunath B S, Rose K. Proba-bilistic occlusion boundary detection on spatio-temporal lat-tices. In: Proceedings of the 12th IEEE International Con-ference on Computer Vision. Kyoto, Japan: IEEE, 2009. 560¡567谢昭合肥工业大学计算机与信息学院副研究员. 2007 年获得合肥工业大学博士学位. 主要研究方向为图像理解, 模式识别, 人工智能. 本文通信作者.E-mail: xiezhao@hfut.edu.cn(XIE Zhao Associate professor atthe School of Computer and Informa-tion, Hefei University of Technology.He received his Ph. D. degree from Hefei University of Tech-nology in 2007. His research interest covers image un-derstanding, pattern recognition, and arti¯cial intelligence.Corresponding author of this paper.)童昊浩合肥工业大学计算机与信息学院硕士研究生. 2012 年获得合肥工业大学学士学位. 主要研究方向为图像与视频分析处理.E-mail: h1xiaozi12345@gmail.com(TONG Hao-Hao Master studentat the School of Computer and Infor-mation, Hefei University of Technology.He received his bachelor degree from Hefei University ofTechnology in 2012. His research interest covers image andvideo processing.)孙永宣合肥工业大学讲师. 2013 年获得合肥工业大学博士学位. 主要研究方向为计算机视觉, 图像处理, 模式识别.E-mail: syx@hfut.edu.cn(SUN Yong-Xuan Lecturer atHefei University of Technology. He re-ceived his Ph. D. degree from Hefei Uni-versity of Technology in 2013. His re-search interest covers computer vision, image processing,and pattern recognition.)吴克伟合肥工业大学讲师. 2013 年获得合肥工业大学博士学位. 主要研究方向为计算机视觉, 图像处理, 模式识别.E-mail: wukewei@hfut.edu.cn(WU Ke-Wei Lecturer at HefeiUniversity of Technology. He receivedhis Ph. D. degree from Hefei Universityof Technology in 2013. His research in-terest covers computer vision, image processing, and pat-tern recognition.)

[返回]
上一篇: 落实发展新理念,破解农业新难题
下一篇:西部地区灾害管理的大数据建设与问题探析