欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
交通路口监控视频跨视域多目标跟踪的可视化
来源:一起赢论文网     日期:2018-07-24     浏览数:2581     【 字体:

   40 卷  计  算  机  学  报     Vol.40 2017 论文在线出版号  No.34  CHINESE JOURNAL OF COMPUTERS  Online Publishing No.34 ——————————————— 本课题得到国家杰出青年科学基金(No. 61425013)、国家自然科学基金面上项目(No. 61472035)资助.刘彩虹,女,1992年生,硕士研究生,计算机学会(CCF)会员(E200041311G,主要研究领域为计算机图形学.E-mail: 1090859045@qq.con.  张磊,男,1981年生,博士,副教授,计算机学会(CCF)会员(E200013995S,主要研究领域为计算机图形学. E-mail: leizhang@bit.edu.cn.  黄华(通讯作者),男,1975年生,博士,教授,计算机学会(CCF)会员(E200009499,主要研究领域为图像与视频处理. E-mail: huahuang@bit.edu.cn.   交通路口监控视频跨视域多目标跟踪的可视化 刘彩虹  张磊      黄华 (北京理工大学计算机学院,  北京  100081) 摘  要 跨视域大场景的多目标跟踪与展示是智能监控的基本需求之一。本文设计实现了一种基于视域拼接的跨视域多目标跟踪的可视化算法,借助于视频场景中几何信息实现视域拼接,从而实现将交通路口不同视角监控视频中的跟踪目标在统一的视场下进行展示。算法主要包含四个步骤:视域背景拼接、目标检测、跨视域多目标跟踪以及可视化显示。其中,视域背景拼接步骤利用交通场景背景图像几何信息辅助的半交互方式确定特征点对,计算不同视角到参考视域平面的单应变换矩阵,并利用SPHP算法保形后对所有配准图像线性融合完成背景拼接;目标检测步骤利用ViBe背景建模算法分离目标,并进行阴影消除以提高检测准确性;跨视域多目标跟踪则结合各个视角到拼接视域平面的映射关系获得目标的定位信息,采用Kalman滤波和最小均方的轨迹匹配实现跨视域多目标的一致性跟踪;最后可视化显示步骤则在拼接的视域背景上对跟踪目标进行动态可视化展示。实验结果表明,本算法能够在统一视场下展现多个视域的监控场景信息,更有利于交通路口的监控。 关键词  跨视角;多目标跟踪;单应变换;ViBeKalman滤波;轨迹匹配 中图法分类号  TP391 论文引用格式:   刘彩虹,张磊,黄华,  交通路口监控视频跨视域多目标跟踪的可视化,2017, Vol.40,在线出版号  No.34 LIU  Cai-HongZHANG  LeiHUANG  Hua,  Visualization  of  Cross-view  Multi-object  Tracking  for  Surveillance  Videos  in Crossroad, 2017, Vol.40,Online Publishing No. 34 Visualization of Cross-view Multi-object Tracking for Surveillance Videos in Crossroad LIU Cai-Hong   ZHANG Lei   HUANG Hua  (School of Computer Science, Beijing Institute of Technology, Beijing 100081)  Abstract  Cross-view Multi-object tracking and displaying for large scene is a basic requirement of surveillance video  intelligent  processing  system.  However,  because  of  the  limited  field of view of a single camera, its impossible  to  meet  the  exact  requirement  for  long  distance  object  tracking.  In  this  paper,  we  propose  an algorithm  for  visualization  of  cross-view  multi-object  tracking.  We  try  to  combine  object  information  from multiple views and achieve the goal of tracking object in a wider field of view that is obtained by stitching the multiple views with overlapping areas. The proposed algorithm mainly contains four steps: background stitching step,  object  detection  step,  cross-view  multi-object  tracking  step  and  visualization  step.  In  the  background 网络出版时间:2017-03-30 19:40:11网络出版地址:http://kns.cnki.net/kcms/detail/11.1826.TP.20170330.1940.002.html2  计  算  机  学  报  2017stitching step, at first, we need to know the mapping from each view to the reference view plane. But there are too few feature points to find in the crossroad and we cant find the corresponding  points  with  traditional methods  that  based  on  the  feature  point  detection  and  matching.  So  we  present  a  half-interactive  method  to determine the corresponding points between each view and reference view. The half-interactive method is based on geometrical information in background image, such as the vanishing pointhorizontal line. Its easy to operate and reliable. And then we can use the obtained point pairs to calculate the homography matrix, by which we can project  the  camera  image  plane  onto  reference  plane.  Then  the  SPHP  algorithm  is  adopted.  It  is  on  account  of that  the  severe  projective  distortion  is  introduced  into  the  images  after  the  perspective  projection  with  the homography  matrix  and  we  use  the  SPHP  algorithm  to  keep  the  perspective  so  that  we  can  get  an  as  wider  as possible  field  of  view.  At  last,  we  stitch  the  calibrated  background  images  with  linear  fusion.  Thus  we  get  the mapping  relation  from  each  view  to  the  stitching  view.  In  the  object  detection  step,  we  detect  the  objects  with ViBe background modeling algorithm.  For object detection, background subtraction is commonly used. One of most  popular  algorithm  for  background  subtraction  method  is  Gaussian  mixture  model.  But  in  this  paper,  the ViBe algorithm is a more appropriate choice because its less noisy and more convenient to solve the problem of ghost and the case when the object stops for a long time compared to the Gaussian mixture model. Although the ViBe algorithm is suitable, its a pixel-level  algorithm,  and  it  is  sensitive  to  shadows.  So  in  order  to  get  more correct  object  detection  information,  we  have  to  remove  the  shadows  to  improve  accuracy  of  object  detection. Then, in the cross-view multi-object tracking step, we can use the obtained mapping relation to find the location of  every  object  in  reference  view.  And  in  each  view,  we  achieve  single-view  multi-object  tracking  by  Kalman filter. Once we get the trajectory in each single view, to determine the same object in different views by trajectory correspondence which uses the least mean square to matching the trajectory from different views. Thus finally in the  visualization  step,  we  implement  the  cross-view  multi-object  tracking  and  visualization  algorithm.  The experimental results demonstrate that our algorithm is efficient to the persistent object tracking and visualization. Key words  Cross-view; Multi-object Tracking; Homography; ViBe; Kalman Filter; Trajectory Correspondence   1引言 多目标跟踪及可视化是计算机视觉和计算机图形学领域的重要技术,是目标识别,交通分析,智能监控,异常行为检测等众多后续研究的基础,具有广阔的应用前景。对于交通路口单个监控摄相机而言,其视域有限,不能满足对目标进行大范围、长距离持续跟踪的需求。而对每个视角摄像机拍摄的视频进行独立跟踪和展示,不便于跟踪目标的监测和分析。跨视域多目标跟踪是研究多个具有重叠区域的视角的目标信息在同一视域下时空一致的跟踪,涉及目标检测、跟踪及同一视域下数据的关联和融合[1]。跨视域大场景的多目标跟踪与展示是智能监控的基本需求之一。 虽然目标跟踪的研究很广泛,但跨视域多目标持续跟踪,由于除跟踪外还涉及视角间的数据关联(即重构),相关研究工作比较少。Liu [2]采用MMPF粒子滤波结合时空分析实现十字路口跨视角目标跟踪,其中目标的持续跟踪是利用视角间的转换实现的。Leal-Taixe[3]对多个视角的已标定相机和目标数据,利用时域关联和空间约束,将跟踪问题转化成图的全局优化问题实现跨视域多目标跟踪;Hofmann[4]利用Leal-Taixe等构造流图的思想,并对其进行了简化,仅全局构造一个流图,实现3D空间的目标跟踪,这两者工作主要集中在对数据关联部分的研究,同样缺乏统一视域下不同视角视频目标跟踪的可视化呈现。Thingom  [5]则是以视频摘要的方式将不同视角监控结果进行集中展示和可视化,但其是在时域上对不同视角视频片段做摘要,并没有实际实现多个视角视频在同一视场下的同时展示。   本文设计实现了一种基于视域拼接的跨视域多目标跟踪的可视化算法,将交通路口不同视角监控视频中的跟踪目标在统一的视场下进行展示。算法利用交通场景背景图像中的几何信息辅助进行交互的方式确定特征点对,计算不同视角到参考视域平面的单应变换矩阵,实现大视差视域背景图像的论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  3 拼接,进而实现目标跟踪信息的可视化。为缓和单纯单应变换所造成的形变失真和视角信息丢失,本文采用SPHP[6]算法进行保形。另外,鉴于背景减除的检测算法不需要任何先验知识便能从视频流中检测运动目标以及ViBe[7]算法的能够及时初始化,抗噪性能较强,计算量小,易于实现等特点,文中采用ViBe进行前景目标的检测。同时对于已知背景图像的情况,ViBe的背景减除算法也便于处理鬼影现象以及静止目标。接下来的目标跟踪则是结合各个视角到拼接视域平面的映射关系和目标检测结果计算目标在拼接视域的定位信息,采用Kalman[8]滤波和最小均方的轨迹匹配实现可靠跟踪。实验结果表明,本算法能够在统一视场下同时展现多个视域的监控场景信息,更有利于交通路口的监控。 2相关工作 与本文相关的工作包括视角间配准和融合、运动目标检测、多目标跟踪等。   跨视域配准和融合。为完成多个视角数据的融合,需先进行多个视角的配准。视角间配准可通过相机标定信息建立各相机视角到世界坐标系的映射来实现,该方法适用范围广,例如文献[2,3,4]等都是在已标定相机的基础上进行研究工作。传统的相机标定需要尺寸已知的标定物来确定三维空间点到二维图像点间的对应关系。目前应用比较广泛的是Zhang[9]的利用至少两幅不同视角平面图案进行标定的方法。这种标定方法对于监控视频则需在监控相机所在地才能实现,需额外操作过程。另一种方式是通过视角间对应点对的方式实现视角间配准。视角间对应点对可通过手动或自动方式确定,自动的对应点对获取方法主要包括轨迹匹配、视域(FOV)线匹配、特征点匹配。前两者对单个视角目标检测和跟踪的性能依赖性很大,特征点匹配的方法则要求每个视角地面场景具有足够的纹理信息[1]。然而交通路口监控视频场景纹理单一,特征信息较少,而且视角间视差过大,重叠区域也比较小,图1中即是监控路口视角间重叠区域情况的一个实例,可见重叠区域仅包含道路中间的纹理信息较少的部分,而且各视角相似性也比较大,特征点的选取和匹配比较困难。图2中即是对其中两个视角进行特征点提取和匹配的结果,可见特征点难以准确匹配。对于这种情况一种简单的方法是完全通过交互的方式人为指定所有所需对应点对,但在没有任何参照信息情况下指定对应点,操作困难且精度不高。姜明新等[10]采用人为放置标志物的方式计算多层单应性进行信息映射,他们通过在拍摄环境中放置4根垂直于地面的带底座杆子,却在不同高度的3层分别设置标志物来计算每层单应矩阵,虽精度较高但也需复杂的操作过程。 视角间融合则是利用配准得到的单应矩阵,将各视角所检测前景映射到参考平面,以完成各目标的定位,确定同一目标。所使用单应矩阵可以是单层单应矩阵或多层单应矩阵[10]。   运动目标检测。目标检测算法是通过对视频进行处理和分析,得到所需感兴趣的前景目标。前景检测算法有很多,大致可分为两大类:背景减除法、训练分类法。背景减除法是从静态背景中找到区别于静态背景的运动前景像素。这种方法不区分目标的类型,不管是人还是车辆,只要是运动的感兴趣目标,均能够检测得出,但相对而言,其精度所受影响因素也较多,例如光照的变化,阴影等,一般常用于监控视频等背景基本不发生变化的静态相机所拍摄视频。背景减除的算法有很多,文献[11, 12,  13]中都介绍了各种背景减除算法。其中最简单一种是帧差法,其直接采用视频中的一帧为背景图像,采用当前帧减去背景的方式提取前景,对于捕捉目标的边缘比较有效,但易出现鬼影和空洞现象。近年来使用比较广泛的是由FridmanRussell 首次提出的高斯混合模型[14]或者基于高斯混合模型的改进模型[15,16,17],这类方法是在时间域上建立像素的颜色分布模型,能够对光照渐变等复杂场景进行建模。其计算复杂度较高,为此,Szwoch[13]对其进行了并行实现,以提高其效率。另外其对运动物体长时间静止的情况无法处理,且易出现误检情况和空洞现象,噪点较多。除应用比较广泛的以高斯混合模型为代表的统计模型外,另外一类全新视角的性能比较好的背景减除算法是Barnich[7]提出ViBe非参数化前景检测算法,其为每个像素建立一个样本集,利用像素变化的随机性,随机替换该像素及其邻域像素样本,据作者文中所述,ViBe算法优于高斯混合模型、SACON[18,19]等复杂背景模型,具有易于实现,抗噪能力比较好,计算准确率高,计算量小,能够及时初始化的特点。后Hofmann[20]结合SACONViBe两种算法的优势,提出了性能更优的PBAS算法。训练分类法是指对特定目标进行训练,建立模型的方法。如车辆目标的检测[2,21,22],行人目标的检测[23,24]以及近来广4  计  算  机  学  报  2017年 泛应用的利用梯度直方图和SVM训练建立模型进行目标匹配的DPM目标检测算法[25],这类算法进行目标检测,一般结果会更精确和鲁棒,但这种方法通常只能检测特定类别的目标,甚至特定特定视角的目标,具有一定的局限性,而且还需样本数据集进行训练。 多目标跟踪。近年来多目标跟踪的研究集中在对已检测目标进行跟踪(tracking by detection (a) 视角1                   (b) 视角2                      (c) 视角3   1 第一行图像为第二行单应变换后图像,深色区域为视角1和视角2重叠区域,浅色为视角1和视角3重叠区域。principle),即已知各视角间的空间对应关系和目标检测结果,建立各视角各检测目标的数据关联。多目标跟踪算法分为单个视频多目标跟踪即单目跟踪,以及多个视角视频的目标跟踪即跨视域多目标跟踪。 单目跟踪的跟踪方法有很多,例如利用目标区域的色彩、纹理等信息计算目标和候选区块相似度进行匹配的跟踪算法,比较常用的有CamShift算法,这种算法在发生很大遮挡或者目标发生较大形变时,跟踪效果会变差;基于预测的跟踪方法,如利用可对目标运动有效进行线性最优估计的Kalman滤波器进行跟踪;另外还有维护多个假设,直到有足够多的观测信息来作出决策的跟踪方法,如基于马尔科夫链蒙特卡洛的方法[26,27],比较早的基于粒子滤波的方法[28,29]等,这样的方法,由于假设空间的组合,复杂度指数级增长;基于匈牙利算法或者贪心策略实现数据关联和跟踪的方法,如Breitenstein[30]利用粒子滤波结合贪心的关联策略进行跟踪。这些都是在线的方法,还有一些比较成功的离线跟踪方法,例如将通过预处理步骤得到 可靠的长度短的轨迹再进行连接的多层跟踪策略[31]等。 跨视域多目标跟踪算法则主要分为两类:跟踪优先(track-first)算法和融合优先(fuse-first)算法[1]。跟踪优先算法对每个视角进行跟踪,然后再在参考平面进行投影和目标数据信息的连接。例如文献[32]中通过Kalman滤波器在3D世界坐标系和2D图像 图2 交通路口不同视角背景图像进行特征点匹配。  坐标系分别进行每个目标的跟踪实现。这种算法需进行多次跟踪,复杂度高。融合优先算法则是先将检测所得目标信息投影到参考平面,再进行跟踪。最近的跨视域多跟踪数据关联算法多是通过整个序列或者大的视域窗口的轨迹优化来实现[3,4]。 论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  5 3算法 本文算法流程如图3所示,主要包括四步:交通路口多个视角视域背景的拼接、目标检测、跨视角视频目标跟踪以及其可视化显示。 3.1 视域背景拼接 交通路口各视角图像一般视差很大,甚至达到90度,且监控相机拍摄多为路面信息,纹理信息过少,很难通过特征点的方式完成各视角间的准确配准。本文借助视频场景中主要几何信息以确定各视 图3  算法流程图。  角图像到参考平面的单应变换来进行图像配准,并利用保形的图像拼接算法,建立统一的视域背景。 由于各视角相机曝光差异等,可能导致各视角拍摄所得视频亮度差异过大而使得拼接图像视觉效果不好。因此拼接前需进行亮度调整,使得各视 角背景图像亮度尽可能相似,以提高拼接结果的视觉质量。本文采用Reinhard[33]的颜色转换算法进行亮度调整,该算法利用简单的统计分析将原图的颜色特性转移到目标图像。颜色调整结果如图4所示。以下过程均基于颜色调整后图像。  3.1.1  单应变换的计算 计算机视觉中,单应变换定义为一个二维平面到另一个二维平面的投影映射。通常由给定特征点对确定两个平面的单应变换矩阵:� ,,1 �↦�′ ′,,� �,�  为3*3矩阵,即 �′~��, 其中�=  123456781 = ������   , ��表示 �矩阵的第  行。方程可叉积表示为 �′×��=, 去除线性相关项后方程为:  �−���′������−′��  ��� =     (1)   一般取�=1,可知平面间一个特征点对至多可得两个线性无关方程组,故至少需四对特征点方可确定一个单应矩阵�。  (a)南                                          (b)北 图4 以东向图像颜色为基准,对南北方向图像进行亮度调整的结果。其中第一行为基准图像,第二行为原始图像,第三行为颜色调整后图像。 6  计  算  机  学  报  2017年    为获取摄相机成像平面到参考平面(本文选取 地平面)的特征点对,本文依据已知的背景图像或者地面实况数据确定交通路口的简化模型(如图5 所示)。基于该模型,本文采用半交互方式进行单应变换的计算,即通过从路面背景图像获取信息并辅助交互来确定两平面间的对应关系,包括消隐点约束、水平线约束、及用户交互的点约束三部分。由于各 视角计算方式相同,下面以如图6(a)所示东向西视角的图像为例进行说明。   消隐点约束。本文利用真实空间平行直线相交  (a)各视角背景                                                                                        (b)简化模型 图5  依据(a)的各视角背景建立如图(b)的简化路口地面模型。                                                                                     (a)原始图像                                  (b)线段检测和聚类                                      (c)垂直方向线段                                                                                  (f)提取人行道线                        (e)水平方向线段端点聚类                              (d)水平方向线段 图6  背景图像几何信息提取。  论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  7  (a)图像平面                                                                                        (b)参考视角 图7  半交互确定特征点对。  于消隐点[34]这一特性对图像中线段进行聚类来检测消隐点。其中线段采用Von Gioi[35]LSD方法进行检测。检测的线段按消隐点进行分类后结果如图6(b),  其中,相同颜色的线段代表同一类线段。对分类得到的每组线段进行拟合,便可得到各消隐点。交通路口图像检测的线段往往多为人行道线,人行道线段相互平行,与相机拍摄方向一致的线段会很快收敛于一点,利用这些特性便可过滤出图像垂直方向的消隐点(如图6(c)所示)。 将计算得到的消隐点向量表示为��=  ,,1 �,消隐点对应在地平面上点应为相应无穷远点,即  ,,0 �,代入公式(1)可化简为: [�� �� �]  ��� =        (2) 水平线约束。水平线约束与消隐点约束相同,也是利用图像中线段集分类得到的各组线段进行信息提取,以找到与图像水平方向的线段集。这类线段通常具有方向相同,为水平方向,相互平行,消隐点在无穷远处的特性。同样利用这些性质对每组线段拟合出一个方向,便可从中找出所需水平方向(如图6(d)所示)。   将计算得到的水平方向向量表示为��=  ,,0 �,其变换后也必为水平方向,即�=��,ω=0,′⊕′= 1,代入公式(1)为: [�� �� �]  ��� =     (3) 用户交互的点约束。利用上述两个约束不足以计算单应变换,本文利用图像上人行道信息辅助交互的方式另外确定3对特征点,相对于完全用户交互的方式可靠性和精确性都更高。 利用上述提取水平方向线段端点进行Kmeans聚类(如图6(e)),对各类线段点进行拟合,提取人行道线(如图6(f))。人行道线位置在简化参考平面上已知,依据所得人行道线(7line1line2),只需交互确定线上特定的两个点(7中点1和点2),即可得到所需三对点。   从消隐点作line1line2 的垂线分别交于�1, �2。由于�112共线,设1112=,则�1可由12  (a)  单应变换                          (b)SPHP保形 图8  6(a) 进行单应变换后图像(a),以及SPHP保形变换后图像(b),其中灰色框为局部放大效果。  表示为: 8  计  算  机  学  报  2017年 �1=2+ 11      (4) 由于人行道线在水平方向,水平方向消隐点在无穷远处,则线段长度满足线性关系,即参考平面上�1点与12应具有相同的比例关系,由此可得参考平面上�1坐标。而�1,�2垂直与line2,可得参考平面上�2坐标。选择�2line1上任意2点,即可得3对对应点。   结合两个约束,以及交互得到的3对对应点,便可确定图像视角到地平面的单应变换矩阵H。  3.1.2 交互鲁棒性讨论     依据前文所述,由于交通路口监控视频场景纹理信息单一,视角间视差较大,重叠区域较小,特征点匹配方法不可行,对这种情况,可以考虑的一种配准方式就是完全交互,则依据单应性条件,需交互确定四对点方能实现图像视角到参考平面的单应矩阵,在没有任何参考信息的情况下,点的确定会比较困难,且精度误差会比较大。     而本文所采用的场景信息辅助的交互方式,如图7中所示,在以画出的人行道线为参考的条件下,可以方便的找到特定的点(角点、中心点等),从而使得对应点的确定具有较高的精度。整个交互过程,用户只需在已标记直线上选取特定的两点即可,所需确定点的数目也较少,简单易操作,精确度相对完全交互会较高。  3.1.3 SPHP保形 上述已得各方向图像成像平面到地平面的单应变换,若仅依靠单应变换进行图像变换,图像中远离相机的部分将会被剧烈拉伸变形,形状失真严 重,各视角信息损失也较大(如图8(a))。本文采用  (a)仅单应变换                   (b)SPHP 保形 图9两种拼接方法的比较。(a)为仅采用单应变换进行配准拼接,(b)对单应变换结果采用SPHP保形后进行拼接。       (a)原始图像                              (b)帧差法                          (c)高斯混合模型                            (d)ViBe 论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  9 10  帧差法,高斯混合模型以及ViBe算法前景检测结果比较  SPHP的思想修改原单应变换以保持拼接后图像形状和视角信息。 SPHP算法是在不损失拼接精度的情况下,基 于相似变换能够更好保持图像形状的原理提出的一种在目标/参考图像的重叠/非重叠区域从单应变换平滑转换为相似变换的拼接算法。Chang[6]通过约束所有视角图像尽可能经历相似变换来计算单应变换到过渡变换以及过渡变换到相似变换的分界线12,但本文所拼接背景图像视角差距过 大,不适用。我们对每个视角图像单独进行SPHP变换。如图9(b)中直线所示,为使重叠区域依然保持对齐,分界线1设置为各视角与其他视角重叠区域最外侧,而2确定为拼接图像最外侧,使得变换后图像具有尽可能平滑的视觉效果。单个视角进行SPHP保形变换后结果如图8(b)所示。   假设各视角依据上述方法得到的映射关系为 � , =1,2,,�,其中�为视角数目。对视角的背景图像� ,及其变换后图像后�,则有�=�∙ � 。 对各视角变换后图像,进行线性融合即可得到拼接图像(如图9(b)所示)3.2 目标检测 虽然背景图像已知,但是若直接采用简单帧差法进行前景提取,对光照变化敏感,噪声点过多,不利于检测,本文目标检测采用Barnich[7]提出的ViBe背景建模算法提取前景,能够逐帧调整背景模型,从而适应背景的变化,具有较强的抗躁能力。 ViBe前景检测算法的基本思想是通过为每个  图11 车辆遮挡情况跟踪结果   图12  人车遮挡情况跟踪结果  像素存储一个样本集来建立背景模型,然后对当前帧的每个像素,将其与对应样本集进行比较来判断其属于前景还是背景,其中每个像素的样本集为其过去的像素值和其邻域像素值。具体判别规则是若背景模型样本集中与当前像素接近的样本个数超过指定阈值,则判别为背景,否则,为前景。 公式化表示为:记v � 为图像像素点�处的像素值;M = 1,2,,� 为�处的样本集,�为样本集大小;SR () 为以像素值v � 为中心的 半径为�的颜色区域。则当M � 满足 SR () M >#时判断为背景点,#为给定阈值,即背景点满足样本集中与当前帧�点像素值的距离在�内的样本数大于#。 初始化过程中,背景减除的很多流行的算法都需利用相当多的视频帧的数据来估计背景像素的 时域分布,这样对突然的亮度变化就会很敏感。ViBe 算法则是仅利用单帧图像进行背景模型初始化,由于视频单帧不存在时域信息,其依据相邻像素的像素值具有相近时空分布的特性的假设,对每个像素从单帧图像的空间邻域中随机选取像素填充入其背景模型。这对于本文已知背景图像的情况很适用。 10  计  算  机  学  报  2017ViBe算法的更新过程是利用随机的思想,模拟像素变化的不确定性,采用随机子采样方式,随机选择像素样本且随机选择邻域像素进行更新。设采样因子为φ,即若当前点判断为背景点,有1 φ   的概率更新该点模型的样本值,且有1 φ   的概率更新其邻域像素的模型样本集,而样本集中选择要更新的样本,同样是采用随机选取的策略,样本集中每个样本有相同的概率被更新。 程序中取�=20,=20,#=2,φ=16。 由于本文采用背景图像进行初始化,故除噪声外,由初始化过程前景被错误检测为背景而造成的鬼影现象很少。另外,算法实现过程中对于模型更新过程本文直接采用保守的更新策略,使得前景点始终不会被用来填充背景模型,这样静止目标便不会融入背景。   相对于近年来广泛使用的高斯混合模型[15],该 算法对鬼影现象更鲁棒,且噪声少,计算量小,更高效。但由于其依然是像素级的颜色背景模型,对 阴影敏感,为提高目标提取的精确性,本文采用了KadewTraKuPong[36]的阴影检测方法进行阴影消除(如图10(d))。 前景检测获得前景二值图后,便可对其进行区块分割获得每个目标,其中目标采用矩形框表示,目标位置为矩形框下边界的中点。 3.3 跨视角目标跟踪 本文跨视角目标跟踪采用简单的跟踪优先(track-first)的方法[1],类似Black[32]等提出的跟踪算法,我们在每个视角利用Kalman滤波进行目标跟 踪的同时在拼接的统一视域下同步进行Kalman跟踪并进行各视角数据关联和融合。 Kalman滤波中不管是各个视角还是拼接视域的目标状态均是目标在对应图像坐标系中的位置。由于单个视角中相邻两帧中目标形态变化不会很大,因此在各个视角,我们利用其预测的位置信息结合其颜色直方图进行目标匹配。当出现遮挡时,Kalman滤波器可预测目标的位置,当其再次可见时可继续跟踪,另外,当前视角遮挡的目标在其他视角可能是可见的,利用拼接视域目标的同步信息,可以矫正单个视角的跟踪结果,从而提高了跟踪对目标遮挡情况的鲁棒性,图11和图12分别是单个视角中出现车辆遮挡和人车遮挡的情况,图中可见,在遮挡前后目标颜色不变,可见算法对遮挡情况具有一定的鲁棒性。 对于Kalman滤波器,本文设定各个相机视角下状态模型为: S=[x y w h dx dy]� 其中,[x y]为目标在各视角图像坐标系中的位置,实验中设置为其矩形框下边界的中点;wh分别为对应目标矩形边界框的宽度和高度; dx dy 则为目标在图像坐标系中的速度。 转移矩阵为: A=    1 0 0 0 T 00 1 0 0 0 T0 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1     测量矩阵为: H= 1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 0  设定拼接视域下状态模型为: SG=[X Y dX dY]� 其中[X Y]为目标在拼接视域坐标系中的位置;  dX dY 则为目标在拼接视域图像坐标系中的速度。 转移矩阵为: AG= 1 0 T 00 1 0 T0 0 1 00 0 0 1  测量矩阵为: HG= 1 0 0 00 1 0 0  数据关联涉及各视角同一目标的判断,融合即是确定目标在拼接视域下的位置。拼接视域平面与每个视角目标的一致性判断是利用背景拼接所得映射关系,即 � , =1,2,,�,采用轨迹匹配的方式进行决策,具体为: 设Kalman滤波得第i个视角第j个目标跟踪所得目标轨迹表示为:�=  ,=,+1,. 其中�表示目标第t 帧的轨迹点,f 表示目标出现 的第一帧,表示当前帧。拼接视域平面用s表示,即拼接视域平面第k 个目标轨迹表示为:�=  � 。与视角目标匹配的拼接视域目标满足轨迹的最小均方距离足够小(阈值d)。即满足如下公式:  �−� =1   ��−� 2<d� 若存在多个,则取其中距离最近的目标,即 论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  11 =argmin dist(�−�) 其中两目标均存在的帧数,′即为所求匹配目标。这样使得匹配的目标的运动轨迹尽可能一致,相对于仅采用当前位置进行匹配的方法,提高了目标匹配的准确性。 而融合过程目标在拼接视域当前帧的位置的计算则是简单通过其对应的各视角目标位置的均值得到。 这种方法虽然简单易于实现,但依然存在着局限。由于各视角目标的匹配仅采用目标映射到拼接视域下的位置进行判断,虽然进行了保形变换,各视角映射到拼接视域时远离相机的部分形变依然会比较严重,即离摄像机位置越远的位置不确定性越大,因此对目标检测的精确度的依赖就会越大。远离相机处目标检测位置的些许差异可能引起在拼接视域下位置的很大差距,从而会使匹配出错。而远离相机部分目标本身也不明显,检测过程难免出现检测的目标不完整,或者甚至漏检的情况,出现误匹配的可能性便会较大。例如如图13 中最后一行从右向左的目标,即图中第二行图片中远处的绿色目标,由于漏检,后续帧再次出现时已判断为新的目标。可见特别是在远离相机部分,跨视域多目标跟踪的结果对目标检测的精度敏感度较高。 3.4 跨视角多目标跟踪的可视化 跟踪目标的可视化是在各视角视频中以及视域背景拼接所得到的拼接图像上一致性展示各视角目标及其跟踪轨迹。即需在拼接视域和各视角同步进行可视化显示。 拼接视域上目标可视化包括轨迹以及方块表示的目标当前帧所在位置,其中每个目标采用一种颜色标志。而各视角目标可视化包括轨迹和目标检测所得矩形边界框,为实现各目标在各视角的一致性标识,即使得在不同的视角中同一目标采用同一 12  计  算  机  学  报  2017年     (a) 746帧                            (b) 763帧                                (c) 770帧                            (d)  775帧 图13  视频中若干帧目标跟踪及可视化结果,其中第一行至第四行是输入四个视角各帧目标跟踪轨迹,最后一行则是在拼接视域上目标的一致性跟踪轨迹。 种颜色表示,各视角目标采用其对应拼接视域上目标的颜色进行绘制(如图13所示)4 实验结果及分析 本文实验采用Windows 8Visual Studio 2013结合OpenCVOpenGL的软件环境,计算机配置为Intel(R) Core(TM) i5-3470 CPU @ 3.20GHz。各视角初始背景图像可利用手动选取视频帧或者通过背景建模等方式得到。下面为验证算法的有效性,从视域背景拼接、目标检测、跨视角多目标跟踪及其可视化三个部分展示和分析实验结果。 图9为本文视域背景拼接算法进行拼接的结果图像,可以看出本文的算法可以达到比较精确地拼接效果。虽然由于相机镜头畸变,仍然存在着失真(9中人行道),但对于路口整体状况影响不大。另外,图9中对仅采用单应变换的拼接结果以及单应变换结合SPHP进行拼接的结果进行了比较。从图9中可见,采用SPHP变换进行拼接减少了单纯单应变换下的透视失真,能够更好的保持各自视角的信息,从而获得了更大范围的视域信息,便于后续跨视角目标跟踪及可视化。 本文目标检测中采用ViBe进行前景检测。图10中对采用不同的检测算法进行前景检测的结果进行了比较,其中ViBe算法和高斯混合模型均为进行阴影去除后的结果,图中带颜色的框表示静止的目标。可见高斯混合模型存在明显的丢失静止目标现象以及鬼影现象,而且噪点也较多,不利于目 论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  13  (a)1580帧                            (b)1590帧                            (c)1605帧                          (d)1617帧 图  14 目标转弯情况的跟踪结果。  标的提取。由于背景图像已知,帧差法虽然能够正确检测到静止目标,但是由于其背景是单帧静态图像,背景光照的变化使得噪点很多,另外,颜色与背景相近的目标也会丢失,如图10中的行人目标。而由于本文对ViBe算法可以直接采用一帧背景图像进行初始化,可以解决鬼影现象以及静止运动目标的情况,相对高斯混合模型其具有更高的检测准确率(10(d))。 图13和图14为在4个大小为1280*720的不同视角视频进行跨视角多目标跟踪的可视化结果,其中相同颜色代表同一目标。其中图13为目标进行直线运动的跟踪情况,从图中可见实现了两种颜色目标的持续跟踪,而图14即为目标转弯的跟踪结果,记从上之下前四行分别为视角1-4,则可见其中灰色目标在1580帧中仅出现在视角2中,在1590帧时其移出视角2,进入视角4,并在1605帧及1617帧时依然能正确连续跟踪,可见实现了该目标的连续跟踪。实验结果采用CLEAR[37]指标评估跟踪性能,其包括MOTPMOTA两部分,其中MOTP评估目标位置的精确度,MOTA评估目标跟踪的准确度。跟踪中设定距离阈值d=100,位置精度评估利用d�归一化。对前1000帧跟踪结果进行统计后计算得MOTP值约为83.2%MOTA值约为83.9%。可以看出,本文算法能够有效进行跨视角目标的连续跟踪和可视化。 在计算时间方面,视域拼接部分1280*7204个图像映射关系获取需约8.7s,其中单应性计算1.4s4个图像进行变换和融合少于5s。跟踪和可视化部分,为提高检测精度,得到比较好的可视化效果,在目标检测部分耗时较多。实验中为提高程序的实时性,对每帧图像的ViBe算法执行中采用了多个线程进行分块计算的方法来提高计算效率。14  计  算  机  学  报  2017年 平均每帧目标检测部分耗时0.326s,跟踪和可视化耗时0.033s,可见目标检测部分耗时较多。程序中包含目标检测的整个可视化跟踪过程平均性能为2.3fps5 结论 本文针对单个摄像机视角视域有限,不能实现大范围、长时间目标跟踪的问题,设计实现了一种 基于视域拼接的跨视角目标跟踪的可视化方法。其利用图像中的几何信息辅助交互进行单应矩阵的计算,同时利用SPHP算法以保持各视角信息,实现视域背景的拼接;然后采用比较合适的ViBe 前景检测算法结合阴影检测进行目标检测;最后利用Kalman滤波同时在各个视角和拼接视域同步进行多目标跟踪来提高跟踪性能,从而实现了在背景图像上的跨视角多目标跟踪的可视化显示。实验结果表明,本文算法能够有效实现跨视角多目标跟踪的可视化显示,为智能监控提供了有力的工具。但是,本文算法中依然存在着局限和不足,由于视域背景拼接中需采用交通路口场景中的信息进行视域拼接,因此本文算法仅对交通路口监控视频有效;另外关于同一目标的判断和融合,本文仅采用目标在拼接视域下位置判断同一目标,拼接视域下目标也是仅采用方框表示,未来工作中可以利用更复杂的如构造图网络的方式进行目标的匹配和判断,以获得更精确的同一目标匹配效果,并进一步实现大视差目标的融合,从而在拼接视域下得到更真实更直观的可视化效果。 参 考 文 献 [1]  Taj  M,  Cavallaro  A.  Multi-view multi-object detection  and tracking// Computer Vision. Berlin Heidelberg,Germany:Springer, 2010:263-280. [2]    Liu  L,  Xing  J,  Ai  H.  Multi-view  vehicle  detection  and  tracking  in crossroads//  Proceedings  of  the  First  Asian  Conference  on  Pattern Recognition. Beijing, China, 2011:608-612 [3]  Leal-Taixe  L,  Pons-Moll  G,  Rosenhahn  B.  Branch-and-price  global optimization  for  multi-view  multi-target  tracking// Proceedings  of the IEEE  Conference  on  Computer  Vision  and  Pattern  Recognition. Providence, USA, 2012: 1987-1994. [4]  Hofmann  M,  Wolf  D,  Rigoll  G.  Hypergraphs  for joint multi-view reconstruction  and multi-object tracking//  Proceedings  of  the IEEE Conference  on  Computer  Vision  &  Pattern  Recognition. Portland , USA, 2013:3650-3657. [5]  Thingom  C,  Yeon  G.  Multi-view  video  summarization.  IEEE Transactions on Multimedia, 2010, 12(7):717-729. [6]  Chang C  H,  Sato  Y,  Chuang  Y  Y.  Shape-preserving half-projective warps  for image stitching//  Proceedings  of  the IEEE  Conference  on Computer  Vision  and  Pattern  Recognition.  Columbus,  USA, 2014:3254-3261. [7]  Olivier  B,  Marc  V  D.  ViBe: A  universal  background  subtraction algorithm  for  video  sequences.  IEEE  Transactions  on  Image Processing ,2011, 20(6):1709-1724. [8]  Kalman R E. A new approach to linear filtering and prediction problem. Journal of Basic Engineering, 1960, 82(1):35-45. [9]  Zhang  Z.  A  flexible  new  technique  for  camera  calibration.  IEEE Transactions  on  Pattern  Analysis  & Machine  Intelligence,  2000, 22(11):1330-1334. [10]  Jiang Ming-Xin, Wang Hong-Yu, Liu Xiao-Kai. A multi-target tracking algorithm based  on multiple cameras.  Acta  Automatica  Sinica,  2012, 38(4)531-539. (姜明新,  王洪玉,  刘晓凯.  基于多相机的多目标跟踪算法.  自动化学报, 2012, 38(4): 531-539.)   [11]  Sobral  A,  Vacavant  A.  A  comprehensive  review  of  background subtraction  algorithms  evaluated  with  synthetic  and  real  videos. Computer Vision & Image Understanding, 2014, 122(5):4-21. [12]  Brutzer  S,  Hoferlin  B,  Heidemann  G.  Evaluation  of  background subtraction techniques for video surveillance// Proceedings of the IEEE Conference  on  Computer  Vision  and  Pattern  Recognition.  Colorado Springs, USA, 2011:1937-1944. [13]  Szwoch  G,  Ellwart  D,  Czyżewski  A.  Parallel  implementation  of background subtraction algorithms for real-time video processing on a supercomputer platform. Journal of Real-Time Image Processing, 2016, 11(1):111-125. [14]  Friedman  N,  Russell  S.  Image segmentation  in video  sequences:  A Probabilistic Approach //  Proceedings of the Thirteenth conference on Uncertainty in artificial intelligence. Providence, USA,1997:175181. [15] Zivkovic Z. Improved adaptive gaussian mixture model for background subtraction//  Proceedings  of  the  17th  International  Conference  on Pattern Recognition, Cambridge, UK, 2004:28-31. [16] Zivkovic  Z,  Heijden  F  V  D.  Efficient  adaptive  density  estimation  per image pixel for the task of background subtraction. Pattern Recognition Letters, 2006, 27(7):773-780. [17]  Yao  J,  Odobez  J  M.  Multi-layer background subtraction based  on color and texture// Proceedings of the IEEE Conference on Computer Vision & Pattern Recognition. Minneapolis, USA, 2007:1-8. [18] Wang H, Suter D. Background subtraction based on a robust consensus method.// Proceedings of the 18th International Conference on Pattern 论文在线出版号  No.34  刘彩虹等:交通路口监控视频跨视域多目标跟踪的可视化  15 Recognition. Hong Kong, China, 2006:223-226. [19]  Wang  H,  Suter  D.  Sacon:  A  consensus  based  model  for  background subtraction.Technology Report: MECSE-15-2005, Monash University, Australia, 2005. [20] Hofmann M, Tiefenbacher P, Rigoll G. Background segmentation with feedback:  The  Pixel-Based  Adaptive  Segmenter//  Proceedings  of the   IEEE  Computer  Society  Conference  on  Computer  Vision  and Pattern Recognition Workshops. Providence, USA, 2012:38-43.   [21]  Kuo  C  H,  Nevatia  R.  Robust  multi-view  car  detection  using unsupervised  sub-categorization//Proceedings  of  the  IEEE  Workshop on Applications of Computer Vision. Snowbird, USA, 2009:1-8. [22]  Wen  X, Shao  L,  Fang  W,  et  al.  Efficient  feature selection  and classification  for vehicle detection.  IEEE  Transactions  on  Circuits  & Systems for Video Technology, 2015, 25(3):508-517.   [23]  Wu  B,  Nevatia  R.  Detection  and  Tracking  of  Multiple,  Partially occluded humans  by bayesian combination  of  edgelet  based part detectors.  International  Journal  of  Computer  Vision,  2007, 75(2):247-266. [24]  Dalal  N,  Triggs  B.  Histograms  of  oriented  gradients  for  muman detection// Proceedings  of  the IEEE  Computer Society  Conference on Computer  Vision  and  Pattern  Recognition.San  Diego,  USA,  2005:886-893. [25] Felzenszwalb  P  F, Girshick  R B, Mcallester  D,  et  al.  Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 32(9):1627-45. [26] Oh S, Russell S, Sastry S. Markov chain monte carlo data association for  multi-target tracking.  IEEE  Transactions  on  Automatic  Control, 2009, 54(3):481-497. [27] Benfold B, Reid I. Stable multi-target tracking in real-time surveillance video// Proceedings  of  the IEEE  Conference  on Computer  Vision and Pattern Recognition. Colorado Springs, USA, 2011:3457-3464. [28]  Okuma  K,  Taleghani  A,  Freitas  N  D,  et  al.  A boosted particle filter: multitarget detection  and  trackings//  Proceedings  of  the  European Conference on Computer Vision. Prague, Czech Republic,2004:28--39. [29]  Vermaak  J,  Doucet  A,  Prez  P.  Maintaining multi-modality  through mixture tracking//  Proceedings  of  the  IEEE  International  Conference on Computer Vision, Nice, France, 2003,2:1110-1116 . [30]  Breitenstein  M  D,  Reichlin  F,  Leibe  B,  et  al.  Online multiperson tracking-by-detection  from  a  single,  Uncalibrated  Camera.  IEEE Transactions  on  Pattern  Analysis  & Machine  Intelligence,  2011, 33(9):1820-1833. [31]  Henriques  J  F,  Caseiro  R,  Batista  J.  Globally  optimal  solution  to multi-object  tracking  with  merged  measurements// Proceedings  of  the IEEE International Conference on Computer Vision. Barcelona, Spain, 2011:2470-2477. [32]  Black J, Ellis T, Rosin P. Multi view image surveillance and tracking// Proceedings  of  the  Workshop  on  Motion  and  Video  Computing, Orlando, USA, 2002:169-174.   [33]  Reinhard  E,  Ashikhmin  M,  Gooch  B,  et  al. Color transfer  between images. IEEE Computer Graphics & Applications, 2001, 21(5):34-41. [34] Chen N F, Cai L D. An vanishing points detection algorithm based on clustering.  Chinese  of  Stereology  and  Image  Analysis,  2006, 11(1) :49-52. (陈宁凡,蔡利栋.  一种基于聚类的消隐点自动测量方法.  中国体视学与图像分析,200611(1):. 49-52) [35]  Grompone  v  G  R,  Jakubowicz  J,  Morel  J  M,  et  al.  LSD:  a  fast  line segment detector with a false detection control. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(4):722-732. [36]  Kaewtrakulpong  P,  Bowden  R. An improved adaptive background mixture  model  for  realtime  tracking  with  shadow  detection  // Proceedings  of  the  2nd  European  Workshop  on  Advanced Video-Based Surveillance System. London, UK, 2002:135-144.    [37]  Bernardin  K, Stiefelhagen  R.  Evaluating  multiple  object  tracking performance:  the  CLEAR  MOT  metrics.  Eurasip  Journal  on  Image & Video Processing, 2008, 2008(1): 1-10.   LIU  Cai-Hong, born  in  1992,  postgraduate student,  Her  research  interests  focus  on graphics and visualization. Zhang  Lei,  born  in  1981,  Ph.  D.,  associate  professor.  His research interests focus on computer graphics. Huang  Hua,  born  in  1975,  Ph.  D.,  professor.  His  research interests focus on image and video processing.     Background 16  计  算  机  学  报  2017Because of the limited field of view of a single camera, its impossible  to  meet  the  exact  requirement  for  long  distance object tracking. To solve this problem, we propose an algorithm for  visualization  of  multi-view  multi-object  tracking  based  on view stitching for surveillance videos in crossroad. And we can achieve  the  goal  that  visually  display  the  objects  tracked  in  a common wider field of view  which is stitched by the views of several  camera. This is the first  time  we do something for this research  subject.  And  to  our  knowledge,  there  is  no  such research before. This  research  is  related  to  quite  a  few  research  fields, mainly  includes  image  stitching,  object  detection  and multi-view multi-object tracking. Then we will introduce these three fields one by one. At first, for image stitching, its a popular research topic in recent years. The algorithm is much mature today and the result stitched images is more and more natural with fewer and fewer artifacts.  But  the  proposed  algorithms  are  mainly  based  on feature point detection and matching, its still not applicable in the  case  like  our  research  that  the  parallax  between  images  is too big, even to 90 degrees, the overlapping area is limited and feature information is too little.   Second,  for  object  detection,  the  method  most  commonly used  is  still  background  modeling  and  foreground  detection, such  as  the  Gaussian  mixture  model  and  ViBe  background modeling algorithm and so on. The Gaussian mixture model is still  the  most  popular  algorithm  for  background  subtraction. But there are still other methods that get specific object model by training a lot of sample data. Comparing to the background subtraction,  these  methods  can  get  more  accurate  detection result,  but  there  are  still  limitation  exists.  First,  these  methods usually  need  a  lot  of  data  to  train.  Second,  they  usually  only can  train  models  for  specific  kind  of  object.  They  are  not universal for every kind of object. The last is the multi-view multi-object tracking. It mainly contains two kinds of methods: track-first method and fuse-first method.  Track-first  methods  perform  tracking  in  each  camera and  then  project  and  link  the resulting  information  on  other views. And the fuse-first methods project detection information from  each  view  to  a  common  view  and  apply  tracking.  In recently  years,  the  research  has  focused  on  the tracking-by-detection  principle.  In  other  words,  they  assumed the detection information has obtained and tracking becomes a data  association  problem.  And  recently  they  usually  use  the detection  information  to  construct  a  graph,  and  transform  the problem to be an optimization problem to solve.      

[返回]
上一篇:面向能耗的纯电动汽车两档变速系统参数优化匹配
下一篇:基于群智感知服务的眼动数据众包计算