ECCV 的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议),与计算机视觉模式识别会议(CVPR)和国际计算机视觉大会(ICCV)并称计算机视觉领域的三大顶级会议,每两年召开一次。每次会议在全球范围录用论文700篇左右,主要的录用论文都来自美国、欧洲等顶尖实验室及研究所,中国大陆的论文数量一般在数量200篇之间。
此次,上海交通大学、维塑科技、剑桥大学、谷歌,作为ECCV2018企业联合投稿人,其论文所涉及的研究方法在国际多目标跟踪评测平台上(MOT Challenge benchmark),取得了在线跟踪综合排名(Average Rank)第一的成绩,所投稿的论文被欧洲计算机视觉大会(ECCV2018)录用。
此次论文研究的是视频中的在线多目标跟踪,主要针对视频中的行人目标。在线多目标跟踪有很多应用,比如安防监控、无人驾驶、球赛分析等。该任务的挑战在于视频中的目标数量不确定,且频繁交互遮挡,难以对每个目标持续追踪。
在线多目标跟踪可以拆分为目标检测、目标跟踪和数据关联三个模块,工作重点在于提出了一种基于时空关注度机制的神经网络模型,通过改进目标跟踪和数据关联模块,克服遮挡、目标误检和漏检等问题。
跟踪方面,现有的跟踪算法训练模型时,往往正样本很有限,而负样本很多,正负样本的不均衡会降低模型的区分能力,尤其在同类目标互动比较多的场景中易发生跟踪漂移。针对这个问题,论文提出了根据损失函数自适应调整样本权重的跟踪算法,提高了跟踪模型的抗干扰性。
数据关联方面,要求将检测到的目标与历史的跟踪轨迹做匹配。而多目标跟踪场景中由于遮挡等原因,检测框位置经常有明显偏差,造成比对图片时的不对齐问题。另外,历史轨迹中也会包含被遮挡或者发生跟踪漂移的噪声样本。针对该问题,论文提出了基于时空域的关注度机制的匹配神经网络,空域上只关注匹配图片对中对应目标的区域,时域上减少噪声样本对匹配的影响。
多行人跟踪算法就是要在包含多个行人的视频中检测出行人目标,并保持对每个行人的轨迹追踪。该算法在实际场景有广泛的应用,比如无人驾驶、智能视频监控、球类运动分析等。
多行人跟踪的应用场景
多行人跟踪任务的挑战在于视频中行人目标的随时进入和离开以及行人间频繁发生的交互和遮挡。现有的多行人跟踪算法可以分为离线和在线两种。离线跟踪算法以整体视频内容作为输入,分析当前视频帧时可以利用过去和未来帧的全局信息,因此对目标遮挡和短暂丢失等问题的鲁棒性更强。然而其局限性在于无法应用在对实时性有要求的场景中,比如无人驾驶和球赛实况分析。相比之下,在线跟踪算法只利用过去帧信息实时计算当前帧的目标位置,因而应用范围更广,但其持续跟踪的能力往往弱于离线算法。我们的工作一定程度上克服了在线跟踪算法的不足,使其在持续跟踪能力上达到甚至超越离线跟踪算法的性能。
多行人跟踪算法流程图
在线多行人跟踪算法的流程如图2所示。算法首先检测出当前视频帧的行人目标,并对每个目标进行在线跟踪和计算置信度分数。当目标被遮挡时,跟踪的置信度分数会低于一定阈值造成目标丢失,此时需要在后续视频帧中不断将新检测到的目标和已丢失目标的轨迹之间做匹配判断,这样一旦目标重新出现在场景中就可以恢复跟踪。这个匹配过程我们也称之为数据关联。
我们在论文中指出了目前的在线多行人跟踪算法存在以下局限,并分别提出了相应解决方案。
目标搜索区域正负样本不平衡
首先传统跟踪算法中的搜索区域存在正负训练样本不均衡的问题。有效的正、负样本很少(对应图3中的峰值区域),而作用微小的背景负样本却很多。这会在一定程度上降低模型的抗干扰性能,从而造成跟踪对象的漂移。为了解决这个问题,我们提出了如下的融合自适应样本权重项的目标函数,根据在模型训练过程计算得到的损失值重新分配样本权重,从而提升了样本训练的有效性。
其次在数据关联模块中,两种现象容易造成关联匹配的失败。一是检测到的行人位置有偏移或者行人被遮挡,二是所匹配的目标轨迹中含有噪声样本。为此,我们提出如图4所示的基于时空域关注度机制的神经网络匹配模型。在空间域上,模型会自主学习去关注和比对两张图片中相对应区域而忽略非对应区域,在时间域上模型会根据轨迹中的样本一致性主动关注轨迹中的正样本而忽略噪声样本。
基于时空域关注度机制的神经网络匹配模型
为了验证所提出模型的作用,我们可视化了数据关联过程中的比对效果。图5可视化了空间域的关注度区域,其中红色高亮区域为模型比对时重点关注的区域。我们可以看到,虽然比对的行人图片对存在位置偏移、遮挡、目标干扰和尺度不一致等现象,模型依然可以关注到两张图片中相对应的区域而忽略非相关区域。图6可视化了时间域的关注度评分,其中柱状图的高低反映了模型对轨迹中样本的关注度大小。我们可以看到,模型能够准确定位目标轨迹中地噪声样本,从而减少其对匹配结果的干扰。
空间域关注度可视化效果
时间域关注度可视化效果
我们进一步在国际多行人跟踪评测平台(MOT Benchmark)上验证了我们的算法,结果如表1所示。我们提出的方法在多行人在线跟踪算法中取得了第一的综合排名(Average Rank),并在多项反映持续跟踪能力的指标(IDF、IDP、IDR、MT)上达到接近甚至超越离线跟踪算法的水平。
表一 MOT Benchmark上的跑分结果
该工作目前已被欧洲计算机视觉大会ECCV 2018录用。
西安维塑智能科技有限公司是一家专注于人体三维扫描技术商业化服务的高科技公司,团队拥有93项专利,于2016年通过国家高新企业认证,同时与中国国家标准化研究院,国际智能感知与计算研究中心,陕西省体育科学学会,国际著名3D人体研究机构BodyLabs等专业机构保持深度的交流合作。公司自主研发的Visbody人体三维扫描技术,已成功应用于健身、制衣以及医美行业。
在扎根技术领域的道路上,维塑科技始终秉持严谨的自主研发态度、比肩国际一流实验室的自主研发水准,为全行业带来关于Visbody人体三维扫描技术的硕果,让真正的硬科技做到落地快、应用快、发展快。
Comments are closed