1论文动机
行人重识别技术的目的是实现跨摄像头的行人快速检索。因为在现实场景中的广泛应用,它已经成为计算机视觉领域的一个热门方向。虽然基于图像的行人重识别方法已取得了一些令人瞩目的进展。但是在实际应用中图像数据容易出现遮挡或者错误检测等问题,因而严重影响了行人重识别的精度。相比图像数据,视频数据包含更为丰富的时空信息,因而能避免图像数据的一些弊端,从而提取出更加有效的行人特征。为了获取视频中对应的行人特征,过去提出的一些方法比较倾向于直接利用3D卷积[1]或循环神经网络[2]进行时空信息建模。但是受采样环境的影响,视频中不可避免地会出现干扰信息,例如缺失行人、物体遮挡、错误检测等。这些干扰信息的存在给时空建模带来了巨大困难,如图1所示。为此,本文针对性地提出了金字塔型时空特征融合模型(PSTA),在进行时空建模的同时能削弱干扰信息对特征表示的影响,从而提升行人重识别的精确度和鲁棒性。
图1.聚合视频特征的方式
2论文题目
[ICCV 2021] Pyramid Spatial-Temporal Aggregation for Video-based Person Re-identification
王英权(江苏大学),张平平(大连理工大学),高尚(大连理工大学),耿霞(江苏大学),陆虎(江苏大学),王栋(大连理工大学)
论文链接:
ICCV 2021 Open Access Repository
代码开源:
https://github.com/WangYQ9/VideoReID_PSTA
3创新点
本文提出了一种针对视频行人重识别特征融合的新范式。模型的设计灵感主要来自于以下两个判断: