Bootstrap

[ICCV 2021] Pyramid Spatial-Temporal Aggregation for Video-based Person Re-identification

1论文动机

行人重识别技术的目的是实现跨摄像头的行人快速检索。因为在现实场景中的广泛应用,它已经成为计算机视觉领域的一个热门方向。虽然基于图像的行人重识别方法已取得了一些令人瞩目的进展。但是在实际应用中图像数据容易出现遮挡或者错误检测等问题,因而严重影响了行人重识别的精度。相比图像数据,视频数据包含更为丰富的时空信息,因而能避免图像数据的一些弊端,从而提取出更加有效的行人特征。为了获取视频中对应的行人特征,过去提出的一些方法比较倾向于直接利用3D卷积[1]或循环神经网络[2]进行时空信息建模。但是受采样环境的影响,视频中不可避免地会出现干扰信息,例如缺失行人、物体遮挡、错误检测等。这些干扰信息的存在给时空建模带来了巨大困难,如图1所示。为此,本文针对性地提出了金字塔型时空特征融合模型(PSTA),在进行时空建模的同时能削弱干扰信息对特征表示的影响,从而提升行人重识别的精确度和鲁棒性。

图1.聚合视频特征的方式

2论文题目

[ICCV 2021] Pyramid Spatial-Temporal Aggregation for Video-based Person Re-identification

王英权(江苏大学),张平平(大连理工大学),高尚(大连理工大学),耿霞(江苏大学),陆虎(江苏大学),王栋(大连理工大学)

论文链接:

ICCV 2021 Open Access Repository

代码开源:

https://github.com/WangYQ9/VideoReID_PSTA

 

3创新点

本文提出了一种针对视频行人重识别特征融合的新范式。模型的设计灵感主要来自于以下两个判断:

    悦读

    道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

    ;