时序定位的局部-全局视频-文字交互
Abstract
摘要
本文针对文本到视频的时域定位问题,旨在识别与文本查询语义相关的视频时间间隔。我们使用一种新的基于回归的模型来解决这个问题,该模型学习为文本查询中的语义短语提取一组中级特征,这些特征对应于查询中描述的重要语义实体(参与者、对象和动作等),并且从多个层次反映查询的语言特征和视频的视觉特征之间的双模态交互。
该方法在双模态交互中,利用从局部到全局的上下文信息,有效的预测了目标时间间隔。通过深度的消融研究,我们发现,在视频和文本交互中结合局部和全局上下文对准确的定位至关重要。我们的实验表明,该方法在xx数据集上的性能远远优于目前的技术水平,在Recall@tIoU=0.5米处,分别为7.44%和4.61%
Introduction
介绍
研究背景
随着网络上的视频数量爆炸性增长,对视频内容的理解并且分析视频(内容分类及探究)变得日益重要。此外,随着基于大规模数据集上深度学习取得的最新进展,对于视频内容理解的研究也开始朝向多模态问题发展(视频问答、视频字幕),包括文字、语言和声音。
解决的问题
本文解决了文字到视频的时域定位问题,旨在定位视频中与文本查询中表达式对应的的时间间隔。
我们的主要想法是从文本查询中提取多个语义短语,并使用语言学与视觉特征的局部与全局交互将他们与视频对齐。我们将语义短语定义为可能描述了一个语义实体的单词序列,如演员、物体、动作、地点等等。
图表1a)展示了一个时域定位的例子:包含多个语义的文本查询对应于演员(一个女人)和动作(混合了所有的原料,将它放在一个平底锅,将它放进烤箱)。这个例子表明了,一个文本查询可以通过从查询中识别相关的语义短语并适当的将它们与对应的视频片段对齐,来有效的定位到视频上。
a)一个例子,目标时间间隔包含了多个与文本查询中语义短语相关的部分
b) scan-and-localize框架,通过将独立建议和查询中的整个语义进行比较,来定位目标时间间隔(现有方法)
c)我们的方法,使用视频片段和查询中识别的语义短语间的三个层次上的双模态交互,来回归目标时间间隔
现有方法的问题
然而,在时域定位的问题上,从未探索过如何利用文本查询中的这种语义短语。
1
大多数现有的方法[1,4,5,8,9,20,32,37]通常 scan-and-localize框架中解决这个问题,简而言之,将查询与所有时间间隔的候选建议进行对比,并选择最高匹配,如图表一b)。在匹配中,他们依靠查询的独立全局特征而不是短语级别的细粒度特征,因此丢失了本地化中的重要细节。
2
最近的研究[35]将该任务定义为通过回归的注意力定位,并试图通过注意力方案从查询中提取语义特征。然而,没有全面理解语境的情况下,这种方法仍局限于识别最具辨识性的语义短语。
我们提出的方法
我们提出如图一所示新颖的基于回归的方法来解决时域定位问题,执行局部-全局的视频-文字交互,对语义短语和视频片段进行深入的关系建模。
与现有的方法相反,我们首先使用序列查询注意力,提取语言学特征查询中的语义短语。
接着我们执行三个层次的视频-文本交互,来有效的将语义短语特征和片段级视觉特征进行匹配:
1)视频片段和语义短语特征进行片段级融合,突出与每个语义短语相关的片段
2)局部上下文建模,这有助于将短语与可变长度的时间区域对齐
3)全局上下文建模,捕捉短语间的连接
最后我们使用时间注意力池化来聚合融合的片段级特征,并使用聚合特征回归时间间隔
主要贡献
我们我们引入了一个顺序查询注意模块,从文本查询中提取多个不同的语义短语表示,用于后续的视频-文本交互
我们提出了一种有效的局部-全局视频-文本交互算法,在多个层次上对视频片段和语义短语之间的关系进行建模,从而通过回归增强最终定位。
我们进行了大量的实验来验证我们的方法的有效性,并表明它在这两方面都比目前的技术水平要好很多,charadessta和ActivityNet标题数据集。
相关工作
2.1 时序行为检测
最近的时间动作检测方法通常依赖于图像领域的最先进的目标检测和分割技术,可以分为以下三组:
首先,一些方法使用帧-级密集预测,根据置信值对帧进行修建并对相邻帧进行分组,来确定时间间隔。
其次,基于建议的技术[27,31,36,38]提取所有的动作提议并细化其边界以进行动作检测
第三,存在一些基于单次检测(如SSD[21])的快速推断方法[18,34]。
与仅限于定位单个动作实例的动作检测任务不同,文本对视频的时间基础需要定位更复杂的间隔,根据句子查询中的描述,这将涉及两个以上的动作。
2.2 Text-to-Video时域定位
从用于text-to-video时域定位的两个数据集DiDeMo Charades-STA发布以来,各种算法[1,8,9,20,37)中已经使用了scan-and-localize框架,基于滑动窗口扫描整个视频获得候选片段,并最终选择与输入文本查询最匹配的剪辑。
方法一
由于滑动窗口方案耗时且常常包含冗余的候选剪辑,因此提出了更有效、更高效的方法[4,5,32]作为替代方案:
提出了一种基于lstm的单流网络[4]来进行帧对字的交互,并提出了基于视频片段生成的方法[5,32]来减少冗余候选剪辑的数量。
尽管这些方法成功的提高了处理时间,他们仍需要观察整个视频,因此,引入了增强学习来观察一部分帧或几个剪辑
方法二
另一方面,无提议算法[10,25,35]也被提出。受最近在基于文本的机器理解方面的进展启发,Ghosh等人[10]提出直接识别与起始和结束位置对应的视频段索引,Opazo等人[25]通过采用查询引导的动态过滤器改进了该方法。Yuan等人[35]提出了一种基于共同注意的位置回归算法,该算法学习注意在ground-truth时间间隔内聚焦于视频片段