paper: https://arxiv.org/pdf/1904.11492.pdf
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
Abstract
NL提出了一种开拓性的方法,通过将查询特定的全局上下文聚合到每个查询位置来捕获长期依赖关系。然而分析发现NL网络建模的全局上下文对于图像中的不同查询位置几乎是相同的。在本文中,我们利用这一发现创建了一个基于查询独立公式的简化网络,它保持了NLNet的准确性,但计算量显著减少。我们进一步观察到,这种简化设计SENet具有相似的结构。因此,我们将它们统一为一个三步通用的全局上下文建模框架。在通用框架中,我们设计了一个更好的实例化,称为全局上下文(GC)块,它是轻量级的,可以有效地建模全局上下文,它的轻量级特性允许我们将其应用于骨干网的多个层次,从而构建一个全局上下文网络。
Motivation
长距离依赖的捕获,旨在提取视觉场景的全局理解,被证明有利于广泛的识别任务,如图像/视频分类,目标检测和分割。在卷积神经网络中,由于卷积层在局部邻域内建立像素关系,其长期依赖关系主要通过卷积层的深度叠加来建模。然而,直接重复卷积层在计算上是低效的,并且难以优化。这将导致远程依赖建模的无效,部分原因是由于在远距离位置之间传递信息的困难。
为了解决这个问题,non-local提出通过自关注机制使用一层来建模远程依赖。对于每个查询位置,非局部网络首先计算查询位置与所有位置之间的成对关系,形成注意图,然后将所有位置的特征与注意图中定义的权值进行加权和聚合。最后将聚合的特性添加到每个查询位置的特性中,形成输出。