一、论文
(19)GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
https://arxiv.org/abs/1904.11492
code:https://github.com/xvjiarui/GCNet.
二、论文笔记
1、背景
(1)、发现原版的non-local 结构针对每个查询位置,有重要联系的区域基本是同一块区域,也就是每个位置的关注位置(attention)几乎都是相同的,所以把这些重要区域的特征加在每个位置之后,网络的准确率几乎没有下降,但是计算量却减少了很多
(2)、单独的non-local结构运算量太大了,单独的SE block全局上下文建模不够有效
2、创新点
(1)、提出一个GC block 是由non-local block 和SE block改装而成
3、细节
(1)、长距离依赖建模主要分为两类:(a)、自注意力机制(non-local relation Relation Networks for Object Detection)
(b)、全局上下文建模(SENet, GENet,PSANet,CBAM)
(2)、原版的non-local的计算公式
(3)、详细分析了non local 怎么发挥作用的,通过可视化attention map以及每个位置的向量之间的距离(每个位置的向量与其他所有位置向量之间的距离的和然后再把每个位置的和取平均)
(4)、提出的GC block
4、实验
(1)、how global context is aggregated to query positions (choice of fusion module) is more important than how features from all positions are grouped together (choice in context modeling module).
add 相比 scale 的提升要比 att 相比 avg的提升更大
(2)、看本文的实验效果确实有提升,另外有人拿这个结构放到RetinaNet中也有不一定的提升
(4)、单独把GC加入到相对靠后的stage的效果要比前面的较好。
(5)、最强效果:ResNeXt-101 + Deformable convolution((c3+c4+c5)+ Cascade strategy(cascade r-cnn) + GC (r4)(c3+c4+c5)
5、疑问
(1)、原来的non -local叠加到原来特征上的c * h * w的这个张量代表着啥?,是否代表着这个位置特征本身的重要性呢?从本论文的可视化结果可以看出,是这样的,那这个结论以及non -local 的具体矩阵相乘操作,是否与non-local论文本身表述的建立每个位置与其他所有位置之间的联系相矛盾呢?
(2)、gc net 中的 最终也是将张量转为了c * 1 *1 与原有特征结合,那么non-local前面的 1 * h * w 建立的长距离依赖关系,如何体现? 这和SENET的区别在哪(前面提到senet的缺点就是建立长距离依赖不够有效)?,论文后面由说到SENET的全局池化是GCNET的一种情况
(3)、有人在github项目中指出 OCNet和DANet两篇论文中的结论是attention map在不同位置是不一样的,与本论文的观点相反,还值得继续跟踪,吃瓜观望。