Bootstrap

RFB Net | 用于准确和快速目标检测的感受野块网络

本人小白,写博客是为了记录学习笔记,也为了和各位大佬交流,如果文中出现错误,希望各位指正,本人不胜感激!

论文题目:Receptive Field Block Net for Accurate and Fast Object Detection

论文链接:https://arxiv.org/abs/1711.07767

摘要:

RFB Net能够在保持实时速度的同时达到高级非常深的检测器的性能。

网络贡献:

  • 模拟人类视觉系统中RF的大小和偏心率的配置,旨在增强轻量级CNN网络的深度特征;
  • 基于RFB Net的检测器,并且通过简单地用RFB替换SSD [22]的顶部卷积层,它显示出显着的性能增益,同时仍然保持计算成本在控制之下;
  • 表明RFB Net在Pascal VOC和MS COCO上实现了最先进的结果,并通过将其连接到MobileNet上展示了RFB的泛化能力;

网络结构比较:

  •  Inception块:采用具有不同内核大小的多个分支来捕获多尺度信息。然而,所有的核在同一个中心采样,这需要更大的核来达到相同的采样覆盖率,从而丢失了一些关键的细节;
  • ASPP:扩张卷积改变了与中心的采样距离,但是特征具有与相同内核大小的先前卷积层相同的分辨率,这等同地对待所有位置处的线索,可能导致对象和上下文之间的混淆;
  • 可变形CNN :学习单个对象的不同分辨率,不幸的是,它与ASPP具有相同的缺点;
  • RFB:突出了菊花形配置中RF大小和偏心率之间的关系,其中较小的内核将较大的权重分配给靠近中心的位置,声称它们比更远的位置更重要;

网络结构图:

在RFB中使用单个结构设置来模拟偏心的影响,但是由于pRF的大小和偏心率的比率在视觉图之间不同,因此我们相应地调整RFB的参数以形成RFB-s模块,其模拟浅人类视网膜定位图中的较小pRF,并将其置于conv 4_3特征之后。

;