Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection
论文:https://arxiv.org/pdf/2108.09917.pdf
代码:https://github.com/HiXray-author/HiXray
摘要
X射线图像中的违禁物品检测在保护公共安全方面经常发挥着重要作用,它经常处理颜色单调和光泽不足的物体,导致性能不尽人意。到目前为止,由于缺乏专门的高质量数据集,触及这一主题的研究还很少。在这项工作中,我们首先提出了一个高质量的X射线(HiXray)安全检查图像数据集,它包含8个类别的102,928个常见违禁物品。这是最大的高质量违禁物品检测数据集,它来自现实世界的机场安检,并由专业的安检人员进行了注释。此外,为了准确检测违禁物品,我们进一步提出了侧向抑制模块(LIM),其灵感来自于人类通过忽略不相关的信息和关注可识别的特征来识别这些物品,特别是当物体相互重叠时。具体来说,LIM是一个精心设计的灵活的附加模块,通过双向传播(BP)模块最大限度地抑制流动的噪声信息,并通过边界激活(BA)模块从四个方向激活最易识别的魅力–边界。我们在HiXray和OPIXray上对我们的方法进行了广泛的评估,结果表明它优于SOTA检测方法。
引言
随着公共运输枢纽的人群密度增加,安全检查在保护公共安全方面变得越来越重要。通常采用X射线扫描仪来扫描行李并生成复杂的X射线图像,在安检场景中发挥着重要作用。然而,安检人员在长时间高度集中的工作后,很难准确检测出违禁物品,这可能会对公众造成严重危害。因此,开发一种快速、准确、自动的检测方法势在必行。
幸运的是,深度学习的创新[27, 28,38, 18, 43, 16],特别是卷积神经网络,使其有可能通过转移到计算机视觉的物体检测任务中来实现这一目标[15, 26, 42, 11]。然而,与传统的检测任务不同,在这种情况下,行李中的物品是随机重叠的,其中大部分区域的物体被遮挡,导致X射线图像中出现严重的噪声。因此,这一特点导致对高质量的数据集和具有满意性能的模型的强烈要求。
关于数据集,据我们所知,目前只有三个已发布的X射线基准,即GDXray[23]、SIXray[25]和OPIXray[40]。GDXray和SIXray都是为分类任务构建的,OPIXray的图像是合成的。此外,这三个数据集中的标记实例的类别和数量都远远不能满足现实世界的应用要求。我们在表1中做了详细的比较。关于模型,传统的基于CNN的模型[41, 7, 29]通过常见的检测数据集进行训练,但在这种情况下未能取得令人满意的性能,因为与具有简单视觉信息的自然图像[5, 33]不同,X射线图像[36, 24, 22]的特点是缺乏强大的识别属性,并含有严重的噪声。这就迫切要求研究人员在数据集和模型方面取得突破。
为了解决上述缺点,在这项工作中,我们贡献了最大的高质量数据集,用于检测X射线图像中的违禁物品,命名为高质量X射线(HiXray)数据集,它包含了8个类别的102,928个普通标记实例,如锂电池、液体等。所有这些图像都是从国际机场的真实世界的日常安全检查中收集的。因此,违禁物品的类别、数量和位置与真实世界场景中的数据分布相一致。此外,每个实例都是由国际机场的专业检查人员手工注释的,保证了注释的准确性。此外,我们的HiXray数据集可以为各种检测任务提供评估,包括小的、被遮挡的物体检测等。
为了准确检测违禁物品,我们提出了侧向抑制模块(LIM),该模块的灵感来自于人类通过忽略不相关的信息和关注可识别的特征来识别这些物品,特别是当物体相互重叠时。LIM由两个核心子模块组成,即双向传播(BP)和边界激活(BA)。BP过滤噪声信息以抑制从邻近区域到对象区域的影响,BA则分别激活边界信息作为识别属性。具体来说,BP通过跨层的双向信息流自适应地消除噪声,BA从每层内部的四个方向捕捉边界,并将它们聚合成一个整体轮廓。
HiXray数据集和LIM模型为社区提供了一个新的、合理的评估benchmark,并有助于在现实世界中做出更广泛的应用。这项工作的主要贡献如下:
- 我们提出了名为HiXray的最大的高质量数据集,用于X射线违禁物品的检测,为社会提供了一个新的、合理的评估基准。我们希望通过贡献这个数据集可以促进这个问题的发展。
- 我们提出了LIM模型,该模型利用侧向抑制机制来提高检测能力,以实现准确的违禁物品检测,其灵感来自于深度神经网络和生物神经网络之间的密切关系。
- 我们在HiXray和OPIXray数据集上评估了LIM,结果表明LIM不仅可以成为SOTA检测方法的通用工具,而且还可以提高它们的性能。
2. 相关工作
X射线图像中的违禁物品检测。X光成像在许多任务中提供了强大的能力,如医学图像分析[9, 4, 21]和安全检查[25, 12]。事实上,获得X射线图像是很困难的,因此,由于缺乏专门的高质量数据集,在计算机视觉中很少有研究触及安全检查。
最近有几项工作[1, 23, 2, 25, 19, 40]致力于构建此类数据集。一个已发布的基准,GDXray[23]包含19,407张灰度图像,其中一部分包含三类违禁物品,包括枪支、飞镖和剃刀。SIXray[25]是一个大规模的X射线数据集,它比GDXray数据集大100倍左右,但阳性样本不到1%,以模拟类似的测试环境,并且标签被注释为分类。最近,[40]提出了OPIXray数据集,包含5类切割机的8,885幅X射线图像。OPIXray数据集的图像是人工合成的。其他相关工作[1, 2, 19]没有提供他们的数据供下载。
物体检测。在计算机视觉领域,物体检测是一项重要任务,它是一些实例级识别任务和许多下游应用的基础。这里我们回顾一下与我们最接近的一些工作。大多数基于CNN的方法可以归纳为两种一般的方法:单阶段检测器和双阶段检测器。最近,由于其更简单的设计和有竞争力的性能,单阶段方法比双阶段方法获得了很多关注。SSD[20]将边界盒的输出空间离散为一组不同长宽比和尺度的默认盒。YOLO[30, 31, 32, 3, 14]是一系列知名方法的集合,它在单阶段检测算法中同时重视实时性和准确性。此外,FCOS[35]提出了一个完全卷积的单阶段物体检测器,以每像素预测的方式解决物体检测,类似于其他密集预测问题。
3. HiXray数据集
如表1所示,现有的数据集并不令人满意,因此不能满足现实世界应用的要求。在这项工作中,我们构建了一个新的高质量的数据集,用于X射线违禁物品检测。然后介绍了所提出的HiXray数据集的构建原理、数据属性和潜在任务。
3.1. 建设原则
我们根据以下五个原则构建HiXray数据集:
真实的来源。考虑到真实的来源可以使数据对研究更有意义,我们从国际机场的日常安全检查中收集HiXray数据集的图像,以确保数据的真实性。
数据隐私。我们严格遵循标准的去隐私程序,删除私人信息(姓名、地点等),确保没有人能够通过图片将行李与主人联系起来,以保证隐私。
广泛的多样性。HiXray包含8类违禁物品,如锂电池、液体、打火机等,这些都是日常生活中经常见到的。
专业的注释。没有经过专业训练的人很难识别X射线图像中的物体。在HiXray中,每个实例都是由机场的专业安检员手动定位的,他们在日常工作中非常熟练地进行box-level注释。
质量控制。我们遵循与著名的Pascal VOC[6]类似的质量控制程序进行注释。所有的检查员都遵循相同的注释指南,包括注释什么,如何注释边界,如何处理遮挡等。此外,每个注释的准确性都由另一位检查员检查,包括检查遗漏的对象,以确保详尽的标记。
3.2. 数据细节
每个类别的实例。HiXray包含45,364张X射线图像,8类102,928种常见违禁物品。统计数据如表2所示。
每个图像的实例。在HiXray数据集中,每个图像平均有2.27个实例。相比之下,SIXray有1.37(在阳性样本中),OPIXray和GDXray平均每个图像有1个实例。显然,每个图像的平均实例数越大,带来的上下文信息就越多,这就越有价值。统计数据如表3所示。
培训与测试分配。数据集被划分为训练集和测试集,其比例约为4 : 1。训练集和测试集的类别分布统计如表2所示。
颜色信息。不同型号的x光机在彩色成像上可能会有一些差异,我们采用一种最经典的彩色成像策略。物体在X射线下的颜色主要是由它们的化学成分决定的,详细介绍见表4。
数据质量。所有图像均以JPG格式存储,平均分辨率为1200900。样品的最大分辨率可以达到20001040。
3.3. 潜在任务
我们的HiXray数据集可以进一步服务于各种检测任务的评估,包括小物体检测、遮挡物体检测等。
小物体检测。安检人员经常努力在行李或手提箱中找到小的违禁物品。在我们的HiXray数据集中,有很多小的违禁物品。根据SPIE对小的定义,小物体的大小通常不超过整个图像大小的0.12%。因此,我们将小对象定义为ground-truth bounding box 占整个图像的比例小于0.1%的对象,而大对象定义为ground-truth bounding box 占整个图像的比例大于0.2%的对象,其余为中等。“便携式充电器2”和“移动电话”的图像可以分别分成三个子集。类别分布如表5所示。
遮挡物体检测。行李或手提箱中的物品经常相互重叠,造成x光违禁物品检测中的遮挡问题。[40]提出了x射线安检中被遮挡违禁物品的检测任务。在类别和数量较多的大规模图像的HiXray数据集中也存在遮挡问题。为了研究物体遮挡级别带来的影响,研究人员可以根据不同的遮挡级别将HiXray数据集分为三个(或更多)子集(如图2所示)。
4.侧向抑制模块
在神经生物学中,侧向抑制禁止动作电位从兴奋的神经元向邻近的神经元横向传播。我们通过设计双向传播架构来模拟这种机制,以自适应地过滤由违禁物品的相邻区域产生的噪音信息。此外,侧向抑制在刺激中产生对比,从而增加感官知觉,因此我们通过从每层内部的四个方向强化边界信息并将其聚集成一个整体形状来激活边界信息。
因此,受同一层的相邻神经元的横向抑制使网络更有效率的机制启发,我们提出了横向抑制模块(LIM)。在本节中,我们将首先在第4.1节中介绍网络结构,然后在第4.3节和第4.2节中分别介绍两个核心子模块,即双向传播(BP)和边界激活(BA)。
4.1. 网络结构
图3说明了我们LIM的结构。它将任意大小的单尺度图像作为输入,并在多个层次上输出按比例调整大小的特征图。与FPN[17]和其他一些品种如PANet[39]类似,这个过程是独立于骨干架构的。
具体来说,假设有N个训练图像X = {x1, ···, xN },骨干网络中有L个卷积层。一个样本x∈X被送入骨干网络并进行前馈计算,骨干网络计算出一个由多个尺度的特征图组成的特征层次,缩放步骤为2。
假设
F
(
⋅
)
\mathcal{F}(\cdot)
F(⋅)是三个连续操作的复合函数:批归一化(BN)[13],然后是整流线性单元(ReLU)[8]和3 × 3卷积(Conv)。
F
l
(
⋅
)
\mathcal{F^l}(\cdot)
Fl(⋅)为网络第
l
l
l层生成的feature map。首先,在BP的左边部分,噪声信息被自适应过滤,因为它们的传播在自上而下的途径中从高层到低层的特征图过程中减少。然后将输出特征图输入BA;BA从四个方向对特征图进行增强,对特征图进行细化以激活边界信息,并输出细化后的特征图。第三,与左侧相似,BP的右边部分通过自下而上的途径减少从低级到高级特征图的噪声信息的传播。最后,将BP右方各层输出的特征图与骨干网对应层输出的特征图相结合。并且组合的特征图被传送到随后的预测层。算法1总结了整个过程(我们在算法1的代码实现中增加了关于加速操作的解释),模块的细节在下面的章节中描述。
4.2.双向传播
为了禁止相邻区域的噪声信息的传播,我们通过设计双向传播架构来模仿这种机制。此外,我们增加了一个密集机制来增强BP选择合适的信息进行传播的能力。
如图3所示,对于BP左侧密集的自上而下路径,从较高的金字塔级别对空间上较粗但语义较强的特征地图进行上采样会产生较高分辨率的特征。这些特征映射由来自卷积层的相应特征映射通过横向连接来增强。每个横向连接合并来自卷积层和自上而下路径的相同空间大小的特征地图。低卷积层的特征图是低层次的语义,但它的激活是更准确的定位,因为它被子采样的次数更少。此外,我们构建了密集的连接以确保最大限度地过滤。
具体来说,为了保持前馈性质,
F
l
(
⋅
)
\mathcal{F^l}(\cdot)
Fl(⋅)从前面各层的特征图
F
l
+
1
(
⋅
)
\mathcal{F^{l+1}}(\cdot)
Fl+1(⋅), ···,
F
L
(
⋅
)
\mathcal{F^L}(\cdot)
FL(⋅)获得额外输入,并将自己的特征图传递给后面各层的特征图
F
l
−
1
(
⋅
)
\mathcal{F^{l-1}}(\cdot)
Fl−1(⋅), ···,
F
1
(
⋅
)
\mathcal{F^1}(\cdot)
F1(⋅)。图3示意性地说明了这种布局。我们将
U
m
(
⋅
)
\mathcal{U}^{m}(\cdot)
Um(⋅)定义为上采样操作(
2
m
2^m
2m次),
V
(
⋅
)
\mathcal{V}(\cdot)
V(⋅)定义为1×1卷积层以减少通道尺寸。该过程表述如下。
A
l
=
V
(
F
l
(
x
)
)
+
∑
m
=
1
L
−
l
U
m
(
A
l
+
m
)
(
1
)
\mathbf{A}^{l}=\mathcal{V}\left(\mathcal{F}^{l}(\mathbf{x})\right)+\sum_{m=1}^{L-l} \mathcal{U}^{m}\left(\mathbf{A}^{l+m}\right) (1)
Al=V(Fl(x))+m=1∑L−lUm(Al+m)(1)
其中,
A
l
A^l
Al是指BP左侧第m层输出的特征图。
关于BP的右边部分,如图3所示,假设输入的特征
B
l
B^l
Bl是指在
E
q
(
4
)
Eq(4)
Eq(4)中边界被激活的特征图(边界激活将在下一节介绍)。与前面的定义类似,
D
m
(
⋅
)
D^m(\cdot)
Dm(⋅)是下采样操作(
2
m
2^m
2m次)。这个过程可以表述如下。
C
t
l
=
V
(
B
l
)
+
∑
m
=
1
l
−
1
D
m
(
C
t
l
−
m
)
(
2
)
\mathbf{C}_{\mathrm{t}}^{l}=\mathcal{V}\left(\mathbf{B}^{l}\right)+\sum_{m=1}^{l-1} \mathcal{D}^{m}\left(\mathbf{C}_{\mathrm{t}}^{l-m}\right) (2)
Ctl=V(Bl)+m=1∑l−1Dm(Ctl−m)(2)
C
l
=
C
t
l
+
F
l
(
x
)
(
3
)
\mathbf{C}^{l}=\mathbf{C}_{\mathrm{t}}^{l}+\mathcal{F}^{l}(\mathbf{x}) (3)
Cl=Ctl+Fl(x)(3)
其中 C t l C^l_t Ctl指的是自下而上路径的第 l l l层的输出, C l C^l Cl指的是BP的第 l l l层产生的特征图。最后,我们将LIM输出的 C l C^l Cl传达给以下预测层。
4.3. 边界激活
为了模仿侧向抑制在刺激中产生对比,使感觉增强的机制,我们通过从每个层输出的特征图内的四个方向强化边界信息,并将它们聚集成一个整体形状,从而激活边界信息。其示意图如图4所示。
如图4所示,捕捉物体边界的关键是确定一个位置是否是一个边界点。在该示意图的启发下,我们设计了边界激活模块来感知边界及其周围环境的突然变化。假设我们想在特征图
A
l
∈
R
H
×
W
×
C
\mathbf{A}^{l} \in \mathbb{R}^{H \times W \times C}
Al∈RH×W×C(双向传播的左边部分的输出)中捕捉物体的左边边界。
A
c
l
A^l_c
Acl捐献了
A
l
A^l
Al的第c个通道。此外,
A
i
j
c
l
A^l_{ijc}
Aijcl指的是特征图
A
c
l
A^l_c
Acl的位置
(
i
,
j
)
(i, j)
(i,j)。为了判断一个位置和点的左边是否有突然的变化,最右边的点
A
i
W
c
l
A^l_{iWc}
AiWcl会向左穿越。感知左边边界的过程可以表述为
E
q
(
4
)
Eq(4)
Eq(4)。
B
i
j
c
l
=
{
A
i
W
c
l
if
j
=
W
max
{
A
i
j
c
l
,
A
i
(
j
+
1
)
c
l
,
…
,
A
i
W
c
l
}
otherwise
(
4
)
\mathbf{B}_{i j c}^{l}=\left\{\begin{array}{cc} \mathbf{A}_{i W c}^{l} & \text { if } j=W \\ \max \left\{\mathbf{A}_{i j c}^{l}, \mathbf{A}_{i(j+1) c}^{l}, \ldots, \mathbf{A}_{i W c}^{l}\right\} & \text { otherwise } \end{array}\right. (4)
Bijcl={AiWclmax{Aijcl,Ai(j+1)cl,…,AiWcl} if j=W otherwise (4)
其中
B
i
j
c
l
B^l_{ijc}
Bijcl指边界激活后特征图
B
l
B^l
Bl的第c个通道的位置
(
i
,
j
)
(i,j)
(i,j)
5.实验
在本节中,我们在HiXray和OPIXray数据集上进行了综合实验,以评估LIM的有效性。据我们所知,HiXray和OPIXray[40]是目前仅有的两个可用于X射线违禁物品检测(RGB)的数据集。
首先,我们通过比较基础和LIM集成的经典或SOTA检测方法(SSD[20],FCOS[35]和YOLOv5[14])来验证LIM的有效性。我们在HiXray和OPIXray数据集上评估所有的基础检测方法和LIM集成方法。第二,我们通过在HiXray数据集上比较两个著名的方法FPN[17]和PANet[39]来评估我们的LIM比其他特征金字塔机制的优越性。第三,我们进行了一个消融研究来彻底评估LIM的每一部分。最后,我们进行了可视化实验来证明性能的提高。
5.1. 实验细节
LIM:LIM是由PyTorch实现的,因为它具有高度的灵活性和强大的自动区分机制。LIM集成模型指的是我们在里面实现这个机制的模型(5.2节)。FPN和PANet都包含与LIM类似的特征金字塔机制,但它们不是插件模型。因此,我们参考了他们发布的代码,重新实现了部署在SSD中的机制(第5.3节)。除非特别说明,我们使用以下的实现细节。
骨干网络: SSD、FCOS和YOLOv5的骨干网络分别是VGG16[34]、ResNet50[10]和CSPNet[37]。对于每个骨干网络,我们修改相应的网络结构以实现LIM机制。
参数:LIM和baselines的所有实验都由SGD优化器进行优化,初始学习率被设置为0.0001。动量和权重的衰减分别设置为0.9和0.0005。训练时,批次大小被设置为32,采用shuffle策略。我们评估物体检测的平均精度(mAP),以公平地衡量所有模型的性能。此外,衡量predicted bounding box对ground-truth的准确性的IOU阈值被设置为0.5。
5.2. 与SOTA检测方法的比较
我们通过在几种检测方法中实施这一机制来验证LIM的有效性,包括传统的SSD,最新的FCOS和YOLOv5。我们将LIM整合到这三种检测方法中,并将整合后的LIM方法与原始baselines进行比较。此外,我们将安全检测的最新检测方法DOAM(在OPIXray数据集的工作中)整合到上述三种检测方法中,并将结果与我们的LIM进行比较。在HiXray数据集和OPIXray数据集上的实验结果见表6。
表6显示,在HiXray数据集中,LIM集成的网络比原始基础模型SSD、FCOS和YOLOv5的平均性能分别提高了1.7%、1.6%和1.5%。此外,LIM在基础模型SSD、FCOS和YOLOv5的表现上分别比DOAM高出1%、1.1%和1%。在OPIXray数据集中,LIM集成的网络比原始模型SSD、FCOS和YOLOv5的平均性能分别提高了3.7%、1.1%和2.8%。此外,LIM在基础模型SSD、FCOS和YOLOv5上的表现分别比DOAM高出0.6%、0.7%和2.6%。
请注意,在表6中的所有模型中,有两个类别(CO和NL)的表现特别低,这主要是因为,与其他类别相比,NL和CO的识别难度要大得多。对于NL,它的尺寸非常小,由一小块铁和一个塑料体组成。在X射线下显示的塑料呈现橙色,几乎与背景融为一体。对于CO,主要原因是化妆品的形状有很大差异,如圆形和方形,很容易与其他种类的物品混淆。
5.3. 与特征金字塔机制的比较
LIM可以被看作是另一种具有特定特征增强的新型密集连接机制的特征金字塔方法。因此,我们将LIM与经典的特征金字塔机制FPN和各种PANet在不同的基础模型中进行比较。需要注意的是,在FCOS中存在相同的特征金字塔机制FPN,在YOLOv5中存在多种PANet机制,因此我们在FCOS和YOLOv5中用我们的LIM替换特征金字塔机制,以验证我们的机制在基础模型FCOS和YOLOv5中效果更好(与5.2节相同)。实验结果如表7所示。
LIM在基础SSD模型中比FPN和PANet都提高了1.1%,在基础FCOS模型中比FPN提高了1.1%,在基础YOLOv5模型中比PANet的品种提高了1.5%。此外,我们从表7中观察到,LIM在 “便携式充电器1”(0.7%)、“便携式充电器2”(1.9%)和 “水”(1.1%)等类别上比FPN有明显提高。这三个类别的边界等视觉信息在其X射线图像中更为丰富,证明了边界激活在我们的LIM中的有效性,并验证了具有特定特征增强的新型密集连接机制。
5.4. 消融研究
在本节中,我们进行了几个消融研究,以深入研究我们的方法。我们首先通过在基础模型中实施单方向传播(边界传播的左边部分)来分析密集机制的有效性。然后,我们评估了单独的边界激活的性能,即在特征图中没有边界信息聚合。此外,我们增加了边界激活模块。实验结果如表8所示。
在表8中,我们可以观察到,只有单方向传播的网络性能比基础模型提高了0.7%,验证了我们密集机制的有效性。在应用朝向另一个方向的传播后,性能比基础模型提高了1.2%,比单方向传播提高了0.5%,这证明了我们双向机制的有效性。此外,表8显示,在整合我们的边界激活模块后,性能比基础模型提高了1.7%,比单独的边界传播提高了0.5%,表明边界信息在特征图内聚集的有效性。总之,消融研究已经验证了我们LIM模型各部分的有效性。
5.5. 可视化
在这一节中,我们在图5中直观地展示了识别和定位的准确性,在图6中展示了LIM和传统边界增强方法的有效性。
6. 结论
在本文中,我们研究了X射线安全检查中的违禁物品检测,它在保护公共安全方面发挥着重要作用。然而,由于缺乏专门的公共数据集,这一领域还没有得到广泛研究。为了促进这一领域的研究,我们构建并发布了一个用于违禁物品检测的高质量X射线图像数据集,即HiXray,包括8类102,928个常见的违禁物品。所有的图像都是从现实世界的场景中收集的,并由专业的检查员进行人工标注。此外,我们提出了侧向抑制模块(LIM),以解决在X射线成像过程中,待检测的物品通常与堆叠的物体重叠的问题。受神经生物学中横向抑制机制的启发,LIM消除了嘈杂的邻近区域对感兴趣的物体区域的影响,并通过强化它来激活物品的边界。我们在HiXray和OPIXray数据集上全面评估了LIM,结果表明LIM可以提高SOTA检测方法的性能。我们希望通过贡献这个高质量的数据集和LIM模型,能够促进X光安检中违禁物品检测的快速发展。