Bootstrap

TDSD: Text-Driven Scene-Decoupled Weakly Supervised Video Anomaly Detection

在这里插入图片描述
标题:TDSD:文本驱动的场景解耦弱监督视频异常检测
原文连接:https://openreview.net/pdf?id=TAVtkpjS9P
源码链接(暂无内容,作者说后续会更新):https://github.com/shengyangsun/TDSD
发表:ACM MM

ABSTRACT

视频异常检测因其在公共安全中的重要作用而在近年来受到了工业界和学术界的广泛关注。然而,许多现有的方法忽视了场景对异常检测的影响。这些方法简单地将某些行为或物体的出现标记为异常。实际上,场景上下文在判断异常情况时起着至关重要的作用。例如,在高速公路上奔跑是异常的,而在操场上奔跑则是正常的。因此,理解场景对于有效的异常检测至关重要。在这项工作中,我们旨在通过解耦场景来解决场景依赖性弱监督视频异常检测的挑战。具体来说,我们提出了一种新颖的文本驱动的场景解耦(TDSD)框架,该框架由一个TDSD模块(TDSDM)和细粒度视觉增强(FVA)模块组成。场景解耦模块从场景中提取语义信息,而FVA模块则帮助进行细粒度的视觉增强。我们通过构建两个场景依赖的数据集验证了我们方法的有效性,并且在场景无关数据集上也达到了最先进水平的结果。代码可在 https://github.com/shengyangsun/TDSD 获取。

CCS CONCEPTS

• 计算方法 → 场景异常检测。

KEYWORDS

场景依赖视频异常检测,弱监督学习,文本驱动的场景解耦。

1 INTRODUCTION

视频异常检测(VAD)[1, 17, 23, 24, 31, 42, 56]旨在从给定的视频中区分出异常帧,由于其在公共安全和监控等领域的关键作用而受到了广泛的研究关注。一些先前的方法[15, 18]探索了在全监督环境下训练模型,然而,全监督需要帧级或片段级标注用于训练,这涉及到大量的人工标注成本。相反,有些研究者使用无监督方法[8, 22, 24, 28]来解决这一任务,仅用正常视频训练模型,并在评估过程中将离群点识别为异常。不幸的是,收集所有正常样本是不切实际的,并且因为没有异常样本参与训练,模型在推理时容易产生误报。为了减少数据标注的成本并获得性能优秀的模型,仅使用视频级别标注进行训练的弱监督视频异常检测(WS-VAD)[5, 7, 16, 29, 35, 42, 45, 54, 56]近年来受到了广泛关注。

在异常检测任务中,定义什么是异常至关重要。以往的研究主要集中在单一场景[1, 17, 23, 31]或多场景[24, 42, 56]情境下,其中不同场景中的异常行为是一致的,被称为场景无关异常。然而,在现实世界中,判断一个事件是否异常通常需要考虑它发生的场景上下文,即场景依赖性异常,也称为场景感知异常。如图1(a)所示,自行车行驶在人行道上是异常的,而在道路上行驶则是正常的。通过考虑场景上下文,异常检测系统可以适应不同的环境,提高它们在实际部署中的可扩展性和适用性。因此,近年来有几个关于场景依赖VAD的显著尝试[2, 3, 36, 38]。然而,这些研究是在无监督环境中进行的,性能有限。为了增强VAD的实际应用能力,本文中我们研究了在弱监督设置下的场景依赖异常检测。
在这里插入图片描述

图1:(a) 场景无关异常指的是与发生事件的场景无关的事件。然而,场景依赖性异常需要考虑事件发生的场景。(b) 以往的弱监督方法无法检测场景依赖性异常,但通过注入关于场景的语义信息,我们可以实现对场景依赖性异常的检测。

在这项工作中,我们的重点在于对视频内场景上下文的细致探索,使模型具备检测场景依赖性异常的能力。为了更好地描述视频中的场景信息,我们将场景信息分类为上下文描述和对象描述。具体来说,上下文描述包括一般场景概述,例如学校、宫殿和商店作为一般描述,这是对整体场景的宏观描述。然而,仅仅依靠宏观描述可能难以区分某些相似场景,比如公园场景和房屋前院。确定是否是公园往往需要考虑到长椅和喷泉的存在。因此,在探索场景信息时,我们也同时考虑场景中的对象,例如特定的对象自行车、货车和喷泉。利用场景对象不仅增强了场景的辨识能力,还融入了潜在的异常目标,从而提高了模型的异常检测能力

在实际的VAD任务中,场景通常是复杂的,仅通过视觉特征很难完全捕捉到视频段落的语义含义[4]。近年来,视觉-语言模型的出现,如CLIP [30] 和 ALIGN [12],使得结合视频中的视觉信息与自然语言描述成为可能,从两种模态中获取更丰富的信息。这种融合提供了对场景更全面的理解,从而有助于更准确的异常检测。基于此,我们提出了一种文本驱动的场景解耦(TDSD)框架用于弱监督视频异常检测,该框架基于预训练的CLIP模型利用场景的上下文描述和对象描述,赋予模型检测场景依赖性异常的能力,如图1(b)所示。

我们的贡献总结如下:
• 我们提出了一种新颖的文本驱动的场景解耦框架,以应对弱监督视频异常检测,该框架利用正常和异常视频中场景的上下文和对象语义意义,使模型能够检测场景依赖性异常。据我们所知,这是首次在弱监督设置下解决场景依赖视频异常检测的工作。
• 我们设计了文本驱动的场景解耦模块(TDSDM)和细粒度视觉增强(FVA)模块,分别用于提取场景的语义特征和在细粒度上增强特征。TDSDM由上下文语义注入(CSI)和对象语义注入(OSI)组成,使模型能够学习场景内的语义特征以及场景中的对象语义特征。
• 为了验证我们的方法检测场景依赖性异常的能力,我们将原本为单类分类设置构建的场景依赖异常数据集NWPU Campus [3] 重新组织,以适应弱监督设置。此外,我们将公开的场景无关数据集UCF-Crime和ShanghaiTech合并成一个场景依赖的数据集,进一步验证WS-VAD方法的有效性。另外,我们在两个场景无关数据集上进行了实验,以验证我们设计中独立于场景意识的方面。

2 RELATED WORKS

2.1 Video Anomaly Detection

视频异常检测(VAD)已经获得了显著的研究关注,可以分为三个主要研究方向:全监督[15, 18]、无监督[10, 19, 22, 24, 27, 28, 37, 44, 50, 53]和弱监督VAD [5-7, 16, 29, 35, 39-42, 45, 54, 56]。全监督的VAD [15, 18] 使用帧级标注训练模型,包括异常的精确边界框。这需要大量的劳动来标注数据。为了减轻标注大量样本的负担,无监督方法仅专注于收集正常视频进行模型训练。在推理过程中,它们将偏离正常的样本识别为异常。例如,基于重建的无监督技术[8, 22, 24, 28]使用自动编码器将正常样本编码到潜在空间中,并将重建效果不佳的样本识别为异常。例如,Yu等人[50]提出了一种基于重建的方法,利用目标检测器识别视频中的潜在异常,并专注于目标的时间信息。同时,基于距离的无监督方法[10, 11, 34, 37]使用高斯混合模型或单类SVM建立决策边界,将偏离的数据区分作为异常样本。然而,由于训练集中没有异常样本,模型在检测模糊的正常情况时倾向于产生误报。为了减轻劳动密集型标注的负担,同时在异常数据上训练模型,弱监督视频异常检测(WS-VAD)[7, 29, 35, 42]通过采用多实例学习(MIL)解决了这一挑战。这种方法使用视频级别的标注数据训练模型并取得优异的表现。例如,Lv等人[25]提出了一个无偏多实例学习(UMIL)框架,以解决基于MIL的VAD中的偏差问题,从而减少误报并提高性能。Wu等人[48]提出了一种框架,利用预训练的视觉-语言模型CLIP来解决WS-VAD任务。所有先前的弱监督方法都集中在场景无关异常检测上,而未探索场景依赖性VAD。相比之下,我们的方法不仅关注场景无关异常,还探讨了场景依赖性异常的解决方案

2.2 Scene-dependent Video Anomaly Detection

近年来,随着监控场景复杂性的增加,场景依赖性VAD受到了越来越多的关注。将场景上下文纳入VAD涉及几个关键组件,如提取场景特征、识别场景类型以及建模对象与场景之间的关系。在之前的方法中,通过将整个帧(带或不带标记的对象)输入各种编码器来提取场景特征[2, 3, 36, 38]。场景类型主要是通过无监督聚类算法[2, 36, 38]识别的。此外,时空上下文图[36]、层次化场景常态绑定模型[2]和场景条件变分自编码器[3]被构建来建模对象与场景之间的关系。此外,一些研究使用图来建模场景和对象。Liu等人[20]使用三种模型构建了一个用于视频动作识别的事实因果图。Han等人[9]提出了一种方法,通过将谓词预测任务分解为子任务来提高场景图生成的准确性。相比之下,我们利用预训练的视觉-语言模型来获取场景语义特征和对象语义特征,并将这些语义特征注入时空特征中,成为场景注意力特征。此外,这是首次在弱监督设置下解决场景依赖性VAD的工作

2.3 Vision-language Models

视觉-语言模型已被广泛应用于各种视觉任务。例如,Liu等人[21]提出了一种多粒度渐进推理模型,该模型专注于对象并通过图结构及其多粒度渐进推理机制对齐文本和视觉信息。此外,诸如CLIP [30] 和 ALIGN [12] 这样的预训练视觉-语言模型,在大规模数据集上进行了训练,已经获得了广泛的知识并展示了令人印象深刻的泛化能力。因此,近年来,这些模型通过微调和提示学习[13, 32, 49, 57]等适应技术被广泛部署到下游视觉任务中。在弱监督VAD的背景下,Joo等人[14]利用CLIP视觉编码器以及提出的时序自注意模块来增强特征质量。Wu等人[48]通过在CLIP视觉编码器中加入适应层,并对CLIP文本编码器采用文本提示学习方案来调整CLIP。Zanella等人[51]直接操作CLIP的潜在特征空间以识别正常事件子空间。相比之下,我们的方法利用CLIP强大的零样本能力来获取关于场景的语义信息。通过使用CLIP的文本编码器,我们提取场景的语义特征,然后将其与时空特征整合。这使模型能够检测场景依赖性异常。

3 METHODOLOGY

在这里插入图片描述

图2:提出的框架概述。它包括文本驱动的场景解耦模块(TDSDM)、细粒度视觉增强(FVA)以及全局编码器。图中的雪花图标表示我们在训练过程中冻结了该模块。彩色查看效果最佳。

3.1 Overview of the Proposed Framework

我们在图2中展示了提出的框架。该框架主要包含三个部分:文本驱动的场景解耦模块(TDSDM),包括上下文语义注入(CSI)和对象语义注入(OSI);细粒度视觉增强(FVA);最后一部分是全局编码器,由一个 𝑁 𝑇 𝑁_𝑇 NT层的Transformer和基于MLP的回归器组成。TDSDM用于解耦场景。CSI模块提供场景的一般描述并生成场景的语义特征,而OSI模块提供场景内对象的描述并生成场景中对象的语义特征。FVA模块提供细粒度的视觉增强,涉及使用𝑇帧级别的CLIP特征来增强片段级别的时空特征。增强后的特征最终通过全局编码器进行处理,以聚合视频中的所有片段信息,并预测异常分数。

3.2 Spatiotemporal Features Extraction

时空特征提取旨在为每个包含𝑇连续帧(这里𝑇=16,参考[5, 7, 35, 42, 56])的视频片段提取一个时空特征。具体来说,给定维度为𝑇×𝐻×𝑊×𝐶的第𝑖个视频片段被输入到预先训练并在Kinetics-400数据集上微调过的I3D特征提取器中,提取时空特征 F i I 3 D ∈ R D I F^{I3D}_{i} \in \mathbb{R}^{D_I} FiI3DRDI,其中𝐻、𝑊和𝐶分别是每帧的高度、宽度和通道数,而 D I D_I DI是提取特征的维度。然后,提取的特征通过线性投影层 f I 3 D ( ⋅ ) : R D I → R D f_{I3D}(\cdot): \mathbb{R}^{D_I} \rightarrow \mathbb{R}^D fI3D():RDIRD产生适合后续模块使用的 F i I 3 D ∈ R D F^{I3D}_{i} \in \mathbb{R}^D FiI3DRD。根据[5, 7, 35, 42, 56],我们在训练阶段通过对时间轴进行平均池化将每个视频分割成32个片段。

3.3 Text-Driven Scene-Decoupled Module

3.3.1 Context Semantic Injection (CSI)

在这里插入图片描述

CSI模块用于获取场景的一般描述,并将上下文的语义特征与时空特征融合。借助CLIP强大的检测能力,我们使用这个视觉-语言模型对每个视频片段中的不同场景进行零样本检测。首先,从Places365数据集[55]中借用的365个场景类别被输入到CLIP的文本编码器中,生成场景权重矩阵:
在这里插入图片描述

其中 W S ∈ R 365 × D C W^S \in \mathbb{R}^{365 \times D_C} WSR365×DC 表示场景的权重矩阵, E T ( ⋅ ) E_T(\cdot) ET() 表示CLIP的文本编码器,而 scene i \text{scene}_i scenei 表示Places365中的第 i i i个类别,例如学校、购物中心、停车场等。然后,对于每个视频片段,我们将 T T T帧输入到CLIP的视觉编码器中以获得视觉表示:
在这里插入图片描述
其中 F i CLIP ∈ R T × D C F^{\text{CLIP}}_i \in \mathbb{R}^{T \times D_C} FiCLIPRT×DC 是由CLIP产生的第 i i i 个片段的视觉特征, E V ( ⋅ ) E_V(\cdot) EV() 表示CLIP的视觉编码器, I i , j ∈ R C × H × W I_{i,j} \in \mathbb{R}^{C \times H \times W} Ii,jRC×H×W 表示第$i $ 个片段的第 j j j帧。因此,可以通过以下公式计算每帧与场景类别的匹配概率:
在这里插入图片描述

其中 P i Scene ∈ R T × 365 P^{\text{Scene}}_i \in \mathbb{R}^{T \times 365} PiSceneRT×365 表示第 i i i个片段的 T T T 帧的匹配概率, ∥ ⋅ ∥ 2 \| \cdot \|_2 2 l 2 l_2 l2 范数, ⊗ \otimes 代表矩阵乘法操作。我们对 T T T 帧的概率求平均,并选取具有最高 $K$个概率的场景类别作为标签场景:
在这里插入图片描述

其中 Avg ( ⋅ ) : R T × 365 → R 365 \text{Avg}(\cdot): \mathbb{R}^{T \times 365} \rightarrow \mathbb{R}^{365} Avg():RT×365R365 表示平均操作, topK ( ⋅ ) \text{topK}(\cdot) topK() 表示根据最高 K K K 个概率从Places365中选择 K K K 个场景类别。为了获取第 i i i 个片段的语义场景特征,我们将 K K K 个场景类别放入引导语言文本 T S T_S TS =“The video footage could include the following scenes: { s c e n e 1 } , { s c e n e 2 } , . . . , { s c e n e K } . \{scene_1\}, \{scene_2\}, ..., \{scene_K\}. {scene1},{scene2},...,{sceneK}.”,然后将上述文本输入到CLIP的文本编码器 E T ( ⋅ ) E_T(\cdot) ET() 中以提取上下文语义特征 F i Scene ∈ R D F^{\text{Scene}}_i \in \mathbb{R}^D FiSceneRD
在这里插入图片描述

其中 f scene ( ⋅ ) : R D C → R D f_{\text{scene}}(\cdot): \mathbb{R}^{D_C} \rightarrow \mathbb{R}^D fscene():RDCRD 是线性投影层。最后,时空特征 F i I 3 D ∈ R D F^{I3D}_i \in \mathbb{R}^D FiI3DRD 和场景线索特征 F i Scene F^{\text{Scene}}_i FiScene通过融合层产生场景关注特征 F ^ i I 3 D ∈ R D \hat{F}^{I3D}_i \in \mathbb{R}^D F^iI3DRD,该特征通过多头交叉注意力后接前馈网络(FFN)层[43]计算得出:
在这里插入图片描述

其中每个头部的交叉注意力 Cross-Attention ( x , y ) \text{Cross-Attention}(x, y) Cross-Attention(x,y) 计算点积注意力如下:
在这里插入图片描述

其中 W Q , W K , W V ∈ R D × D H W_Q, W_K, W_V \in \mathbb{R}^{D \times D_H} WQ,WK,WVRD×DH是可学习矩阵, D H = D / N H D_H = D / N_H DH=D/NH N H N_H NH 是注意力头的数量。

3.3.2 Object Semantic Injection (OSI)

在这里插入图片描述

OSI模块用于提供场景内对象的描述,并生成场景中对象的语义特征。类似于CSI模块的设计,OSI模块利用CLIP在零样本模式下检测对象。具体来说,我们将从ImageNet-1K [33] 中借用的1,000个对象类别输入到CLIP的文本编码器中,以获得对象权重矩阵:
在这里插入图片描述

其中 W O ∈ R 1000 × D C W_O \in \mathbb{R}^{1000 \times D_C} WOR1000×DC表示对象的权重矩阵。根据公式 (2) 提取细粒度视觉特征后,每帧与对象类别的匹配概率通过以下方式计算:
在这里插入图片描述

类似于公式 (4), K K K 个对象类别按照如下方式获取:
[ [\text{object}_1, \text{object}_2, \ldots, \text{object}_K] = \text{topK}\left( \text{Avg}(P^{\text{Object}}_i) \right), ]
(10)
然后将这些对象类别放入文本 T O T^O TO = The video footage could include the following objects: { object 1 } , { object 2 } , … , { object K } . \{\text{object}_1\}, \{\text{object}_2\}, \ldots, \{\text{object}_K\}. {object1},{object2},,{objectK}. 中,从而为第 i i i 个片段提取对象语义特征 F i Object ∈ R D F^{\text{Object}}_i \in \mathbb{R}^D FiObjectRD
在这里插入图片描述

其中 f object ( ⋅ ) : R D C → R D f_{\text{object}}(\cdot): \mathbb{R}^{D_C} \rightarrow \mathbb{R}^D fobject():RDCRD 是线性投影层。对象特征 F i Object F^{\text{Object}}_i FiObject 和场景关注特征 F ^ i I 3 D \hat{F}^{I3D}_i F^iI3D 通过交叉注意力融合,形成对象关注特征:
在这里插入图片描述

3.4 Fine-grained Visual Augmentation (FVA)

在这里插入图片描述

FVA的目的是通过 T T T帧级别的CLIP特征来增强片段级的时空特征,从而提高特征的视觉表达能力。为此,我们首先通过自注意力机制(Self-Attention)从 F i CLIP F^{\text{CLIP}}_i FiCLIP计算出细粒度特征 F ^ i CLIP \hat{F}^{\text{CLIP}}_i F^iCLIP
在这里插入图片描述

其中 W Q , W K , W V W_Q, W_K, W_V WQ,WK,WV 是可学习矩阵,与公式 (7) 中相同。

最终,我们可以得到由帧级别细粒度特征增强后的时空特征 F ˉ i I 3 D ∈ R D \bar{F}^{I3D}_i \in \mathbb{R}^D FˉiI3DRD,如下所示:
在这里插入图片描述

3.5 Network Training

在弱监督VAD任务中,每个训练视频都用一个二进制标签 y ∈ { 0 , 1 } y \in \{0, 1\} y{0,1} 标注,表示该视频是否为异常视频。当生成一个视频内所有片段的增强特征后,我们使用一个 N T N_T NT-层Transformer来建模所有片段的全局上下文,然后使用回归器来预测异常分数:
在这里插入图片描述

其中 s ∈ R N S s \in \mathbb{R}^{N_S} sRNS 表示一个视频内所有片段的异常分数, Θ ( ⋅ ) : R D → R \Theta(\cdot): \mathbb{R}^D \rightarrow \mathbb{R} Θ():RDR$是由三层多层感知机(MLP)实现的回归器。

遵循先前的工作,我们采用二元交叉熵损失来训练模型,该模型将视频分类为异常或正常类别。具体来说,我们按以下方式平均前 N S N_S NS个异常分数:
在这里插入图片描述

其中 T N S ( s ) T_{N_S}(s) TNS(s) 表示 s s s 中的前 N S N_S NS 个分数集合。然后,MIL损失定义为
在这里插入图片描述

4 EXPERIMENTS

4.1 Datasets and Evaluation Metric

4.1.1 数据集
我们基于公开的数据集进行全面实验,以评估所提出的框架在视频异常检测(VAD)任务上的表现,这些数据集包括ShanghaiTech [19]、UCF-Crime [35]、TAD [26]、XD-Violence (XD) [47] 和 NWPU 校园 [3]。大规模数据集NWPU是唯一考虑场景依赖性异常的数据集。它最初设计用于无监督设置,仅包含正常视频用于训练。为了适应弱监督设置,我们通过选择正常和异常视频来重组数据集,以构建训练集。此外,我们确保测试集中出现的异常也在训练集中出现,这是场景依赖性VAD的基本假设。重组后的数据集包括316个训练视频和231个测试视频。更多细节见补充材料。为进一步验证检测场景依赖性异常的表现,我们将两个与场景无关的数据集UCF-Crime和ShanghaiTech合并为一个数据集(即合并两个训练/测试集),命名为UCF_SHT。由于两个数据集中的异常类型不同,例如,在ShanghaiTech中汽车的出现是一个异常事件,而在UCF-Crime中则是正常的,因此UCF_SHT中的异常是场景依赖性的。所有数据集的统计信息如表1所示。
在这里插入图片描述

4.1.2 评估指标。
对于性能评估,遵循常见做法[3, 5, 7, 19, 35, 42, 48, 56],我们采用帧级别下的ROC曲线下的面积(AUC)作为TAD、NWPU校园和UCF_SHT数据集的评估指标,并使用平均精度(AP)对XD-Violence数据集进行评估。较高的AUC或AP表示更好的性能。

4.2 Implementation Details

提出的方法是在Pytorch中实现的。我们使用预训练的CLIP(ViT-L/14)骨干网络来提取 F i CLIP F^{\text{CLIP}}_i FiCLIP F i Scene F^{\text{Scene}}_i FiScene F i Object F^{\text{Object}}_i FiObject的特征。特征维度 ( D ) 设置为512。公式(4)和(10)中的top-𝐾设置为5。Transformer层数 N T N_T NT在UCF_SHT、TAD和XD-Violence数据集上设置为2,在NWPU数据集上设置为5。公式(16)中的 N S N_S NS 设置为3。我们在一个NVIDIA Tesla V100 GPU上以端到端的方式训练模型,使用SGD优化器进行50个周期的训练,权重衰减设置为0.0005,批量大小为32,学习率在TAD、UCF_SHT和XD-Violence数据集上设置为0.0005,在NWPU数据集上设置为0.005。

4.3 Ablation Studies

为了全面验证所提方法的有效性,我们仔细检查了框架中每个模块的设计,并调查了各种模型变体在两个场景依赖性数据集(即UCF_SHT和NWPU)以及两个与场景无关的数据集(即XD-Violence和TAD)上的表现。

4.3.1 提出模块的有效性
在所提框架中的主要贡献模块是文本驱动的场景解耦模块(TDSDM)和细粒度视觉增强(FVA)。因此,我们首先进行了消融研究,通过排除其中一个或两个模块来探究这两个模块的有效性。当TDSDM和FVA都被移除时,我们仅使用全局编码器来生成异常分数。结果报告在表2中。
在这里插入图片描述

从表中可以看出,单独使用TDSDM或FVA都能提高性能。加入TDSDM后,我们可以观察到在场景依赖性数据集(UCF_SHT和NWPU)上的改进比在场景无关数据集(XD-Violence和TAD)上的改进更为显著,例如在NWPU上从69.73%提升到77.90%,而TAD则从87.63%提升到90.06%。对于FVA模块,结果显示不仅在场景依赖性数据集上而且在场景无关数据集上性能也有所提升。此外,TDSDM与FVA的协同作用显著提升了性能。

4.3.2 TDSDM中设计的有效性。
然后,我们进行了实验以研究TDSDM核心模块中各组成部分的有效性。该模块主要有两个组件:1)上下文语义注入(CSI)和2)对象语义注入(OSI)。上述每个组件的效果都在表3中得到了验证。当移除这两个部分时,框架包含了FVA和一个全局编码器。CSI用于获取场景的一般语义意义。从结果中可以看到,通过考虑上下文语义意义,性能有了显著提升,尤其是在两个场景依赖性数据集上,例如在UCF_SHT上从AUC 80.94%提升到85.61%,在NWPU上从70.01%提升到78.05%。OSI模块主要用于获取场景内对象的语义意义。借助OSI(表中的索引3),四个数据集上的性能都得到了提升,例如TAD上的AUC从88.57%提升到了93.28%。此外,通过使用TDSDM的所有组件,模型在所有数据集上都达到了最佳性能。
在这里插入图片描述

4.3.3 超参数top-𝐾的影响。
为了研究方程(4)和(10)中用于选择top-𝐾场景和top-𝐾对象的变量𝐾的影响,我们进行了实验,将𝐾从1变化到20,并在图3中报告了结果。具体来说,我们选择了𝐾=5,因为模型在这个值下表现最佳。此外,我们观察到不同的𝐾对性能影响不大,例如在TAD上从93.64%到93.90%,这表明模型对𝐾不敏感。
在这里插入图片描述

4.3.4 全局编码器中层数的影响。
我们进一步进行了实验,以研究全局编码器中Transformer层的数量 N T N_T NT的影响,将其从1变化到6,结果见图5。从图中可以看出,将Transformer层数设置为2或5已经足够,因为在UCF_SHT、XD-Violence和TAD上 N T N_T NT设置为2时模型表现最佳,但在NWPU数据集上最佳设置为5。
在这里插入图片描述

4.3.5 不同CLIP骨干网络的影响。
我们的框架采用了预训练的CLIP骨干网络来提取细粒度的视觉和文本特征。因此,我们研究了不同CLIP骨干网络的影响,比如ViT-B/16、ViT-B/32和ViT-L/14,结果见表4。从结果中可以看到,当我们选择ViT-L/14作为骨干网络时,模型获得了最佳性能。此外,结果显示使用ViT-B/16或ViT-B/32相比ViT-L/14可以获得相近的性能。
在这里插入图片描述

4.4 Qualitative Results

4.4.1 预测的异常分数。
我们首先在两个场景依赖数据集(UCF_SHT和NWPU)以及两个与场景无关的数据集(XD-Violence和TAD)的测试集上可视化了所提框架预测的异常分数,其中较高的预测分数表示事件为异常的概率更高,结果如图4所示。
在这里插入图片描述

对于场景依赖数据集的评估,我们提出的方法能够有效检测场景依赖的异常事件。例如,在场景依赖数据集UCF_SHT中,视频01_0139中自行车的出现被视为异常事件,而在视频Normal_Videos_210中的自行车出现则被视为正常事件。类似地,在场景依赖数据集NWPU中,视频D235_07中自行车的出现被视为异常事件,而视频D031_09中的自行车出现则被视为正常事件。从图中的结果可以看出,对于异常视频01_0139和Normal_Videos_210,我们的模型对异常片段产生了较高的预测分数,而对于正常视频则产生较低的预测分数。在同一事件发生在不同场景时,比如上述提到的两个场景中自行车的出现,我们的模型生成了不同的异常分数。这表明我们的模型可以检测到场景依赖的异常事件。

对于与场景无关的数据集(XD-Violence和TAD),我们的模型也能准确预测异常事件,并且为正常事件生成低异常分数。此外,从XD-Violence中的视频Bullet.in.the.Head.1990可以看到,我们的模型能够在视频内检测到不连续的异常事件。

4.4.2 生成的场景文本结果。
在CSI模块中,我们最初使用CLIP进行场景分类,然后生成场景的文本描述以获取其语义特征。因此,我们分析了生成的场景文本,即引导语言文本 T S T_S TS,如图7所示。我们从四个数据集中选择场景:UCF_SHT、NWPU、XD-Violence和TAD,并生成这些场景的文本描述。从生成文本描述的结果来看,场景的描述相当准确。例如,第一张图片描绘的是从UCF-Crime中选择的一个商店场景,第三张图片描绘的是从NWPU数据集中选择的一个校园场景。生成的文本都准确地描述了这些场景。
在这里插入图片描述

4.4.3 生成的对象文本结果。
同样,在OSI模块中,文本描述主要用于利用场景内的对象,增强特征的表现能力。因此,我们定性分析了生成的场景对象文本的精确度,如图8所示。从图表结果可以看出,文本描述能够捕捉到场景中的关键对象。例如,第一个场景中的滑动门和狗,以及其他开放场景中的各种对象,如摩托车、自行车、交通信号灯和飞机等。
在这里插入图片描述

4.4.4 场景语义特征的可视化。
在获得场景的生成文本描述 T S T_S TS后,我们使用CLIP的文本编码器来获取场景的语义特征 F i Scene F^{\text{Scene}}_i FiScene。我们在4.4.2节中调查了生成场景文本的精确度。为了进一步确认获得的场景语义特征的质量(即不同场景在特征空间中是否可区分),我们进行了场景语义特征的可视化。场景依赖数据集NWPU为每个视频提供了场景标签,因此我们分别对NWPU训练集和测试集的场景语义特征进行了可视化。如图6所示,我们可以观察到大多数对应相同场景的点聚集在一起,并且与不同场景的点分开。这表明生成的场景语义特征能够有效地区分不同的场景,从而解决场景依赖的视频异常检测任务
在这里插入图片描述

4.5 Comparison to State-of-the-Art

最后,我们将所提方法与最先进的弱监督VAD方法进行了比较。由于现有的弱监督方法尚未在场景依赖数据集上进行测试,我们使用这些工作的公开代码在两个场景依赖数据集上重新训练和测试了这些方法,尽量保持训练期间原始设置的一致性。鉴于我们的模型训练了50个周期,为了确保公平比较,这些重新训练的模型至少训练了50个周期。性能结果如表5所示。
在这里插入图片描述

从场景依赖数据集上的比较结果来看,我们的方法在这两个数据集上均取得了最佳性能,表明我们的模型能够有效检测场景依赖的异常。此外,与其他最先进的方法相比,我们的模型在两个场景依赖数据集上的性能提升是显著的。例如,与UR-DMU [56]相比,我们的模型在UCF_SHT数据集上的表现从80.53%提高到了85.94%,在NWPU数据集上的表现从70.46%提高到了80.22%。值得注意的是,与同样利用CLIP的VadCLIP [48]相比,我们的模型也显示了显著的改进。例如,在NWPU数据集上,我们的模型相比VadCLIP提高了7.58%的性能。对于与场景无关的数据集XD-Violence和TAD,我们提出的方法也达到了最佳性能。在TAD数据集上,我们的方法比第二好表现的方法UMIL [25]高出约1%的AUC,该方法也使用了CLIP。综合以上结果,我们的方法不仅在场景依赖数据集上有效,而且在与场景无关的数据集上也表现出色。

5 CONCLUSION

在本研究中,我们提出了一种文本驱动的场景解耦(TDSD)框架来解决弱监督视频异常检测(VAD)问题。通过利用CLIP将场景解耦,并分别注入场景对象的语义特征到模型中,我们赋予了模型处理场景依赖性异常的能力。本文也是首次针对场景依赖性的弱监督VAD进行研究的工作。为了更好地评估我们提出的框架,我们将场景依赖的数据集NWPU重新组织以适应弱监督设置。此外,我们将UCF-Crime和ShanghaiTech数据集合并为一个场景依赖的数据集UCF_SHT,以便进行更全面的评估。实验结果表明,我们的方法在两个场景依赖的数据集UCF_SHT和NWPU上相比其他方法取得了显著的改进。此外,在两个与场景无关的数据集XD-Violence和TAD上也达到了最佳性能。

;