Bootstrap

VFPT: Visual Fourier Prompt Tuning

文章汇总

当前的问题

部分调优和额外模块面临阻碍其应用的几个限制。①性能不理想:在全调优情况下,一般无法达到有竞争力的性能[4,26,27,28,33,10];②面向模型的设计:大多数研究需要在调优期间插入特定的架构/块设计[31,30,32],在考虑不同的主干时,使它们成为非通用的解决方案。

动机

快速傅里叶变换(FFT)[18,19,20]以其将信号从原始域(例如时间或空间)转换为频域(反之亦然)的能力而闻名,是提供频域信息见解的理想工具。通过利用FFT的功能,视觉提示可以在微调期间自然地集成空间和频域信息,从而使冻结视觉模型能够在不同差异的数据集上实现一致和稳健的性能

解决办法

通过二维FFT将部分提示从空间域转换到频域,以同时考虑空间域和频域信息。

对于第 i i i层编码器中每个可学习的视觉提示 P i ∈ P = { P 1 , P 2 , … , P N } P^i\in\text{P}=\{P^1,P^2,\ldots,P^N\} PiP={P1,P2,,PN},我们有 P i = { P 1 , P 2 , … , P N } P^i=\{P^1,P^2,\ldots,P^N\} Pi={P1,P2,,PN}。我们在每一层选择 m m m个部分提示作为视觉傅里叶提示(me:仅对前 m m m个提示进行傅里叶变换),其中 0 ≤ m ≤ M 0\le m\le M 0mM进一步, α = m / M \alpha=m/M α=m/M表示傅里叶参与的分数,其中 0 0 0表示所有提示都是原始的视觉提示, 1 1 1表示所有提示都是在FFT之后给出的。我们针对序列(即 F s e q \mathcal{F}_{seq} Fseq)和隐藏维度(即 F h \mathcal{F}_{h} Fh)对 α \alpha α视觉提示嵌入输入应用2D FFT

为了保持预训练结构的一致性,我们只改变提示嵌入,从而只从输出中保留真实的组件。这种设计不需要任何调整,以适应复杂的数字在自关注模块,确保模型剩余的元素保持不变。因此,第 i i i层编码器的整体集成提示符 P ^ i \hat P^i P^i由视觉傅里叶提示符与视觉提示符拼接而成:

摘要

随着基于transformer的视觉模型的规模不断增长,为新任务调整这些大规模预训练模型已经变得越来越参数密集。针对这一趋势,提出了一种参数有效微调(PEFT)方法——视觉提示调谐。尽管取得了成功,但在几乎所有PEFT方法中都存在一个显著的研究挑战:当预训练和微调阶段使用的数据集之间存在实质性差异时,会观察到显著的性能下降。为了解决这一挑战,我们从人类视觉认知中汲取灵感,并提出了视觉傅立叶提示调谐(visual Fourier Prompt Tuning, VFPT)方法,作为适应大规模transformer模型的有效和高效的解决方案。我们的方法创新地将快速傅里叶变换集成到提示嵌入中,无缝地集成了空间和频域信息。除了其固有的简单性和直观性外,VFPT在各种任务中表现出卓越的性能,为解决数据差异挑战提供了通用解决方案。实证结果表明,我们的方法在两个基准上优于几个最先进的基线,参数使用率低(例如,VTAB-1k上模型参数的0.57%),性能显著增强(例如,VTAB-1k上平均精度的73.20%)。我们的代码可在https://github.com/runtsang/VFPT上获得。

1 介绍

“傅里叶定理不仅是现代分析中最美丽的结果之一,而且可以说是处理现代物理学中几乎所有深奥问题的不可或缺的工具。”

− Lord William Thomson Kelvin [1]

在自然语言处理(NLP)中,提示调优[2,3]最初是为了对大型基础模型进行参数高效适应而引入的。随着视觉模型不断扩展以增强性能,视觉提示调谐[4]已应用于各种视觉领域(例如,图像分类[5],分割[6,7],检测[8]),与其他参数高效微调(PEFT)方法相比,显示出更优越的性能和更低的参数使用。然而,研究界的一个共同挑战仍然没有得到解决:当预训练和微调中使用的数据存在实质性差异时,会出现显著的性能下降[9,10]。这个问题阻碍了视觉提示调优的更广泛应用。因此,一个自然的问题出现了:①提示调优是否可以跨不同差异的数据集进行推广?

由于研究人员通常从人类身上获取见解,并在智能机器中复制这些原理[11,12,13,14],我们考虑从人类视觉认知的角度来回答这个问题。虽然人类通过过去的经验/知识来理解世界,但有必要将这种理解推广并有效地适应新的任务。因此,人类视觉认知的强大和快速适应性源于各种领域分析,从不同的渠道和角度捕捉新的模式[15,16,17]。有趣的是,我们发现视觉提示调整的范式在概念上类似于人类的视觉认知。冻结的大尺度视觉模型作为积累的知识,快速适应机制类似于视觉提示调谐,需要结合不同的信息领域(如时间、频率)来实现全面的理解[18,19,20]。

快速傅里叶变换(FFT)[18,19,20]以其将信号从原始域(例如时间或空间)转换为频域(反之亦然)的能力而闻名,是提供频域信息见解的理想工具。通过利用FFT的功能,视觉提示可以在微调期间自然地集成空间和频域信息,从而使冻结视觉模型能够在不同差异的数据集上实现一致和稳健的性能。因此,我们的研究问题演变为:②如何将FFT集成到视觉提示调谐中以模拟人类的视觉机制?为此,我们采用了一种简单而有效的策略,即利用傅里叶运算来促进视觉提示调谐(见图1©)。通过将频域信息集成到可学习的提示嵌入中,我们的方法优雅地吸收了空间和频域的数据,模拟了人类的视觉认知。

❶ 简单。我们将这种方法命名为视觉傅立叶提示调谐(Visual Fourier Prompt Tuning,简称VFPT),它具有几个引人注目的优势:FFT在即时调谐中的直观应用模拟了人类视觉系统的快速处理能力,使FFT既优雅又易于实现(见§2.1)。

❷普遍性。通过合并频域信息,提示的潜在嵌入的搜索空间自然得到扩展,从而在不同数据集和具有不同数据差异的任务中实现性能的高级增强(参见§4.2)。通过对优化过程的分析,我们的模型的通用性得到了进一步的说明,优化过程可以更平滑地导航到局部最小值,增加它们周围的平坦度,并表现出明显的凸性。

❸可解释性。为了直观地展示傅立叶分量的优势,我们直观地说明了在视觉提示调谐中引入傅立叶变换会显著提高Transformer输入空间内的注意力集中分数,这与性能的增强呈正相关(参见§4.4)。这一观察结果反过来解释了我们方法的有效性。

通过综合实验对该系统的性能进行了评价。在§2中,我们进行了文献综述并讨论了相关作品。我们的方法在§3中介绍,在那里我们描述了如何简单而有效地将FFT集成到视觉提示调谐中。在§4.2中,我们在各种基准、主干和不同的预训练目标上提出了令人信服的实验结果,在没有复杂工程设计的情况下实现了卓越的性能。具体来说,我们的方法在VTAB-1k上的准确率比完全调优平均提高了7.63%,比VPT[4]平均提高了3.77%。在§4.4中,我们证明FFT提示显着增强了冻结视觉模型的激活。此外,我们研究了提示调谐方法的优化过程,表明VFPT提供了更有利的优化过程。最后,我们展示了我们的方法在语言领域的强大算法泛化,并在附录中展示了额外的可视化解释。我们相信这项工作提供了有价值的见解。

2 相关工作

2.1 视觉参数高效微调

随着视觉模型规模的显著增长,特别是随着vision transformer的出现[21,22,23,24,25],“pretrain-thenfinetune”范式下PEFT方法的发展变得越来越重要。目前该范式下的方法大致可分为部分调优[26,27,28]、额外模块(即包括低秩自适应(LoRA)[29]等重参数化方法[30,31,32,33,34,10,35,36]和提示调优[4,37,38,39,40,41]。部分调优和额外模块面临阻碍其应用的几个限制。①性能不理想:在全调优情况下,一般无法达到有竞争力的性能[4,26,27,28,33,10];②面向模型的设计:大多数研究需要在调优期间插入特定的架构/块设计[31,30,32],在考虑不同的主干时,使它们成为非通用的解决方案。相比之下,最初为语言域提出的提示调优[2][42,43,44,45]在视觉上提供了一种通用且直接的解决方案,具有强大的性能提升。它标志着PEFT在计算机视觉领域的新范式。

通常,提示调优会向骨干模型的输入序列引入一组可学习的参数,在调优期间只更新这些参数。尽管它看起来很简单,但视觉提示调优范例已经证明了显著的性能增强。当前的视觉提示调优的发展主要集中在工程优化上,如减少参数使用[5]和扩大在不同任务中的适用性[39,46,47,48]。这些方法通常涉及在基础设计中引入额外的约束和功能,这偏离了简单和优雅的原则,偏离了视觉提示调优的原始概念。与此形成鲜明对比的是,我们的方法从人类视觉智能的角度探索视觉提示调谐,同时努力保持提示调谐的简单性。同样需要强调的是,视觉提示调优与视觉指令调优[49]明显不同(即,旨在提高模型的指令跟随能力)。

2.2 视觉中的快速傅里叶变换

FFT是一种强大的数学算法,用于计算离散傅立叶变换(DFT)及其逆[50,51]。它在信息处理中至关重要,允许对各种信号(例如,图像[52,53,54],雷达[55,56,57])进行频率确定的详细分析。在视觉上,FFT将空间域的复杂数据转换为频域的能力使其成为从噪声或高维数据集中抽象关键特征的宝贵工具[58,59]。这种抽象尤其有益,因为显著特征的识别具有更好的跨域泛化能力[60,61,62,63],直接影响图像分析和处理任务的性能[64,65,66,67]。目前,FFT在视觉领域的研究主要集中在传统图像处理[52,68,69,70]、深度神经网络(DNN)的图像预处理[71,72]和DNN架构设计[20,66,65,73,74,75,76]等领域。

尽管FFT具有深远的实用性和有效性,但在视觉提示调优范式内的FFT集成仍未得到充分的探索。最近的工作[77]通过FFT提示调谐使预训练的多模态网络适应模态不完全分割场景下的任务。这种方法证明了FFT操作有效处理缺失模态(即实质性差异)的潜力。然而,它主要关注任务特定的优化和设计。FFT的广泛适用性和通用性,特别是在跨数据集分析中,尚未得到认可或利用。另一项工作[36]将傅里叶变换纳入基于lora的方法中。虽然富表现力的傅里叶基有助于权重变化的恢复,但它在微调期间不能完全集成频域信息,这与我们的方法仍然是正交的。在本文中,我们的目标是拓宽探索范围,促进基于傅里叶的视觉研究领域的发展。通过研究FFT与视觉提示调优的集成,我们充分探索了如何提高学习模型的有效性(见§3)和对多样化和具有挑战性的数据集的适应性(见§4)。此外,我们提出了新的证据,表明VFPT在Transformer的输入空间中建立了强相关性,与性能增强保持一致(参见§4.4)。总的来说,VFPT的通用性表明,在当前的机器学习应用中,对基于傅里叶的方法有了新的理解。

3 方法

图1:VPT与VPT(我们的)框架的概述。(a)原始视觉提示调整。(b)二维快速傅里叶变换操作在部分视觉提示沿隐藏和序列长度维度。©我们提议的VPT的整体架构(见§3.2)。

在本节中,我们介绍了VFPT,一种新颖的视觉提示调谐方法,用于有效和通用的基于transformer的大规模模型微调。我们首先在§3.1中定义了视觉提示调优和FFT的问题和符号。第3.2节介绍了基于傅里叶的视觉提示调优的集成。整体框架如图1©所示,其中我们将模型与原始VPT进行了比较。

3.1 Preliminary

视觉提示调整。给定一个预训练的有 N N N层的Transformer模型 T \textbf{T} T,视觉上的提示调优目标是将模型 T ^ \hat {\textbf{T}} T^调优为一个新的任务,在patch Emb层后的输入空间中只有几组 d d d维嵌入向量,即提示符。这些可学习的提示被定义为 P = { P 1 , P 2 , … , P N } \text{P}=\{P^1,P^2,\ldots,P^N\} P={P1,P2,,PN},其中 P i P^i Pi表示第 i i i层可学习的视觉提示。正式地,带有提示符的编码器层定义为:

其中,输入图像patch E E E的嵌入用冻结的Emb投影初始化, Z i Z^i Zi是第 i i i层编码器计算的上下文嵌入。颜色红色和蓝色分别表示可训练参数和固定参数。这里,可训练提示只占总参数的一小部分(例如,VPT[4]中VTAB-1k[78]为1.14%)。

快速傅里叶变换。FFT是一种计算离散傅里叶变换(DFT)的强大算法,它将等间隔函数样本的有限序列转换为相同长度的离散傅里叶变换序列。具体地说,给定一个序列 { x n } \{x_n\} {xn},其中 n n n是区间 n ∈ [ 0 , N − 1 ] n\in [0,N-1] n[0,N1]中的成员,则DFT定义为:

对于等间隔样本的有限序列 { x n } \{x_n\} {xn}, DFT生成等间隔样本的相同长度序列 { X k } \{X_k\} {Xk}。这个变换记为 F \mathcal{F} F,初始DFT的复杂度为 O ( n 2 ) O(n^2) O(n2)。对于加速,我们使用Cooley-Tukey FFT算法[79],遵循惯例[80](即复杂度为 O ( n log  n ) O(n\text{log }n) O(nlog n))。FFT是域转换的有力工具。因此,我们探索了FFT操作在PEFT方法中的集成,特别是在提示调谐中。

3.2 视觉傅立叶提示调谐

视觉提示调整在预训练-然后微调范式下特别有用。然而,当预训练数据集和微调数据集之间存在巨大差异时,它的性能会显著降低。原因是在对新数据进行微调时,图像分布可能明显偏离预训练主干模型[9]所用的样例。现有的提示调谐[4,5]主要关注空间信息,只能利用嵌入在预训练主干中的共享信息,限制了它们有效适应新任务的能力。因此,加强从调优数据中捕获区别特征的能力是至关重要的。

为此,我们介绍了一种直观而强大的方法VFPT,它具有先进的性能和通用性。与VPT(见图1(a))相比,我们的模型(见图1©)通过二维FFT(见§3.1)将部分提示从空间域转换到频域,以同时考虑空间域和频域信息。形式上,对于第 i i i层编码器中每个可学习的视觉提示 P i ∈ P = { P 1 , P 2 , … , P N } P^i\in\text{P}=\{P^1,P^2,\ldots,P^N\} PiP={P1,P2,,PN},我们有 P i = { P 1 , P 2 , … , P N } P^i=\{P^1,P^2,\ldots,P^N\} Pi={P1,P2,,PN}。我们在每一层选择 m m m个部分提示作为视觉傅里叶提示,其中 0 ≤ m ≤ M 0\le m\le M 0mM进一步, α = m / M \alpha=m/M α=m/M表示傅里叶参与的分数,其中 0 0 0表示所有提示都是原始的视觉提示, 1 1 1表示所有提示都是在FFT之后给出的。我们针对序列(即 F s e q \mathcal{F}_{seq} Fseq)和隐藏维度(即 F h \mathcal{F}_{h} Fh)对 α \alpha α视觉提示嵌入输入应用2D FFT。注意,由于两个一维fft的交换性质,操作 F s e q ( F h ( x ) ) \mathcal{F}_{seq}(\mathcal{F}_{h}(x)) Fseq(Fh(x)) F h ( F s e q ( x ) ) \mathcal{F}_{h}(\mathcal{F}_{seq}(x)) Fh(Fseq(x))在数学上是等价的[80]。

为了保持预训练结构的一致性,我们只改变提示嵌入,从而只从输出中保留真实的组件。这种设计不需要任何调整,以适应复杂的数字在自关注模块,确保模型剩余的元素保持不变。因此,第 i i i层编码器的整体集成提示符 P ^ i \hat P^i P^i由视觉傅里叶提示符与视觉提示符拼接而成:


我们优雅的VFPT设计具有以下几个吸引人的特点:

•简单性:VFPT只需要几行基于视觉提示调优实现的代码。它对空间域和频域之间的信息进行了直观的整合,带来了近乎自由的性能效果。FFT的低复杂度(即 O ( n log  n ) O(n\text{log }n) O(nlog n))导致在训练计划期间的总体边际减少(即, VTAB-1k的2.8%[78])。与此形成鲜明对比的是,目前在视觉提示调优方面的努力主要强调提高架构复杂性以获得更好的性能[5,81,42],这破坏了提示调优固有的简单性,并引入了显著的训练开销(例如,[81]学习2D提示令牌映射以进行密集的图像关系构建,[5]引入了额外的自关注K-V提示)。

•概括性:图像输入的频率和空间分析可以相互补充,从而从不同的角度获得更全面的特征理解(例如,频域允许在相当程度上分散和分解亮度和噪声[82],而空间域擅长捕捉复杂的物体细节)。通过结合来自这两个领域的可学习提示,VFPT展示了增强的提示学习能力,这使得它优于跨不同任务的微调(见§4.2)。VFPT的平坦性和凹凸性的实证结果进一步加强了我们的主张。

•可解释性:在视觉提示调优中,一个值得注意的挑战是可学习提示的可解释性。不像在NLP中,标记明确地表示这些提示,视觉提示历来缺乏清晰和可解释的表示。为了直观地感知视觉提示的功能,我们提供了一种可能的方法,通过注意图的可视化来理解为什么提示在微调新任务中发挥重要作用。此外,我们还可以通过引入视觉傅里叶提示来观察到更好更强的全局特征学习模式,展示傅里叶提示是如何工作的。更多的讨论将在§4.4中详细阐述。

4 实验

表1:在有监督ImageNet-21k上预训练的ViT-Base/16[23]图像分类精度。在[4,5]之后,我们报告了FGVC[4]和VTAB-1k[78]基准测试的平均测试精度(三次运行),以及与完全微调(full)[92]相比[·]的“获胜次数”。▶表示与Full相比“获胜次数”最高的方法。我们进一步在{·}中报告“VPT获胜数”。“已调优/总数”是24个任务所需的已调优参数的平均百分比。“Scope”表示每种方法的调优范围。“附加参数”是指除了预训练的脊骨和线性头部之外存在的参数。粗体和下划线表示最佳和次佳结果。在24例可训练参数较少的情况下,VFPT在22例中优于完全微调,在24例参数较少的情况下,在23例中优于VPT。†表示使用软过滤提示的方法,以减少可学习的视觉提示中的参数使用,需要专门的设备来促进加速。每个任务的结果可在附录中获得。表2和表3也是如此。

表2:在有监督ImageNet-21k上预训练的SwinBase[24]图像分类精度。

5 结论

我们提出了视觉傅立叶提示调谐(VFPT),这是一种简单但功能强大的参数高效视觉提示调谐方法,它从人类视觉认知中获得见解。它的优点是:1)通过直观有效的设计将空间和频域信息集成;Ii)在确保强大性能的同时,展示具有不同差异的数据集的通用性;iii)深入研究可学习提示和冻结嵌入之间的联系,以阐明这一普遍性。总的来说,我们得出结论,本文阐明的结果提供了基本的理解,需要在这一领域进行进一步的探索。

参考资料

论文下载(NeurIPS 2024)

https://arxiv.org/pdf/2411.01327

https://runjia.tech/vfpt_page/

代码地址

https://github.com/runtsang/VFPT

;