即插即用！上交提出Long-CLIP：解锁CLIP的长文本功能

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和多模态】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：极市平台

导读

本文介绍的工作在CLIP的基础上，提出了具有长文本能力的Long-CLIP，弥补了CLIP在长文本建模上的重大短板，并可以即插即用地利用在各种多模态任务中。

简介

本文介绍了一个名为Long-CLIP的框架。Long-CLIP解决了CLIP有效长度不足、缺乏长文本能力的弊病，并在检索任务上获得了显著提升。此外，Long-CLIP保持了CLIP原始的特征空间，可以在图像生成等下游任务中即插即用地替换CLIP，以实现长文本细粒度图像生成。

图1 Long-CLIP使用场景总览

CLIP对齐了视觉与文本模态，拥有强大的zero-shot泛化能力。因此，CLIP被广泛应用在各种多模态任务中，如图像分类、文本图像检索、图像生成等。

然而，CLIP的一大弊病是在于长文本能力的缺失。首先，由于采用了绝对位置编码，CLIP的文本输入长度被限制在了77个token。不仅如此，实验发现CLIP真正的有效长度甚至不足20个token，远远不足以表征细粒度信息。文本端的长文本缺失也限制了视觉端的能力。由于仅包含短文本，CLIP的视觉编码器也只会提取一张图片中最主要的成分，而忽略了各种细节。这对跨模态检索等细粒度任务是十分不利的。同时，长文本的缺乏也使CLIP采取了类似bag-of-feature（BOF）的简单建模方式，不具备因果推理等复杂能力。

图2 CLIP的不足之处——缺乏长文本与复杂关系建模能力

为此，上海交通大学联合上海人工智能实验室的学者们提出了Long-CLIP模型。通过采用保留知识的位置编码扩充与加入核心成分对齐的微调策略，Long-CLIP模型仅仅额外采用ShareGPT4V数据集中的1M的（长文本，图片）数据对，通过不到100 GPU小时的微调，就可以在检索任务中获得显著提升（长文本-图像检索提升20%，短文本-图像检索提升6%）。不仅如此，Long-CLIP模型保持了CLIP原始的特征空间，因此可以在图像生成等下游任务上即插即用地替代原始的CLIP编码器，以实现长文本细粒度图像生成。以下，将介绍Long-CLIP采取的方法与应用场景。

论文链接：https://arxiv.org/abs/2403.15378
代码链接：https://github.com/beichenzbc/Long-CLIP

1.训练方法

一个简单的扩充输入长度、增强长文本能力的方法是先以固定的比率 λ₁ 对位置编码进行插值，再通过长文本进行微调。然而，这种策略会导致CLIP原始能力的急剧退化。前者破坏了CLIP充分建模的相对位置关系，而后者会使CLIP走入另一个极端：从仅仅关注最主要的特征变为以不论重要性一视同仁地涵盖所有细节。这导致模型在图片分类和短文本检索中的表现大幅下滑。

针对以上问题，研究者们提出了保留知识的位置编码扩充（Knowledge-Preserving Stretching of Positional Embedding）与加入核心成分对齐（Primary Component Matching）的微调策略，在保持甚至超过CLIP短文本能力的同时，解锁了了其长文本能力。

1.1保留知识的位置编码扩充

研究者们发现，CLIP的不同位置编码的训练程度是不同的。由于训练文本很可能以短文本为主，较低位的位置编码训练较为充分，能够精确地表征绝对位置，而较高位的位置编码则仅能表征其大致的相对位置。因此，对不同位置的编码进行插值的代价是不同的。基于以上观察，研究者保留了前20个位置编码，而对于剩下的57个位置编码，则以一个更大的比率 λ₂ 进行插值，计算公式可表示为：

实验表明，相较于直接插值，该策略可以在支持更长的总长度的同时大幅提升在各个任务上的性能。

1.2加入核心属性对齐的微调

仅仅引入长文本微调会使模型走入另一个误区，即一视同仁地囊括所有细节。针对这一问题，研究者们在微调中引入核心属性对齐这一策略。具体而言，研究者们利用主成分分析（PCA）算法，从细粒度的图像特征中提取核心属性，将其余属性过滤后重建粗粒度图像特征，并将其与概括性的短文本进行对齐。这一策略既要求模型不仅能够包含更多的细节（细粒度对齐），同时还能识别并建模其中最为核心的属性（核心成分提取与粗粒度对齐）。

图3 加入核心属性对齐的微调流程

2.应用场景

Long-CLIP在保留CLIP原始特征空间与能力的同时，大幅提升其长文本能力。因而，在图文检索、图像生成等领域，Long-CLIP可即插即用地替换CLIP。

2.1图文检索

Long-CLIP能够在图像与文本模态捕捉更多细粒度信息，从而可以增强相似图像和文本的区分能力，大幅提升图文检索的表现。无论是在传统的短文本检索（COCO、Flickr30k），还是在长文本检索任务上，我们的模型在召回率上均有显著提升。

图4 短文本-图像检索实验结果

图5 长文本-图像检索实验结果

图6 长文本-图像检索可视化，棕色文本为区分两张图片的关键细节

2.2图像生成

CLIP的文本编码器常被用于文本到图像生成模型中，如stable diffusion系列等。然而，由于长文本能力的缺失，用于生成图像的文本描述通常都十分简短，无法个性化地订制各种细节。而Long-CLIP无需任何训练，可以即插即用地替换CLIP作为文本编码器。Long-CLIP既可以突破77个token的限制，实现篇章级别的图像生成（右下），也可以在77个token内建模更多地细节，实现细粒度图像生成（右上）。而对于简单的短文本（左），由于Long-CLIP保持了CLIP的特征空间，可以和原始的CLIP生成相同的内容，图像质量不会产生退化。

图6 图像生成效果演示，棕色文本为CLIP生成时遗失的文本细节

结论：

本文介绍的工作在CLIP的基础上，提出了具有长文本能力的Long-CLIP，弥补了CLIP在长文本建模上的重大短板，并可以即插即用地利用在各种多模态任务中。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和多模态学习交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者多模态+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看