【Image Captioning】DynRefer

DynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，能够以同时完成区域识别、区域属性检测和区域字幕生成任务。

文章链接：https://arxiv.org/abs/2405.16071

代码链接：https://github.com/callsys/DynRefer

一.介绍

区域级多模态任务模仿人类认知过程，根据特定的任务要求（开放词汇检测、属性识别、字幕生成等）将参考的图像区域翻译为语言输出。现有的方法以固定的分辨率作为输入，限制模型对于丰富分辨率的处理能力且难以捕获上下文信息。

人类的认知系统可以根据特定的语言描述（任务要求）通过注视和调整眼动的过程来调整视觉输入，形成非均匀的分辨率。现存的多模态大语言模型不具备视觉区域选择能力，导致应用于具体任务时缺乏特异性。

受视觉认知机制的启发，即增加聚焦区域的分辨率，同时抑制不相关的背景区域，提出动态分辨率方法，如下图所示。

DynRefer在训练时引入随机视觉-语言对齐，首先，对参考区域的周围进行采样，构建随机分辨率的图像；然后，将图像嵌入于具体任务的语言描述对齐。在推理时，执行动态多模态参考，形成与图像和语言描述先验相对应的动态分辨率图像。

二.相关工作

视觉语言模型

根据训练目标，Vision-Language Models（VLMs）可以分为图文对比学习、图文匹配、语言建模3种类型。应用于区域级任务时，模型在区域-文本对上进行训练以获取区域级理解能力。

区域级多模态任务

(1) 检测

基于对比学习的方法通过计算图像划定区域的特征与文本特征之间的相似度确定检测类别；基于语言建模的方法借助大语言模型，得到开放集中和图像区域最可能的类别。

(2) 属性

一些研究基于COCO Attributes、VAW等属性数据集，训练多分类网络实现属性预测；一些研究受到CLIP 、OVAD模型的启发，从字幕中得到属性类别（开集预测）。

(3)字幕生成

使用多模态模型生成区域级字幕的方法被研究者广泛采用。GRiT通过将对象类别看作为简短的字幕来统一分类和字幕生成任务；CapDet则是在预训练设置中将字幕与开放集检测结合起来。

视觉认知动态分辨率

视觉认知领域的研究表明，人类视觉系统具有动态分辨率。相比之下，计算机视觉系统缺乏动态机制，只能捕获静态视图。

三.方法

3.1 随机视觉-语言对齐

3.1.1 多视图构建

原始图像 x 被裁剪为多个候选视图。裁剪区域的计算方式为

其中， $b_{r}$ 表示参考区域的边界框， $b_{x}$ 表示整个图像的尺寸，t 表示插值系数。在训练过程中，从候选视图中随机选择 n 个视图，以模拟由于注视和眼球快速运动而生成的图像。 n 个视图对应于插值系数 t，即t= $\left [ t_{1},t_{2},..., t_{n}\right ]$ 。

3.1.2 随机多视图嵌入

采样的n个视图，经过ViT模块获得空间特征并后接RoI Align模块得到区域嵌入 $\left \{ r_{i} \right \}_{i=1,2,..,n}$ ，如下图左侧所示。

由于crop、resize和 RoI-Align 操作引入的空间误差，区域嵌入在空间上并不对齐。受 deformable convolution 启发，提出了1个对齐模块Align module，通过将 $\left \{ r_{i} \right \}_{i=2,3,..,n}$ 与 $r_{1}$ 对齐来减少偏差，其中， $r_{1}$ 是仅包含参考区域的视图的区域嵌入。对于每个区域嵌入 $r_{i}$ ，首先，将其与 $r_{1}$ 连接，然后通过Conv计算2D偏移图；然后，𝑟𝑖的空间特征然后根据2D偏移重新采样；最后，对齐后的区域嵌入 $r_{i}$ 沿通道维度连接并通过 MLPs 层进行融合。输出进一步通过视觉重采样模块，即 Q-former进行压缩，得到区域表示 $x_{v}$ 。