Authors: Hang Zhang, Xin Li, Lidong Bing;
Affiliation: The Alibaba DAMO Academy;
Keywords: Multimodal Large Language Models, Cross-modal training.
文章主要工作:
文章提出了一种多分支跨模态训练模型,将冻结的大预言模型和冻结的图形/音频编码器链接起来,以实现视觉-语言与音频-语言对齐,并在多个模型上进行了指标的评估。
模型结构:
图二:Video-LLaMA的模型架构。
Video-LLaMA模型主要由音频-语言分支与视频-语言分支构成,分别将视频帧和音频信号转换为与LLM文本输入兼容的查询表示。
-
视频-语言分支:
-
冻结的视觉encoder:
- 文章使用Blip-2中的视觉预训练组件作为冻结的视觉encoder来提取图像的特征,encoder包括一个Vit模型与一个预训练好的Q-former。
-
位置嵌入层:
-
文章在分支中加入了位置嵌入层作为指示器来将时间信息注入视频帧。
-
-
视频Q-former (Query transformer):
-
视频Q-former被训练来得到含文本信息量最大的的视觉嵌入向量。
-
-
线性层:
- 为了使视频表示适应LLM的输入,文章添加了一个线性层,将不定长的视频嵌入向量转换为固定维数的视频查询向量。视频查询向量将被连接到输入文本嵌入中,作为视频软提示,引导冻结的LLM根据视频内容生成文本。
-
-
音频-语言分支:
-
冻结的音频encoder:
- 文章使用ImageBind作为音频的encoder,ImageBind强大的多模态对齐能力可以使音频与语言对齐。
-
位置嵌入层(结构与视频分支相同);
-
音频Q-former(结构与视频分支相同);
-
线性层(结构与视频分支相同)。
-
创新点:
- 通过加入位置嵌入层插入时间信息来捕捉视频场景中的时间变化。
- 通过ImageBind的模态对齐能力加入了音频-语言对齐分支来加入音频模态,并使用视频-语言数据来训练音频-语言分支。
论文总结:
文章为解决冻结的LLM与冻结的encoder之间的连接问题,基于Blip-2的风格,提出了一种多分支跨模态训练模型,并进一步提出了一个多模态大语言模型Video-LLaMA。该模型可以很好的完成连接任务,并且明确地捕捉了视频中的场景变化并对齐了音频与视频模态。但是该模型仍有一些缺点:(1)受到当前数据集的限制,模型的感知能力仍然较弱,需要构建更高质量的音频-视频-文本对齐数据集;(2)视频对于长视频的处理能力仍然有限;(3)Video-LLaMA继承了LLM的幻觉问题。