1.摘要
我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM)能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号(朱等,2023;刘等,2023;Huang et al .,2023a),Video-LLaMA通过解决两个挑战来实现视频理解:(1)捕捉视觉场景的时间变化,(2)整合视听信号。为了应对第一个挑战,我们提出了一个视频Q-former来将预训练的图像编码器组装到我们的视频编码器中,并引入视频到文本生成任务来学习视频语言的对应性。对于第二个挑战,我们利用ImageBind (Girdhar等人,2023年),一种对齐多种模态的通用嵌入模型,作为预训练的音频编码器,并在ImageBind之上引入音频Q-former,以学习LLM模块的合理听觉查询嵌入。为了将视频和音频编码器的输出与LLM的嵌入空间对齐,我们首先在大量视频/图像-字幕对上训练视频LLaMA,然后用中等数量但更高质量的视觉指令数据集调整我们的模型。我们发现视频——美洲驼表现出感知和理解视频内容的能力,并根据视频中呈现的视觉和听觉信息产生有意义的反应。
Video-LLaMA1: 大语言模型理解视频内容(视觉+听觉内容)
目标:解决视频理解的两个挑战。
(1)捕捉视觉场景时间变化:
引入视频Q-former:学习视觉语言的对应性。
(2)整合试听信号:
引入音频Q-former:学习合理的试听听觉查询嵌入。【?怎么学的呢?】
视频Q-former的学习:
与训练图像编码器组装到视频编码器。
视频->文本生成 任务,学习视频和文本对应性。
将视频和音频编码器的输出与LLM的嵌入空间对齐:
视频|图像-字幕训练LLaMA。
中等数量,高质量视觉指令集调整模型。
2.研究意义及价值
- 对于许多应用场景来说,只有文本的人机交互是不够的,因为真实世界的信息通常是多模态的。为了进一步挖掘LLMs的潜力,许多研究者试图赋予LLMs理解多模态内容的能力。
- 尽管它们有效,但是这些方法致力于将来自一个附加模态的输入与文本(即,图像或音频)对齐,这对于视频理解来说是不令人满意的。具体来说,使LLM能够理解视频需要对不同的模态进行综合处理,包括视觉输入、听觉输入和文本输出,这比只理解图像和只理解音频的任务更具挑战性。
- 在这项工作中,为了填补视听LLM的空白,我们研究了构建多模态LLM的可能性,该多模态LLM支持视频输入,并允许用户围绕用户上传的视频与计算机聊天,该视频通常由多个视频帧和音频组成。
本文认为:
- 现实世界的信息是多模态的,只有文本的交互不够,所以我们要探索多模态LLMs的潜能。
- 现有的方法总是视觉模态+文本模态捆绑模式,所以当前模型对视频理解能力差,尤其是对音频的理解能力。
- 该项工作探索了多模态LLMs,填补了音频LLM空白,实现计算机能够理解用户发送的视频的聊天形式。
实现思路:
保证跨通道与训练的效率:采用BLIP-2的思想
明确捕捉视觉场景变化:用与训练视觉编码器分解计算帧表示
帧嵌入层注入时间
视频Q-Former生成可是查询令牌
视频中音频的处理:与训练的音频编码器及音频Q-former来学习合理的听觉嵌入。
------------------------------------------------------------------------------------------------------------------------
文本输出与视频对齐:
多分支跨模态预训练学习——>视觉语言对应+音频语言对应。
视觉语言对齐:
首先:大规模视频字幕数据集使用视频CLIP到文本的生成任务对视觉相关组间进行预训练。
预训练阶段引入图像字幕数据集——>加强对静态视觉概念的理解。
然后:使用视频对话的数据集微调这些组件,为指令优化做准备。
音频编码器+语言编码器的对齐:
音频——>使用音频文本数据集在音频文本生成任务上预训练相关组件。
音频文本的衔接:使用Imagebind将不同模态与公共嵌入空间对齐
音频文本数据集有限——>视觉文本数据训练音频相关组件【这合理吗?】
总结:
这些组件学习将Imagebind提供的公共嵌入空间与LLMs的嵌入空间对齐。尽管没有经过音频-文本数据的明确训练,Video-LLaMA在推理过程中表现出显著的零镜头音频理解能力
-----------------------------------------------------------------------------------------------------------------------
Video-LLaMA与现有模型相比表现出色,对视听模态信息理解全面:
创新型:
1.一个多模态框架,弥补了音频LLM空白,使LLM同时处理视频中的视觉+听觉内容。
2.多分支跨通道预训练框架来实现视觉语言对齐和音频语言对齐
3.开源了权重和代码
3.方法设计
Video-LLaMA旨在使冷冻LLM能够理解视频中的视觉和听觉内容
两个主要的分支:
视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与LLMs的文本输入兼容的查询表——多分支跨模态预训练和视听教学调谐
架构:
视觉-语言模型
音频-语言模型
多分支跨模态训练:A+B两个分支
第一阶段,大规模视觉字幕数据集用于训练
第二阶段,高质量的指令跟随数据集用于微调。图像被视为单帧视频
- 视觉语言训练
- 音频语言
视频语言模型:
如图1的左部所示,它包括
一个冻结的预训练图像编码器,用于从视频帧中提取特征;
一个位置嵌入层,用于将时间信息注入视频帧;
一个视频Q-former,用于聚合帧级表示;
一个线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度。
实现:利用BLIP-2(李等,2023b)的预训练视觉组件作为冻结视觉编码器,它包括来自EVA-CLIP(方等,2022)的ViT G/14和预训练Q-former
音频语言模块:
如图1的右部所示,它包括
一个预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征;
一个位置嵌入层,用于将时间信息注入音频段;
一个音频Q-former,用于融合不同音频段的特征;
一个线性层,用于将音频表示映射到LLMs的嵌入空间。
多分支跨模态训练-视频文本
阶段一:
目标:使用大数据,使视频特征包含尽可能多的视觉知识。
问题:视频表示使用冻结的LLMs生成的文本,不足以描述完整的视频。
原因:视频语义与视频文本语义并不完全一致
数据集:
Webvid-2M:短视频数据集
CC59K:CC3M过滤的图像字幕数据集
结果:能够生成视频信息内容,但遵循指令能力下降
-------------------------------------------------------------------------------------------------------------------------
阶段二:
目标:视觉文本对齐 指令跟随能力——>使用高质量数据集微调
数据集:
MiniGPT4:图像细节描述数据集
LLaVA:图像指令数据集
Video-chat: 视频指令数据集
结果:理解图像和视频方面表现出非凡的能力
多分支跨模态训练-音频文本
目的:将冻结音频编码器的输出嵌入与LLM的嵌入空间对准
问题:音频文本数据的稀缺
解决:变通思路
ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。
鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程。
结果:
由于ImageBind提供的共享嵌入空间,Video-LLaMA在推理过程中表现出理解音频的能力,即使音频接口从未在音频数据上训练过。
4.相关工作
大型语言模型:
本文的工作基于这些LLM,并提供即插即用插件,使其能够理解视频中的视觉和听觉内容。
多模态大型语言模型:
现有的方法可以分为两大类。
第一类包括使用LLM作为控制器和利用现有的多模态模型作为工具。
当接收到用户的文本指令时,LLM识别出用户的注意力,并决定调用哪些工具。然后,它通过整合从这些现成的多模态模型中获得的结果,生成全面的响应。
第二类集中于训练基本的大规模多模态模型。
关键思想是将用于其他模态的预训练基础模型与文本LLM对齐。
本文的工作属于第二类,训练基本模型来理解视频中的视觉和听觉内容。
5.实验
展示Video-LLaMA在基于视频/音频/图像的转换中的多模态指令跟随能力
(1)视听整合感知能力-图2(a)和图3
同时理解听觉和视觉信息的独特能力。两种情况下的视频都包含音频。
在每次对话中,分别提出两个与视觉和听觉内容相关的问题。如果模型只能接收一个模态,它将无法回答这两个问题。
结果:在两种情况下都能准确地回答视觉和听觉问题。
(2)捕捉视频中时间动态的能力-图2(b)和图4
识别动作的能力。它成功地描述了女孩的动作和船的移动方向。
(3)感知和理解静态图像的能力。
感知和理解图片的能力-图2c+图5
理解“不寻常”的概念和具体描述不寻常场景的能力-图2c
不仅准确地描述了主要内容,而且还将它与狗和人之间的友好交互联系起来-图5
(4)常识概念识别能力-图2d+图6
能成功识别著名的地标和人物,并能进行常识性的问答
6.总结与限制讨论
Video-LLaMA:一个前沿的多模态框架,它为大型语言模型提供了音频和视频支持。
视听人工智能助理的一个有前途的原型的潜力
它仍然是早期的原型,并且具有一些局限性,包括:
(1)有限的感知能力:
Video-LLaMA的性能受到当前训练数据集的质量和规模的阻碍。
(2)处理长视频的能力有限。
长视频(如电影和电视节目)包含大量信息,对计算资源提出了更高的要求。
(3)幻觉。
Video-LLaMA 继承了冷冻LLMs的幻觉问题。
7.读后感
1.其创新点是支持音频吗?还是处理视频的时序信息吗?
其创新点是既能支持音频又能支持视频信息,以使模型能够从各个模态理解视频内容。
2.这里的多模态和之前的多模态有什么区别?
之前的多模态,把各个模态映射到一个公共空间,这里的多模态把各个模态映射到文本空间。最终以文本模态来表达对内容的理解。
3.本文工作的核心内容是什么?
弥补之前视频理解时听觉模态缺失的问题。
提供了听觉数据缺失问题的变通方法:
ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。
鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程。
4.视频理解能力指的是什么?
根据视频的视觉内容+听觉内容+文本内容——>视频内容描述文本
5.模型实现是怎样的?
模态模板: 输入->编码器->位置层嵌入->Q-former->线性层->LLM
冻结的预训练图像编码器,用于从视频帧中提取特征; 位置嵌入层,用于将时间信息注入视频帧; 视频Q-former,用于聚合帧级表示; 线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度。 | 预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征; 位置嵌入层,用于将时间信息注入音频段; 音频Q-former,用于融合不同音频段的特征; 线性层,用于将音频表示映射到LLMs的嵌入空间。 | 冻结的LLM |