摘要
我们推出了Qwen2-VL系列,这是对之前Qwen-VL模型的高级升级,重新定义了视觉处理中的常规预设分辨率方法。Qwen2-VL引入了Naive Dynamic Resolution机制,使模型能够动态地将不同分辨率的图像转换为不同的视觉令牌数量。这种方法允许模型生成更高效和准确的视觉表示,紧密契合人类感知过程。该模型还整合了Multimodal Rotary Position Embedding (M-RoPE),促进文本、图像和视频之间位置信息的有效融合。我们采用统一的方法来处理图像和视频,增强模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉语言模型(LVLM)的规模定律。通过扩大模型大小——版本包括2B、8B和72B参数——以及训练数据量,Qwen2-VL系列实现了高度竞争性的性能。值得注意的是,Qwen2-VL-72B模型在各种多模态基准上与领先模型如GPT-4o和Claude3.5-Sonnet的结果相当,并且优于其他通用模型。代码可在https://github.com/QwenLM/Qwen2-VL中获取。
1.介绍
在人工智能领域,大型视觉语言模型(LVLM)代表了一次重大飞跃,建立在传统大型语言模型的强大文本处理能力之上。这些先进的模型现在涵盖了对更广泛数据集的解释和分析的能力,包括图像、音频和视频。这种能力的扩展已将LVLM转变为解决各种现实世界挑战不可或缺的