RAG
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
文档视觉问答(DocVQA)管道用于回答来自文档的问题,具有广泛的应用。现有的方法侧重于使用多模态语言模型(MLM)处理单页文档,或者依赖于使用诸如光学字符识别(OCR)等文本提取工具的基于文本的检索增强生成(RAG)。然而,在现实场景中应用这些方法存在困难:(a)问题通常需要跨不同页面或文档的信息,而 MLM 无法处理许多长文档;(b)文档经常在诸如图形等视觉元素中具有重要信息,但文本提取工具会忽略它们。我们引入了 M3DocRAG,这是一种新颖的多模态 RAG 框架,能够灵活适应各种文档上下文(封闭域和开放域)、问题跳转(单跳和多跳)和证据模式(文本、图表、图形等)。M3DocRAG 使用多模态检索器和 MLM 查找相关文档并回答问题,因此它可以有效地处理单个或多个文档,同时保留视觉信息。由于以前的 DocVQA 数据集在特定文档的上下文中提出问题,我们还提出了 M3DocVQA,这是一个新的基准,用于评估超过 3000 多个 PDF 文档和 40000 多页的开放域 DocVQA。在三个基准(M3DocVQA/MMLongBench-Doc/MP-DocVQA)中,实证结果表明,带有 ColPali 和 Qwen2-VL 7B 的 M3DocRAG 比许多强大的基线表现更优,包括在 MP-DocVQA 中的最先进性能。我们提供了对不同索引、MLM 和检索模型的综合分析。最后,我们定性地表明,M3DocRAG 能够成功处理各种场景,例如当相关信息存在于多个页面中以及当答案证据仅存在于图像中时。
https://arxiv.org/abs/2411.04952
1. 文档视觉问答现状
文档视觉问答(DocVQA)是通过解读文档图像所含信息来回答文本问题的多模态任务。精准高效地回答众多冗长且布局繁杂的文档中的问题,会给金融、医疗保健和法律等诸多领域带来极大益处,在这些领域,文档AI助手能够简化大量文档的日常处理,提升生产力,助力更快、更明智的决策。
现有的DocVQA任务,主要有以下两种方案:
- • 1.聚焦于单页文档的视觉问答,如下图。
- • 2.从文档中提取文本(比如OCR或PDF文本提取)并运用检索增强生成(RAG),即检索模型找出相关段落,语言模型依据段落回答问题(如下图)。
但是,这两类方案在真实文档理解场景中运用存在以下两方面问题:
- • 1.问题往往需要跨越不同页面或文档的信息,现有的VQA方法难以处理众多长文档;
- • 2.部分文档具有复杂的视觉格式,像表格、图表和混合布局,可诸如OCR这类的文本提取方法会忽略这些细微之处,致使文档解读不完整或不准确。
2. 什么是M3DOCRAG?
为了突破以上DocVQA方法的局限性,作者推出了M3DOCRAG(Multi-modal Multi-page Multi-DocumentVisual Question Answering,多模态多页多文档检索增强生成):一个新的多模态RAG框架,能够灵活适应各类文档情境(封闭域和开放域)、问题跳转(单跳和多跳)以及内容形式(文本、图表、图形等)。
如上图,M3DOCRAG框架借助多模态检索模型检索相关文档页面,并利用多模态语言模型(MLM)从检索到的页面生成问题答案。
M3DOCRAG分三个阶段运作:
- • 1.文档嵌入阶段:把所有文档页面转为RGB图像,并从页面图像中提取视觉嵌入(例如 ColPali)。
- • 2.页面检索阶段:用文本查询检索相似度高的前K个页面。对于开放域设置,创建近似页面索引,比如倒排文件索引(IVF),以加快搜索速度。
- • 3.问答阶段:使用MLM进行视觉问答以获取最终答案。也请参考图3了解框架的详细情况。M3DOCRAG能够灵活处理封闭域(单个文档)和开放域(大量文档的语料库)设置中的DocVQA。
2.1. 文档嵌入(Document Embedding)
在 M3DOCRAG 中,文本查询与页面图像通过 ColPali 投射至一个共享的多模态嵌入空间。将文本和图像输入编码为统一的向量表示,并检索出前 K 个最相关的图像。
为提升效率,对文档的每个页面进行独立处理。使得能够将文档语料库中的所有页面展平为一个单页级嵌入张量。
M3DOCRAG 能够灵活适应不同的检索设置,比如单页文档、含多个页面的单个文档以及大型多页文档语料库。
2.2. 页面检索(Page Retrieval)
查询Q与页面P之间的相关性通过 MaxSim 分数来计算。
开放域页面检索的近似索引:在大型文档语料库中搜索页面往往耗时且计算成本高。当期望更快的搜索速度时,基于 Faiss 离线创建页面索引,通过应用近似最近邻搜索。
封闭域页面检索:采用精确搜索,在开放域设置中使用倒排文件索引(IVF)(Faiss 中的 IVFFlat),在搜索 40K 个页面时,能将页面检索延迟从 20 秒/查询降低至不到 2 秒/查询。
2.3. 问答
将文本查询Q和检索到的页面图像P提供给多模态语言模型,以实现视觉问答并获取最终答案。
为此,运用多模态语言模型(比如 Qwen2-VL ),其包含视觉编码器和语言模型 LM 。
视觉编码器把检索到的K个页面图像当作输入,输出视觉嵌入(与 ColPali 编码器的输出有别)。语言模型把查询Q的视觉嵌入和文本嵌入当作输入,以自回归的方式输出最终答案。
3. 效果如何?
3.1 开放领域文档视觉问答
上图展示了M3DOCVQA的评估结果:多模态 RAG 比文本 RAG 表现更出色,尤其是在非文本证据来源方面。
M3DOC RAG(ColPauli + Qven2-VL 7B)在所有不同的证据模式/问题跳转/# 页面上,都大幅领先于文本 RAG(ColBERT v2 + Llama 3.1 8B)。
当证据包含图像时,性能差距尤为显著,表明 M3DOCRAG 解决了纯文本管道在处理非文本内容时的信息丢失问题。
为文本 RAG 和 M3DOC RAG 提供更多检索到的页面作为上下文,通常会提升其性能(使用前 4 页比前 1 页和 2 页的性能更高)。
3.2. 封闭域文档视觉问答
上表展示了封闭域文档VQA的评估结果,涵盖五种证据源模态(文本(TXT)、布局(LAY)、图表(CHA)、表格(TAB)和图像(IMG))以及三种证据位置(单页(SIN)、跨页(MUL)和无法回答(UNA))的综合准确率(ACC)。
多模态 RAG 增强了 MLM 对长文档的理解能力。在 MM Long Bench-Doc 中,模型需处理每个问题所对应的长 PDF 文档(多达 120 页)。鉴于许多多模态 LM 的上下文长度有限,采用了一种拼接策略,将所有截图页面组合成 1 个或 5 个图像,并将这些拼接后的图像输入到多模态 LM 中。
结果表明:
- • ColPali + Idefics2 超越了不含 RAG 的 Idefics2 以及之前所有的多模态条目。
- • VolPauli + QWP2–VL 7B 在整体 F1 和大多数证据模态/页面设置中斩获最佳分数。多模态检索在处理多页时相较于通过拼接低分辨率图像更为有效。
- • 为文本 RAG 和 M3DOC RAG 提供更多检索页面作为上下文通常会提升性能(使用前 4 页比前 1 页性能更优)。
- • M3DOC RAG 在 MP-DocVQA 中达到了顶尖水平。在 MP-DocVQA 中,模型必须针对每个问题处理多达 20 页的 PDF 文档。
- • 虽然文本 RAG(ColBERT v2 + Llama 3.1)逊于现有方法,但所有多模态 RAG 管道均优于其基于文本的对应项。
- • M3DOC RAG 管道(ColPali + Qwen2-VL 7B)在 MP-DocVQA 上取得了领先成果。
3.3. 额外分析
3.3.1 不同页面索引的速度与准确性
对 ColPali+Qwen2-VL 7B 管道采用不同文档嵌入索引方法时的速度和准确性进行了分析。
虽说采用精确搜索的朴素索引(FlatIP)速度较慢(每个查询 21 秒),但像倒排文件(IVFFlat)和乘积量化(IVFPQ)这类近似索引,既能保留大部分准确性,又能大幅提升搜索速度(每个查询<2 秒)。
M3DOCRAG 默认使用 FlatIP + IVFFlat 索引,用户可依据部署需求选择适宜的索引方法。
3.3.2 不同的多模态语言模型
对四种不同的多模态语言模型进行了比较,分别是 Idefics2 8B、Idefics3 8B、InternVL2 8B 和 Qwen2-VL 7B 。
Qwen2-VL 7B 模型在所有三项基准测试中均优于其他多模态语言模型。所以,将其作为默认的多模态语言模型组件。
3.3.3 不同的多模态检索模型
对两种不同的多模态检索模型加以比较,即 ColPali v1 和 ColQwen v0.1。这两个模型均以相同的训练目标进行训练,但分别以不同的多模态语言模型架构进行初始化,即 PaliGemma 2B 和 Qwen2-VL 2B 。
ColPali 表现显著更优,而 ColQwen 在 MPDocVQA 和 MM Long Bench-Doc 中的表现略好。因此,将 ColPali 作为默认的检索模型。
- • 论文原文: https://arxiv.org/abs/2411.04952
如何学习大模型
现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。
作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。
下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来
,需要的小伙伴可以扫取。
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。
二、AI大模型视频教程
三、AI大模型各大学习书籍
四、AI大模型各大场景实战案例
五、结束语
学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。
再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。
因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。