介绍
论文地址:https://arxiv.org/abs/2406.14562
近年来,以 ChatGPT 为代表的**大型语言模型(LLMs)通过思维链(CoT)**在文本中表示中间推理部分,在算术和符号推理中取得了优异的成绩。
另一方面,即使进行了大量的多模态预训练,但无法回答人类通过视觉推理就能轻松解决的文本查询这一难题仍然令许多研究人员头疼不已。
在此背景下,本文提出了 “思维白板”(Whiteboard-of-Thought)这一简单的提示技术来激发大语言模型的视觉推理能力,它为大语言模型提供了一块白板,让他们以图像的形式写下自己的推理步骤,并展示了其在测量视觉推理能力(包括 ASCII 艺术)方面的有效性。本节将介绍一篇证明其基准测试有效性的论文。
导言
“哪个小写字母是一个圆圈 右边有一条竖线向下延伸?”
(哪个小写字母是一条触及圆圈右侧并向下延伸的竖线?)
当你读到这段文字时,你可能会先在脑海中画一个圆,然后加上一条线,最后想象出字母 “q”。
人类擅长这种视觉推理,可以轻松地将语言推理和图像推理交织在一起,从而解决问题和交流想法。
另一方面,本文作者验证了最新的 LLM GPT-4o(OpenAI 等人,2023 年)能否解决这一问题,如下图左侧所示。
GPT-4o 错误地指出答案是 “b”,这一结果表明,涉及视觉和空间推理的任务对 LLM 来说可能很困难,即使这些任务对人类来说非常容易。
本文通过利用多模态大语言模型(MLLMs)来解决这一问题,并为 MLLMs 提供创建和推理显式视觉效果(如代表中间想法的白板)的能力,以便我们提出了一种激发类似视觉推理能力的方法。
思想白板
本文的目标是让 MLLM 具备创建图像和可视化处理图像的能力,以处理涉及视觉推理的任务,如上述任务,为此提出了一种新的提示技术–思维白板(WoT)。
该方法的操作步骤如下图右侧所示。
该方法使用 Matplotlib 和 Turtle 等常用 Python 库创建图像(图中的可视化图像),用于可视化推理。
为此,我们将在法律和道德法庭上对这一问题进行讨论、
“您编写代码,使用 Python 中的 {Matplotlib/Turtle} 库创建可视化,用户将运行这些代码并提供图像。 在考虑可视化之前,请勿生成在考虑可视化之前,不要生成查询的最终答案”。
(使用 Python 中的 Matplotlib/Turtle 库编写可视化代码,然后用户可以运行并提供图像。在考虑可视化之前,不要创建查询的最终答案)。
立即执行。
然后,LLM 使用可视化库和 Python 解释器生成图像,再利用 MLLM 固有的多模态推理能力输出最终答案。
实验
为了证明 “思维白板”(WoT)的有效性,本文介绍了一项实验,该实验测量了大规模基准 BIG-Bench 中以 ASCII 艺术文本图形表示的信息的识别准确率。
ASCII 理解
ASCII 艺术凸显了我们人类大脑中无意识处理的高水平视觉推理,它要求我们在视觉环境中解释具有某种自然语言解释的字母(如作为符号的’=‘),并关注它们的位置和空间关系(如作为水平线的’==')。下面是一些例子。
对于人类来说,这一系列过程都是在无意识的情况下进行的,但如上所述,对于现有的 MLLM 来说,这些都是非常困难的任务。
在实验开始时,我们准备了以下 Python 代码,用于创建 ASCII 艺术作品,供实验使用。
然后执行代码来绘制三种 ASCII 艺术**:MNIST、Words 和 Kanji**,如下图所示。
除了提议的 WoT 方法外,我们还准备了通过常规提示进行推理的 Direct 方法和通过思维链进行推理的 CoT 方法,并比较了它们的识别准确率。(所有方法均使用 GPT-4o 作为 MLLM)。
实验结果如下图所示。
结果表明,正常提示和逐步推理对 ASCII 艺术识别任务的影响很小。
另一方面,拟议的 WoT 方法在所有任务中的性能都有显著提高。
可以认为,这**是因为 WoT 为 MLLM 提供了一个伪白板,使模型本身能够检查可视化信息,并激发出 MLLM 潜在的视觉推理能力,**这一结果证明了 WoT 的有效性。
总结
结果如何?在这篇文章中,我们提出了 “思维白板”(Whiteboard-of-Thought)–一种用于诱导大语言模型视觉推理能力的简单提示技术,它为大语言模型提供了一块白板,让他们以图像的形式写下自己的推理步骤,并在测量视觉推理能力的基准(包括 ASCII 艺术)中证明了它的有效性。论文介绍了在
本文进行的实验证明了 "思维白板 "在多个需要视觉和空间推理的任务中的有效性,预计随着 MLLM 性能的不断提高,"思维白板 "的性能也会随之提高。