Bootstrap

思维故事(Story of Thought):提示工程的新方向与大模型推理能力提升

近年来,随着大语言模型(LLM)在各个领域中的广泛应用,如何通过更好的提示工程(Prompt Engineering)来提升模型的推理能力,成为了人工智能研究中的核心课题。从最初的少样本学习(Few-Shot Learning)到思维链(Chain of Thought, CoT)、思维树(Tree of Thoughts, ToT)、再到思维图(Graph of Thoughts, GoT),提示工程的演变带来了性能的不断提升。而近期来自波恩大学等机构的研究人员提出了一个创新的方向——在提示中融入叙事(Narrative)元素,构建出一种全新的提示框架,名为“思维故事”(Story of Thought, SoT)。这一框架不仅在理论层面令人兴奋,更在实践中展现了出色的效果,成为了提升大模型推理能力的新突破。

本文将详细探讨SoT框架的核心思想、研究背景、应用效果,以及它如何在复杂推理任务中提升大模型的推理性能。

一、引入叙事元素:为什么叙事对推理有帮助?

叙事的引入源自认知科学的发现:人类在处理复杂信息时,往往通过故事化的方式来帮助理解和记忆。这一理念已广泛应用于科学传播、教育、医疗沟通等多个领域,叙事不仅能提升信息的理解度,还能促进对抽象概念的掌握。因此,研究者提出了一个有趣的假设:既然叙事能帮助人类更好地推理,是否也能帮助大语言模型在面对复杂任务时更为高效地进行推理?

从两个方面来看,叙事结构能够优化大模型的推理过程:

  1. 识别和阐释抽象概念:叙事框架帮助模型更加清晰地理解问题中的核心抽象概念。
  2. 信息的连贯组织:叙事能够按顺序、层次化地展示信息,形成清晰的逻辑链条,提升推理的效率和准确性。

基于这一思路,SoT框架应运而生。

二、SoT框架:思维故事的三大步骤

SoT框架的核心是通过三步流程来提升模型的推理能力:问题阐明(Question Clarification)、叙事生成(Narrative Generation)、和问题求解(Problem Solving)。每一步都扮演着至关重要的角色。

1. 问题阐明(Question Clarification)

在这一阶段,模型的任务是扮演“探索者”,细致地剖析问题,识别相关的领域知识,并明确问题的核心要素。此时,模型并不直接给出答案,而是要分解问题,明确问题的背景、子问题及所需的专业领域信息。例如,给定一个复杂的科学问题,模型需要识别该问题涉及的学科领域、推理方法和所需的知识。

提示示例:

你是一名探索者,目标是识别并收集相关专业的学科领域信息,以帮助阐明以下问题。你的任务是缩小问题的范围并提供相关知识,切勿回答问题。

2. 叙事生成(Narrative Generation)

这一环节是SoT框架的创新之处。模型基于第一步的分析,构建一个结构化的叙事,帮助人类更好地理解问题。生成的叙事要采用五种关键技巧:

  • 渐进式披露(Progressive Disclosure):逐步展示信息,帮助思维过程循序渐进。
  • 分支叙述(Branching):探索问题的不同视角,提供多种可能的解决思路。
  • 类比(Analogy):将抽象概念与熟悉情境相联系,简化问题的复杂性。
  • 类比推理(Analogical Reasoning):通过类似情况推理,建立问题之间的关联。
  • 隐喻(Metaphor):通过比喻提升对复杂问题的理解。

提示示例:

你是一位擅长科学传播的专家,目标是通过下面提供的信息,构建一个叙事框架,帮助非专业人士理解该问题。请务必使用渐进式披露、分支叙述、类比、类比推理和隐喻等技巧。

3. 问题求解(Problem Solving)

在这一阶段,模型将依据生成的叙事框架来解答原始问题。重要的是,模型需要通过叙事结构化的理解来更有效地推理,从而得出准确的答案。

提示示例:

你是一位专家,任务是根据以下叙事框架解决问题。请根据构建的叙事解释,回答问题。

三、实验验证:SoT框架的卓越表现

为了验证SoT框架的有效性,研究团队在两个极具挑战性的数据集上进行了实验:GPQAJEEBench

  • GPQA数据集:这是一个涵盖研究生水平问题的数据集,涵盖多个学科领域。实验结果显示,在使用SoT框架后,Llama 3 70B模型的准确率提高至51.01%,而GPT-4模型的准确率则从34.7%提升至48.98%,相对提升幅度高达41%。

  • JEEBench数据集:该数据集涉及工程数学、物理和化学等领域的挑战性问题。在应用SoT后,Llama 3 70B在所有学科的表现均超过了现有的最优模型(如GPT-4 + CoT)。特别是在生物学领域的表现尤为突出。

四、SoT框架的成功因素与应用建议

成功因素分析

  1. 叙事技巧的协同效应:实验表明,单一叙事技巧的使用效果不如综合运用所有技巧。比如,使用类比推理或渐进式披露时,准确率都会出现下降,而多种技巧的结合能够实现最佳效果。
  2. 模型规模与叙事生成能力:大模型(如Llama 3 70B、GPT-4)能够生成质量更高的叙事,而小模型的叙事能力较弱。值得注意的是,大模型生成的叙事不仅能够提升自身性能,也能帮助小模型提升推理效果。
  3. 叙事质量:对叙事质量的评估显示,OpenAI的模型在叙事技巧的使用频率上表现最优,尤其在渐进式披露和类比的运用上非常频繁。

应用建议

  • 选择合适的场景:SoT框架适用于需要复杂推理的科学问题、涉及多个知识领域的问题,以及需要结构化思维的决策问题。
  • 优化提示设计:提示词设计时要明确每个步骤的角色,并确保涵盖所有必要的叙事技巧。根据任务的不同,灵活调整叙事策略。

五、总结与展望

思维故事(SoT)框架通过将认知科学中的叙事技巧引入到提示工程中,为大语言模型的推理能力提供了一种全新的突破。研究和实验结果表明,SoT在多个领域的复杂推理任务中展现了出色的性能,尤其在科学、数学等领域具有巨大的应用潜力。尽管SoT框架仍面临一些挑战,如生成的叙事质量对模型能力的依赖、计算资源消耗等问题,但它无疑为未来的提示工程和大模型推理提供了新的思路和工具。

对于提示工程师而言,SoT框架是一个强有力的工具,能够帮助解决复杂的推理任务。未来,随着更大规模模型的出现,结合思维链和结构化叙事的混合方法或许能够推动大语言模型在复杂推理任务上实现更大的突破。

在这里插入图片描述

;