Bootstrap

关于基于 LLM 智体的综述:常见工作流和可重用 LLM 配置文件组件

24年6月来自澳大利亚大学的论文“A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components”。

大语言模型 (LLM) 的最新进展促进了开发基于 LLM 智体的复杂框架发展。然而,这些框架的复杂性对在粒度级上进行细微差分构成了障碍,而细微差分是实现跨不同框架的有效实施和促进未来研究的关键方面。因此,本综述主要目的是,识别通用工作流程和可重用的 LLM 配置文件组件 (LMPC) ,促进对各种最近提出的框架进行统一地理解。

生成式大语言模型 (GLM 或 LLM) 已获得广泛的通用知识和类似人类的推理能力 (Santurkar,2023;Wang,2022;Zhong,2022,2023),使其成为构建 AI 智体(称为基于 LLM 的智体)的关键。基于 LLM 智体的定义,是它们能够与外部工具(例如维基百科)或环境(例如家庭环境)主动交互,并旨在作为智体的组成部分发挥作用,包括行动、规划和评估。

尽管存在各种各样的技术和概念挑战,例如搜索算法(Yao et al., 2023a)、树结构(Hao et al., 2023)和强化学习 (RL) 组件(Shinn et al., 2023),但许多基于 LLM 智体都包含类似的工作流程和组件。 (Wu et al., 2023) 提供了一种模块化方法,但缺乏与流行的智体工作流程集成。Wang (2024) 对 LLM 智体进行了全面的回顾,探索了它们在分析、记忆、规划和行动方面的能力。

本文专注于 LLM 在智体工作流程中的参与,并旨在阐明 LLM 在智体实现中的作用。创建包含可重用 LLM-Profiled 组件 (LMPC) 的通用工作流,如图所示:任务或/和工具使用环境下基于三个 LLM 分析组件(a-策略、b-评估器和c-动态模型)的八种常见工作流程,即基本工作流、工具使用工作流、遍历和启发的搜索工作流、MCTS的搜索工作流、自反馈的工作流、人类反馈的工作流、任务反馈的工作流和工具反馈的工作流。

请添加图片描述

请添加图片描述

请添加图片描述

任务环境和工具环境

下表是常见任务环境和工具使用环境。将 12 个智体工作流工作中存在的所有基准分为四种环境类型。动作实例通常由动作谓词和动作参数形式化。工具使用可以被视为智体的内部环境,并且通常为 自然语言交互环境(NLIE) 下的 QA 任务定义。

添加图片注释,不超过 140 字(可选)

通常,有两种常见的任务环境类型:1)基于规则的游戏环境:这些环境是确定性的和完全可观察的,包括各种抽象策略游戏,如国际象棋和围棋,以及逻辑谜题,如 24 点游戏(Yao,2023a)和 Blocksworld(Hao,2023)。它们需要深度逻辑推理和战略规划来导航和解决问题。2)模拟具身环境:这些设置模拟现实世界的物理交互和空间关系。它们要求智体参与导航、目标操纵和其他复杂的物理任务,反映物理环境的变化。

在自然语言交互环境( NLIE )中,环境保持静态,直到智体采取行动。与自然语言作为中介的典型任务环境不同,在 NLIE 中,状态和动作都是用语言定义的,这使得状态具有概念性,而动作通常具有模糊性和广泛可定义。

现代 LLM 智体通常会使用外部工具来增强其解决问题的能力(Inaba,2023;Yao,2023b)。这些工具的设计和集成增加了复杂性,需要仔细考虑 LLM 如何与任务环境以及这些辅助工具进行交互。通常,工具环境中的操作涉及与不受这些交互影响的资源的交互。例如,从维基百科检索数据构成“只读”操作,不会修改维基百科数据库。此功能将此类工具使用操作与传统任务环境或典型的强化学习 (RL) 设置中的操作区分开来,在这些设置中,操作通常会改变环境状态。然而,重要的是要认识到工具环境可以是动态的,可以在外部发生变化。这方面反映了工具应该被视为外部环境而不是智体内部过程的性质。

LLM配置组件

这些组件利用 LLM 的内部常识和推理能力来生成动作、计划、估值并推断后续状态。

通用LLM配置组件

具体而言,以下与任务无关的组件已被分析并通常用于各种工作流程:

  1. LLM 配置策略 glm-policy:策略模型旨在生成决策,这些决策可以是在外部环境中执行的操作或一系列操作(规划),也可以用于搜索和规划算法。与通过反复试验来学习最大化累积奖励的典型 RL 策略模型相比,LLM 配置策略模型(表示为 glm-policy)利用预训练的知识和从大量文本数据中得出的常识。有两种类型的 glm-policy:参与者 glm-actor 直接将状态映射到动作,而规划器 glm-planner 从给定状态生成一系列动作。
  2. LLM 配置评估器 glm-eval:glm-eval 提供对不同工作流程至关重要的反馈。它们评估基于搜索工作流中的动作和状态(Hao,2023;Yao,2023a),并修改反馈学习工作流中的决策(Shinn,2023;Wang,2023b)。这些评估对于直接行动评估和更广泛的战略调整都不可或缺。
    3)LLM 配置动态模型 glm-dynamic:它们预测或描述环境的变化。通常,动态模型通过从当前状态 s 和动作 a 预测下一个状态 s′ 而构成综合世界模型的一部分。虽然典型的 RL 使用概率分布 p(s′ | s, a) 来模拟潜在的下一个状态,但基于 LLM 的动态模型直接预测下一个状态 s′ = glm-dynamic(s, a)。

任务相关的LLM配置组件

除了通用LLM组件之外,某些 LLM 描述的组件是针对特定任务量身定制的。例如,言语化器(verbalizer)在具身环境中至关重要,但在 NLIE 中则不必要。言语化器将动作和观察转化为规划器的输入;例如,在 Planner-Actor-Reporter 工作流程 (Wang et al., 2023a) 中,经过微调的视觉语言模型 (VLM) 与 glm-planner 一起将像素状态转化为文本输入。同样,如果环境反馈与状态一起可感知,则可能需要言语化器将此反馈转化为 glm-policy 的言语描述,类似于 RL 中的奖励塑造,其中生成数值激励进行策略学习。被描述为言语化的 LLM,glm-verbalizer (Shinn et al., 2023),通常会根据指定的标准指导描述。

LLM智体的工作流

具体来说,根据工作流类型汇总一下文献中所提出的框架。值得注意的是,一个框架可以根据任务或环境采用不同的工作流程。下表是基于 LLM 智体和相关框架的工作流程。根据所列框架的原始论文,总结 LLM 配置文件组件 (LMPC) 和适用环境,尽管还存在其他可能性,例如,在工具使用工作流程中使用 glmplanner 并将基本工作流程应用于游戏环境。

添加图片注释,不超过 140 字(可选)

策略工作流

基础和工具使用工作流仅要求将 LLM 剖析为策略模型。在具身任务领域,许多项目部署了带有 glm-planner 的基础工作流,以使用 LLM 智体生成规划,例如 LLM Planner(Huang,2022 年)、Planner-Actor-Reporter(Dasgupta,2022 )和 DEPS(Wang ,2023b)。计划和解决方法(Wang ,2023a)将基础工作流应用于 NLIEs-QA。这种基础工作流也可以应用于其他 NLIE 任务,例如创意写作(Yao ,2023a)。相比之下,使用 glm-actor 的工具使用工作流始终应用于 NLIE,例如 ReAct(Yao,2023b)、Reflexion(Shinn,2023)和 MultiTool-CoT(Inaba,2023)。

搜索工作流

与使用 glm-planner 的基础智体不同,基础智体在一次生成中为规划生成一系列操作,而搜索工作流中的操作被组织成树(Yao,2023a;Hao,2023)和图(Liu,2023)以供探索。规划或搜索算法可以以非线性的方式探索顺序决策。在此过程中,通过添加节点来构建树(或解决方案),每个节点代表具有输入和迄今为止的想法/操作序列的部分解决方案。诸如树之类的数据结构可以对从多个推理路径派生的操作进行战略搜索。这是使用诸如束搜索(Xie,2023)、深度优先和广度优先搜索(DFS 和 BFS)(Yao,2023a)和蒙特卡洛树搜索(MCTS)(Hao,2023)之类的算法来实现的。

通常,LMPC 用于探索实现目标的路径。glm-policy 不会在策略工作流中直接对外部环境应用操作,而是生成多个操作样本以促进搜索过程的操作选择,而 glm-eval 用于计算探索过程中操作/状态评估值(Yao,2023a;Chen,2024)或作为奖励模型(Hao,2023)。

反馈学习工作流

反馈主要有四个主要来源:glm-eval(内部反馈)、人类、任务环境和工具。

Reflexion(Shinn,2023)和 Self-Refine(Madaan,2023)利用 glm-eval 来反思 glm-policy 的前几次生成,使 glm-policy 能够从这些反思中学习。与搜索工作流不同,在搜索工作流中,glmeval 的输出用于树扩展期间的动作选择,而在这里,反馈用于修改一个完整的决策,允许 glm-policy 重新生成另一个决策。在涉及物理交互的任务中,Reflexion 中的 glm-eval 还集成了来自任务环境的外部信息(Shinn ,2023 )。同样,glmeval 可以从工具中接收信息来生成反馈,如 CRITIC 工作流(Gou,2024 )中所示。在此设置中,调用工具进行反馈的必要性由 glm-eval 自主决定,而在 Reflexion 中,反馈传输被工作流设计做硬编码。正如 Guan(2023)的工作流所指出的那样,人类可以直接向 glm-policy 提供反馈,而无需 glm-eval。

LMPCs的实现

通用实现

LLM 通常通过利用思维链 (CoT) 提示来超越基本的输入输出推理,从而促进中间推理步骤的创建。这是通过两种技术实现的:零样本 CoT 在任务指令中集成了 CoT 触发器,例如“让我们一步一步思考”(Kojima,2022),而少样本 CoT 在提供的示例中结合了人工制作的推理步骤,以进行上下文学习(Wei,2022)。

如表的提示方法所示,一些研究(Wang,2023a)采用零样本 CoT 提示,但大多数(Yao,2023b;Shinn,2023;Hao,2023)通过少样本 CoT 实现 LLM 策略模型。与少样本 CoT 提示不同,glm-planner 的零样本 CoT 实现通常无法生成长期规划(Wang,2023b)。虽然有效,但少样本提示需要手动编译带有推理序列的演示,从而增加人工和计算资源的使用。像 Auto CoTs(Zhang,2023)这样的方法可以自动生成少样本演示,从而减轻这一挑战。

添加图片注释,不超过 140 字(可选)

特定工作流实现

可以采用两种不同的实现来使 glm-policy 在工具使用和反馈学习工作流(从工具接收反馈)中触发工具使用。

  1. 使用生成内触发器:可以在推理生成过程中调用工具,例如 MultiTool-CoT(Inaba,2023)。智体程序监视生成的每个token,并在检测到工具触发器时暂停文本生成。此暂停允许调用工具,然后将工具的输出插入提示中以完成推理。这些工具的触发器是通过工具描述、少样本演示或两者结合来定义的。
  2. 工具使用的推理-行动 (ReAct) 策略:由 Yao (2023b) 引入,每个推理或行动步骤都通过完整的生成单独地表达。尽管 ReAct 框架 (Yao,2023b) 将工具使用工作流中的工具操作与基本工作流中的任务特定操作统一起来,但应该区分工具操作和任务特定操作的策略。

通常,不同的工作流需要不同的反馈类型和任务公式。关于这两个观点有四种情况,如表所示:
1)生成自由形式的反思:这种反思输出经常集成到反馈学习工作流中的 glm-policy 提示中(Shinn,2023;Gou,2024)。glm-eval 旨在反思反馈学习工作流中的先前状态和操作。根据特定的反馈学习工作流,它可以结合来自任务或工具环境的外部输入来丰富反思过程。
2)二元/多元分类:反馈来自离散输出tokens,通常是“否”或“是”。这些可以转换为搜索工作流的 0/1 值。这些标量值可用作蒙特卡洛树搜索 (MCTS) 模拟中的奖励信号 (Hao,2023),也可以直接用来指导在树遍历每一步的决策 (Yao,2023a)。
3) 使用标量值的二元分类:此方法与前一种方法不同,它使用tokens的 logit 值来计算标量反馈值。然后,这些标量值可用作 MCTS 搜索工作流中的奖励。
4) 多选问答:用于需要从多个选项中进行选择的场景,支持涉及从前 N 个可能的操作中进行选择的任务,如在搜索工作流中用于操作选择 (Yao,2023a)。

添加图片注释,不超过 140 字(可选)

特定任务流的实现

值得注意的细节包括:1)多步生成:对于本质上涉及顺序决策的任务(例如,“将一个凉番茄放入微波炉”),通常需要后处理步骤才能使 glm-policy 用作策略模型。通过 glm-policy 的 CoT 实现生成推理路径后,将进行后续调用以提取可执行操作。此外,第一个生成 glm-planner 通常包含高级操作 (HLA),必须将其进一步转换为原始操作,然后才能提取可执行操作。通常,对于来自 NLIE 的任务来说,这是不必要的,因为规划生成和执行都可能发生在单个 LLM 生成中。2)隐规划:另一个需要考虑的点是,虽然 glm-actor 没有明确实现来生成规划,但它可以在推理阶段自主制定规划,然后再决定当前操作(Shinn,2023;Yao,2023b)。这些生成的规划作为内部状态维护,不作为与其他组件的通信信号。

ReAct 框架(Yao,2023b)将工具使用工作流中的工具操作和基本工作流中的任务特定操作统一起来。但是,推理和操作输出交替的顺序取决于任务。对于问答(QA),推理步骤和工具操作的生成是固定的,交替提示思考和行动。相反,对于具身任务,下一步是继续思考还是行动的决定,由 glm-policy 自主决定。

glm-eval 可以配置为评估不同的任务特定视角,由特定的智体提示确定评估标准。通常,有用性可用于评估任何操作(Hao,2023)。在 NLIE-QA 场景中,一个常见的指标是响应的真实性(真实性)(Gou,2024)。

今后的工作

随着对 LMPC 和智体工作流程的深入研究,同时确定未来研究的几个关键方向,以推动跨各种任务的完全自主智体的开发。

通用工具使用。一个方向是超越特定任务的预定义工具使用,并制定策略,使 LLM 能够根据手头任务的特定要求自主确定工具使用。另一个方向是集成策略模型和评估器的工具使用。换句话说,LLM 可以推理工具在各种任务中的使用情况,并灵活地在不同角色之间切换。
跨任务的统一框架。尽管许多框架都提供了集成的概念工作流,但许多组件都是特定于任务的。例如,ReAct 寻求协调工具操作和特定于任务的操作。然而,这些工作流和 LMPC 的具体实现在不同的任务中是不同的,例如 NLIE-QA 中的硬编码推理和动作步骤与具体环境中自主确定的推理和动作步骤。同样,虽然 Reflexion 中的反馈学习循环在理论上是统一的,但在实践中,外部反馈仅在具体环境中生成,而不是在 NLIE-QA 中生成。

减少带宽。有几种潜在的策略可以减少 LLM 推理所需的带宽,包括使用随机 glm-actor。

附录:

LLM智体的框架

如表显示每个框架的工作流、LMPCs、非LMPCs组件。

添加图片注释,不超过 140 字(可选)

;