综述：基于大语言模型的智体

23年9月发表的综述“The Rise and Potential of Large Language Model Based Agents: A Survey“，来自复旦大学和米哈游公司。

摘要：长期以来，人类一直在追求相当于或超过人类水平的人工智能（AI），AI智体被认为是这一追求方面有前途的工具。AI 智体是感知环境、做出决策并采取行动的人工智能实体。自20世纪中叶以来，人们已经做出了许多努力来开发智能AI智体。然而，这些努力主要集中在算法或训练策略的进步上，提高特定任务的特定能力或性能。实际上，社区缺乏的是一个足够通用和强大的模型，可以作为设计适应不同场景AI智体的起点。由于所展示的多功能和卓越的功能，大型语言模型（LLM）被视为通用人工智能（AGI）的潜在火花，为构建通用AI智体提供了希望。许多研究工作都利用LLM作为构建AI智体的基础，并取得了重大进展。该文首先追溯智体的概念，从其哲学起源到AI中的发展，并解释为什么LLM是AI智体的合适基础。在此基础上，提出了基于LLM智体的概念框架，包括三个主要组成部分：大脑，感知和动作，并且该框架可以定制以适应不同的应用。随后，从单智体场景、多智体场景和人-智体相互协作等三个方面探讨了基于LLM智体的广泛应用。之后，深入研究智体社会，探索基于LLM智体的行为和个性，形成社会出现的社会现象以及为人类社会提供的见解。最后，讨论该领域的一系列关键主题和开放性问题。

如图是设想的AI智体组成的社会场景，人类也可以参与其中。上图描绘社会中的一些特定场景。在厨房里，一个智体正在订购菜肴，而另一个智体是负责规划和解决烹饪任务。在音乐会上，三位智体正在合作组成乐队表演。在户外，两个智体正在讨论灯笼制作，通过选择和使用工具来规划所需的材料和资金。用户可以参与此社交活动的任何阶段。

添加图片注释，不超过 140 字（可选）

智体是如何引入 AI的？令人惊讶的是，直到 1980 年代中后期，主流AI社区的研究人员对智体相关的概念关注相对较少。尽管如此，从那时起，在计算机科学和AI社区领域，人们对这个话题的兴趣显着增加[50;51;52;53]。正如Wooldridge[4]所说，可以定义AI，因为它是计算机科学的一个子领域，旨在设计和构建基于计算机的智体，展示智能行为的各个方面。因此，可以将“智体”视为AI的核心概念。当智体的概念被引入AI领域时，其含义发生了一些变化。在哲学领域，主体可以是人、动物、甚至是具有自主性的概念或实体[5]。然而，在AI领域，智体是一个计算实体[4; 7]。由于计算实体的意识和欲望等概念看似形而上学的这个本质[11]，并且鉴于只能观察机器的行为，包括艾伦·图灵在内的许多AI研究人员建议暂时搁置智体是否“实际”思考或字面上拥有“思想”的问题[3]。相反，研究人员用其他属性来帮助描述智体，例如自主性、反应性、主动性和社交能力属性[4; 9]。也有研究人员认为，智力是“个人观点”，不是一种与生俱来的、孤立的属性[15;16;54;55]。从本质上讲，AI智体并不等同于哲学智体；相反，它是AI背景下智体的哲学概念具体化。本文作者将AI智体视为人工智能实体，能够用传感器感知周围环境，做出决策，然后用执行器采取动作[1; 4]。

什么是基于大型语言模型的智体？由于大型语言模型已经显示出印象深刻的涌现能力，并做到了极大的普及[24;25;26;41]，研究人员因此已经开始利用这些模型来构建AI智体[22;27;28;89]。具体来说，用LLM作为大脑或这些智体控制者的主要组成部分，并通过多模态感知和工具利用等策略扩展其感知和行动空间[90;91;92;93;94]。这些基于LLM的智体可以通过思维链（CoT）和问题分解等技术表现出与符号智体（采用符号逻辑和表征进行知识封装和推理）相当的推理和规划能力[95;96;97;98;99;100;101]。还可以从反馈中学习和执行新动作来获得与环境的交互能力，类似于反应智体（感知-行动）[102;103;104]。同样，大型语言模型在大规模语料库上进行预训练，并展示了少样本和零样本的泛化能力，允许在任务之间无缝迁移，无需更新参数[41; 105; 106; 107]。基于LLM的智体已被应用于各种现实世界的场景，例如软件开发[108;109]和科学研究[110]。由于其具备自然语言理解和生成能力，可以无缝地相互交互，从而引起多智体之间的协作和竞争[108;109;111;112]。此外，研究表明，允许多种主体共存会导致社会现象的涌现[22]。

如图是基于LLM智体的概念框架，具有三个组成部分：大脑，感知和动作。作为控制器，大脑模块承担基本任务，如记忆、思考和决策。感知模块感知和处理来自外部环境的多模态信息，动作模块用工具执行并影响周围环境。这里举了一个例子来说明工作流程：当一个人问是否会下雨时，感知模块将指令转换为LLM的可理解表示；然后大脑模块开始根据当前的天气和互联网上的天气报告进行推理；最后，动作模块做出响应并将雨伞交给人类。重复上述过程，智体可以不断获得反馈并与环境进行交互。

添加图片注释，不超过 140 字（可选）

如图是大脑模块的分类：

添加图片注释，不超过 140 字（可选）

知识问题

由于现实世界的多样性，许多NLP研究人员试图利用更大规模的数据。这些数据通常是非结构化和未标记的[137;138]，但包含可以通过语言模型学习的大量知识。理论上，语言模型可以学习更多的知识，因为有更多的参数[139]，语言模型可以用自然语言学习和理解一切。研究[140]表明，在大规模数据集上训练的语言模型可以将广泛的知识编码到其参数中，并正确响应各种类型的查询。此外，这些知识可以帮助基于LLM智体做出明智的决定[222]。所有这些知识可以大致分为以下几类：
语言知识。语言知识[142;143;144]被表示为一个约束系统，一种语法，定义了语言的所有可能句子。其包括形态学、语法、语义学[145;146]和语用学。只有获得语言知识的智体才能理解句子并进行多回合对话[147]。此外，这些智体可以在包含多种语言的数据集上进行训练来获取多语言知识[132]，从而消除对附加翻译模型的需求。
常识知识。常识知识[148;149;150]是指一般的世界事实，通常在很小的时候就教给大多数人。例如，人们通常都知道药物用于治疗疾病，雨伞用于防雨。此类信息通常不会在上下文中明确提及。因此，缺乏相应常识知识的模型可能无法理解或误解预期的含义[141]。同样，没有常识知识的智体可能会做出错误的决定，例如在下大雨时不带雨伞。
专业的领域知识。专业领域知识是指与编程[151;154;150]、数学[152]、医学[153]等特定领域相关的知识。模型必须有效地解决特定领域内的问题[223]。例如，设计用于编程任务的模型需要具备编程知识，例如代码格式。同样，用于诊断的模型应具有医学知识，例如特定疾病和处方药的名称。

记忆

“记忆”存储了智体过去的观察、思想和行动序列，这类似于Nuxoll提出的定义[228]。正如人类大脑依靠记忆系统回顾性地利用先前的经验进行策略制定和决策一样，智体需要特定的记忆机制来确保它们熟练地处理一系列连续的任务[229;230;231]。当面对复杂的问题时，记忆机制帮助智体有效地重新审视和应用先验策略。此外，这些记忆机制使个体能够借鉴过去的经验来适应不熟悉的环境。

随着基于LLM智体中交互循环的扩展，出现了两个主要挑战。第一个与历史记录的绝对长度有关。基于LLM智体以自然语言格式处理先前的交互，将历史记录附加到每个后续输入中。随着这些记录的扩展，可能会超出大多数基于 LLM 智体所依赖的Transformer体系结构约束。发生这种情况时，系统可能会截断某些内容。第二个挑战是提取相关记忆的难度。随着智体积累了大量的历史观察和行动序列，需努力应对不断升级的记忆负担。在相关主题之间建立联系，将变得越来越具有挑战性，这可能会导致智体响应与上下文不能对齐。

什么是提高记忆能力的方法？有几种增强基于LLM智体“记忆”的方法。
• 提高Transformer的长度限制。第一种方法尝试解决或减轻固有的序列长度约束。由于这些固有的限制，Transformer架构在长序列中变得困难。随着序列长度的扩展，由于自注意机制中的成对token计算，计算需求呈指数级增长。减轻这些长度限制的策略包括文本截断[163;164;232]、分割输入[233;234]、以及强调文本的关键部分[235;236;237]等。其他一些工作修改注意机制以降低复杂性，这样才能适应更长的序列[238;165;166;167]。
• 记忆总结。增强记忆效率的第二种策略取决于“记忆总结”的概念。这可确保智体毫不费力地从历史交互中提取关键细节。已经有各种技术来总结记忆。一些方法使用提示简洁地整合记忆[168]，而另一些则强调反射过程以创建压缩的记忆表示[22]。分层方法将对话简化为简要说明和总体摘要[170]。值得注意的是，特定的策略将环境反馈转化为文本封装，这样智体在未来参与时增强了对上下文的了解[169]。此外，在多智体环境中，智体通信的重要元素被捕获并保留[171]。
• 向量或数据结构做记忆压缩。采用合适的数据结构，智体提高了记忆检索效率，促进了对交互的快速响应。值得注意的是，有几种方法依赖于为记忆部分、规划或对话历史编码的嵌入向量[109;170;172;174]。另一种方法是将句子转换为三重配置[173]，而有些方法将记忆视为独特的数据目标，促进了各种交互[176]。此外，ChatDB [175]和DB-GPT [239]将LLMrollers与SQL数据库集成在一起，通过SQL命令实现数据操作。

推理和规划

以证据和逻辑为基础的推理是人类智力努力的基础，是解决问题、决策和批判性分析的基石[240;241;242]。演绎、归纳和溯因是智力努力中普遍认可的推理主要形式[243]。对于像人类一样基于LLM智体，推理能力对于解决复杂任务至关重要[25]。

关于大型语言模型的推理能力存在不同的学术观点。一些人认为语言模型在预训练或微调期间具有推理能力[243]，而另一些人则认为是在达到一定规模后出现的[26;244]。具体来说，代表性的思维链（CoT）方法[95; 96]已被证明可以通过引导LLM在输出答案之前产生根本缘由，这样引出大型语言模型的推理能力。还提出了一些其他策略来提高LLM的性能，如自一致性（self-consistency）[97]，自润色（self-polish）[99]，自我完善（self-refine）[178]和选择推理（selection-inference）等。一些研究表明，一步步推理的有效性可归因于训练数据的局部统计结构，变量之间局部结构依赖性，比在所有变量进行训练能产生更高的数据效率[245]。

规划是人类在面对复杂挑战时采用的关键策略。对于人类来说，规划有助于组织思想、设定目标、以及确定实现这些目标的步骤[246;247;248]。就像人类一样，规划的能力对智体至关重要，而这个规划模块的核心是推理能力[249;250;251]。这为基于LLM智体提供了一个结构化的思维过程。通过推理，智体将复杂的任务解构为更易于管理的子任务，为每个子任务设计适当的规划[252;253]。此外，随着任务的进展，智体可以采用内省来修改规划，确保他们更好地与现实世界的情况保持一致，从而实现自适应的和成功的任务完成。
通常规划包括两个阶段：规划制定和反思。
规划制定。在规划制定过程中，智体通常会将一项总体任务分解为许多子任务，并且在此阶段提出了各种方法。值得注意的是，一些论文主张基于LLM智体一次性全面分解问题，立即制定一个完整的规划，然后按顺序执行[98;179;254;255]。相比之下，CoT系列等其他研究采用适应性策略，一次规划和解决一个子任务，从而在处理整个复杂任务时更加流畅[95;96;256]。此外，一些方法强调分层规划[182;185]，而另一些方法则强调一种策略，其中最终规划是从树状结构的推理步骤中得出的。后一种方法认为，智体在最终确定规划之前应该评估所有可能的路径[97;181;184;257;184]。虽然基于LLM智体表现出广泛的通用知识，但在处理需要专业知识的情况时，偶尔还是会面临挑战。将其与特定领域的规划者整合来增强这些智体，已被证明是可以产生更好的性能[125;130;186;258]。
规划反思。在制定规划时，必须反思和评估其优点。基于LLM智体利用内部反馈机制，通常从预存在的模型中汲取见解，磨练和增强其策略和规划方法[169;178;188;192]。为了更好地与人类的价值观和偏好保持一致，智体积极与人类互动，能够纠正一些误解，并将这种定制的反馈吸收到规划方法中[108;189;190]。此外，可以从真实或虚拟环境中获取反馈，例如来自任务完成或行动后观察的线索，帮助修改和完善其规划[91;101;187;191;259]。

任务的泛化

研究表明，指令微调的LLM表现出零样本的泛化，无需特定任务的微调[24;25;105;106;107]。随着模型大小和语料库大小的扩大，LLM逐渐在不熟悉的任务中表现出涌现能力[132]。具体来说，LLM可以根据自己的理解按照说明完成在训练阶段没有遇到的新任务。其中一种实现是多任务学习，例如，FLAN [105] 在指令描述的任务集合上微调语言模型，T0 [106] 引入了一个统一的框架，将每个语言问题转换为文本-到-文本格式。尽管纯粹是一种语言模型，但 GPT-4 [25] 在各种领域和任务中表现出非凡的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等 [31]。值得注意的是，提示中的选择对于适当的预测至关重要，直接在提示上进行训练可以提高模型在泛化到新任务时的鲁棒性[263]。有希望的是，这种泛化能力可以通过扩大模型大小和训练指令的数量或多样性来进一步增强[94; 264]。

如图是感知模块的分类：

添加图片注释，不超过 140 字（可选）

人类和动物都依靠眼睛和耳朵等感觉器官从周围环境中收集信息。这些感知输入被转换成神经信号并发送到大脑进行处理[298; 299]，使其能够感知世界并与世界互动。同样，对于基于LLM智体来说，从各种来源和模式接收信息至关重要。这种扩展的感知空间有助于智体更好地了解他们的环境，做出明智的决策，并在更广泛的任务中表现出色，使其成为一个重要的发展方向。智体将此信息处理到大脑模块，以便通过感知模块进行处理。

如图是动作的分类：

添加图片注释，不超过 140 字（可选）

人类感知到环境后，大脑会与感知到的信息进行整合、分析和推理，并做出决策。随后，他们利用神经系统来控制自己的身体，从而对环境做出适应性或创造性的动作，例如进行对话、躲避障碍物或生火。当一个智体拥有类似大脑的结构，具有知识、记忆、推理、规划和泛化、以及多模态感知能力时，也有望拥有类似于人类的各种动作来应对周围的环境。在智体的构造中，动作模块接收大脑模块发送的动作序列，并执行动作与环境进行交互。

具身动作

在追求通用人工智能（AGI）的过程中，具身智体被认为是一个关键的范式，同时它努力将模型智能与物理世界相结合。具身假说[356]从人类智能开发过程中汲取灵感，并假设智体的智能来自与环境的持续互动和反馈，而不是仅仅依赖于精心策划的教科书。同样，与传统深度学习模型不同，其从互联网数据集中学习显式功能以解决领域问题，预计基于LLM智体的行为将不再局限于纯文本输出或调用精确的工具来执行特定的领域任务[357]。相反，应该能够主动感知、理解和与物理环境交互，根据LLM广泛的内部知识做出决策并产生特定行为来修改环境。统称为具身行为，使智体能够以与人类行为非常相似的方式与世界互动和理解世界。
• 具身动作泛化。智体能力应超出特定任务。当面对错综复杂的未知现实世界环境时，智体必须表现出动态学习和泛化能力。然而，大多数强化学习算法旨在训练和评估特定任务的相关技能[101;366;367;368]。相比之下，通过多样化的形式和丰富的任务类型进行微调，LLM展示了非凡的跨任务泛化能力[369; 370]。例如，PaLM-E对新目标或现有目标的新组合表现出令人惊讶的零样本或单样本泛化能力[120]。此外，语言能力代表了基于LLM智体的一个独特优势，既可以作为与环境互动的手段，也可以作为将基础技能转移到新任务的媒介[371]。SayCan [179]用LLM将提示中呈现的任务指令分解为相应的技能命令，但在部分可观察的环境中，有限的先前技能通常无法达到令人满意的性能[101]。为了解决这个问题，Voyager[190]引入技能库组件来不断收集新自我验证技能，这就允许智体局备终身学习能力。
• 具身动作规划。规划构成了人类以及基于LLM智体用来应对复杂问题的关键策略。在LLM表现出非凡的推理能力之前，研究人员引入了分层强化学习（HRL）方法，而高级策略约束了低级策略的子目标，而低级策略产生适当的行动信号[372;373;374]。与高层策略的作用类似，具有涌现推理能力的LLM[26]可以以零样本或少样本的方式无缝地应用于复杂任务[95;97;98;99]。此外，来自环境的外部反馈可以进一步提高基于LLM智体的规划性能。基于当前的环境反馈，一些工作[101;91;100]动态地生成、维护和调整高级动作规划，尽量减少对部分可观察环境中先验知识的依赖，从而为规划奠定基础。反馈也可以来自模型或人类，通常可以称为批评者，根据当前状态和任务提示去评估任务完成情况[25; 190]。

根据智体在任务中的自主程度或操作的复杂性，有几个基本的基于LLM的具身动作，主要包括观察、操作和导航。

如图是基于 LLM 智体应用程序的方案。主要介绍三种场景：单智体部署、多智体交互和人-智体交互。单智体具有多种能力，可以在各种应用方向上表现出色的任务解决性能。当多智体相互作用时，可以通过合作或对抗实现进步。此外，在人机交互中，人工反馈可以使智体更高效、更安全地执行任务，而智体还可以为人类提供更好的服务。

添加图片注释，不超过 140 字（可选）

如图是模拟智体社会的概述。整个框架分为两部分：智体和环境。可以在这个图观察到：（1）左图：在个体层面上，智体表现出规划、推理和反思等内部行为。还显示出涉及认知、情感和性格的内部人格特质。（2）中图：一个智体和其他智体可以形成群体，表现出合作等群体行为。（3）右图：环境，无论是虚拟的还是物理的，都包含人类演员和所有可用的资源。对于单智体，其他智体也是环境的一部分。（4）智体具有感知和行动与环境互动的能力。

添加图片注释，不超过 140 字（可选）

其他部分略过。