前言
2022年末,以ChatGPT为代表的大语言模型(LLM)正式发布,智能体(Agent)研发领域仿佛搭上高速列车,进入了飞速发展的快车道,各类智能体及智能体工具平台(Agent Builder)不断涌现,AI加速落地。同年11月,OpenAI推出GPTs和GPT商店,用户无需编码即可创建个性化GPT,进而成功搭建起一个智能体及其生态系统。
澜舟科技创始人兼CEO周明博士认为,“当前已然进入后LLM时代。LLM将会持续发展,而作为LLM应用载体的智能体,必将呈现出爆发式增长态势,引领AI技术发展。同时,新一代智能体工具平台应具备与基座LLM保持独立的多层次智能体系,无需依赖单一大模型或者技术供应商,如此一来,有利于实现模块化开发,具备较强的可维护性,同时还能够建立良好的生态,促进智能体的繁荣发展。”
后 LLM 时代,智能体必将迎来爆发式的发展。
近期,AI 视频生成领域创新企业Runway联合创始人兼首席执行官 Cristóbal Valenzuela 提出见解,认为“下一波创新浪潮不会来自那些专注于打造更强大模型的公司,因为AI模型已经全面进入商业化阶段,就如每家企业都在使用互联网一样,每家企业也都会使用AI”。
总体来说,后LLM(大语言模型)时代的主要特征体现在几个方面:
- LLM作为人工智能的基础模型,技术已趋向成熟。从GPT系列的初次亮相,到如今种类繁多、各具特色的大模型,包括不断涌现的开源模型,它们不仅在语言理解、生成、推理等方面能力持续提升,还在编码、图片以及视频的理解与生成上取得了显著进展,为更高级别的应用与研究奠定了坚实基础。
- LLM技术创新速度有所放缓。尽管模型仍在持续进化,但短期内难以再出现LLM诞生初期那般革命性的技术飞跃。当前的研究与发展更多聚焦于对现有LLM的细化改进与性能优化。
- 随着LLM技术的逐步成熟,人们开始更加重视AI技术的实际应用与社会价值,而不再单纯迷恋其技术的先进性。此外,LLM所引发的技术风险与伦理挑战也日益成为社会各界关注的焦点。
在此背景下,智能体(Agent)脱颖而出,成为后LLM时代最为重要的技术。
智能体(Agent)
设想一个场景:当一位投资者计划投资某企业并向AI大模型咨询时,它或许能提供一系列看似富有建设性的建议,如“多元化投资”或“关注成长股”,但这些建议往往空洞无物,对投资者没有实质帮助。
反观人类在解决知识密集型决策问题时,会先基于经验,观察行为,再设定大目标,并逐步将其拆解为小目标,通过逐步实施动作来达成每一个小目标,最终收敛到无限接近原始目标。回到投资计划这个问题,人类思维首先会分析投资者的风险偏好、财务状况、投资目标等关键信息,再模拟不同市场条件,最终提出具体可行的投资建议。这种思维模式,即思维链,是人类解决复杂问题时的关键所在。智能体正是基于大语言模型,试图全面模仿人类在面对复杂问题时所展现的思维方式及工具使用行为的一种尝试,它旨在让智能体替代人类完成这一系列的思考过程。
至此,智能体也被定义为实现AGI的终极形态,是最有可能通往AGI的道路。
澜舟科技在大型语言模型的创新技术领域深耕细作多年,其发展历程涵盖了从轻量化预训练模型的初步探索,到孟子大模型的深度研发,再到针对垂直场景及专业领域的行业大模型的精准布局。
在市场需求的不竭驱动下,澜舟科技不仅确保了技术的持续创新,也更加注重大模型技术的实践应用与社会贡献,在智能体的研发工作中也投入了更多的资源与精力。
智能体模式架构解析
智能体(Agent)是一种能够感知环境、进行决策并采取行动以实现特定目标的实体,既可以是软件程序,也可以是具备一定智能的硬件设备。智能体凭借其强大的语言理解能力与多模态能力,成为连接人类与数字世界的桥梁。它们能够理解人类的指令,处理各种复杂任务,并以高效、准确的方式给予回应。
一般来讲,智能体包括用户界面、任务管理、记忆、知识存储、推理、学习和行动执行等模块。
- 用户界面模块:负责与用户进行交互,接收用户的输入指令和问题,并展示智能体的输出结果和反馈。包括但不限于图形界面、语音交互界面等多种形式。
- 任务管理模块:负责分析与拆解用户请求,确定任务的类型、优先级和执行流程。将任务分配给相应的模块处理,并协调各模块之间的工作。
- 记忆模块:用于存储智能体的经验、知识及历史信息。该模块可分为短期记忆和长期记忆,短期记忆用于存储当前任务相关的信息,而长期记忆用于存储长期的知识和经验。记忆模块可以帮助智能体在处理新的任务时,快速检索和利用过去的经验和知识,提高决策的效率和准确性,同时支持个性化回复和动作生成。
- 知识库模块:可存储智能体所需的各种知识,包括领域知识、经验数据及规则等。采用数据库、知识图谱等形式进行存储,便于快速检索和查询。
- 推理模块:根据用户的问题和知识库模块中的知识进行推理和分析,得出合理的结论和解决方案。目前主流技术是采用LLM机制进行推理。
- 学习模块:从用户的反馈、新的数据和经验中学习,更新和优化智能体的知识和能力。采用监督学习、无监督学习、强化学习等方法进行学习。
- 行动执行模块:根据推理模块得出的解决方案,执行具体的行动,如向某个功能组件、某外部设备发送指令或调用其他智能体等。同时,将行动的结果反馈给用户界面和其他模块,以便进行进一步的处理和优化。
应用场景包括哪些?
智能体具备广泛的应用前景,主要包括:
- 智能客服:智能客服智能体可以自动响应并解答用户的咨询问题,提供全面的客户支持和服务。借助智能体工具平台,开发者可以快速构建并部署智能客服智能体,同时根据用户的需求和反馈不断优化其性能,提升服务质量。
- 自动化流程:在企业的业务流程中,智能体可以自动执行一系列重复性、规律性的任务,如数据录入、文件处理及审批流程等。智能体工具平台可以帮助开发者构建高效的自动化流程智能体,提高企业的工作效率和管理水平。
- 智能推荐系统:智能推荐智能体可以根据用户的兴趣、行为和历史数据,为用户提供个性化的推荐服务。智能体工具平台中的学习模块和算法可以不断优化推荐结果,提高用户的满意度和忠诚度。
- 游戏开发:在游戏中,智能体可以作为游戏角色或 NPC,与玩家进行交互和对战。智能体工具平台可以帮助游戏开发者构建具有智能行为的游戏角色,为玩家带来更加丰富、有趣且具有挑战性的游戏体验。
澜舟科技已经推出了一系列基于孟子大模型的智能体应用,包括智能会议助手(澜舟智会)、知识库问答(澜舟智库)以及文档理解、写作助手、客服助手、营销助手、搜索助手等,全方位满足企业的多样化需求。
智能体的重要意义
01 克服大模型局限性,实现端对端的任务执行
大模型在处理专业领域问题时常显不足,因其主要基于公开数据集训练,缺乏领域特定或专有等非公开信息,导致回答问题可能空泛、不切实际或模式化,既不够精准或不够全面,同时难以实时更新信息以与最新数据保持同步。
相比之下,智能体能够通过与外部系统和数据源的交互,获取特定领域的最新信息,有效弥补了大模型的这一不足。比如在金融领域,智能体可以实时捕捉市场数据和财经新闻,为用户提供更准确的投资建议。
智能体还具备出色的记忆和处理能力,通过构建记忆模块或与外部存储系统交互,能更好地理解和处理长期的、多轮的交互任务,从而提供更连贯、更符合用户需求的服务。智能客服智能体便是典型例证,它能记住用户的历史咨询记录和偏好,提供更加贴心的服务。
此外,智能体还可以根据用户的个人偏好、行为习惯等信息,提供高度个性化的服务。无论是智能助手、智能推荐系统还是智能客服,智能体都能够精准满足用户的个性化需求,提升用户体验和满意度。
02 加速流程标准化,大幅提高生产力
大模型使用的效果优劣,关键在于用户提供的提示词(Prompt),该提示词需涵盖问题定义、角色设定、任务描述、执行步骤、示例以及输出格式等要素。若要体现专业与个性化能力,还需向 AI 提供业务数据以及个人关注的数据,并经过多轮精细调整,方能达到用户预期的效果。这一过程较为复杂,通常需要操作者具备一定的熟练度和专业性。
为解决此问题,智能体针对特定任务,巧妙地将复杂的技术操作、提示词以及相关数据等要素进行封装,使得普通用户仅需要通过直观的结构化界面或者自然语言命令即可高效率地完成任务。
这一创新不仅显著降低了使用难度,还极大提升了流程的标准化水平,从而有效促进了生产力的飞跃。
03 融合创新,推动人工智能生态繁荣
智能体的进步依赖于强大的多模态信息融合和处理能力,这一能力将加速不同技术领域间的交叉和创新。智能体的构建融合了语言理解、逻辑推理、记忆、学习能力及专业知识库等多个技术的综合应用,标志着其在技术层面的高度集成。因此,智能体的不断发展,必将为大语言模型(LLM)及其技术提供反馈,持续推动人工智能的发展。
为了提升智能体构建的效率和质量,智能体工具平台需依托通用或专业型LLM作为基座模型,通过调用多样化的功能组件和其他智能体,为开发者提供强大的技术支持。这一策略不仅加速了智能体的开发进程,也促进了相关技术的同步发展,共同推动了人工智能生态的繁荣。
04 促进基础设施建设,完善云计算产业链
智能体的蓬勃发展将显著驱动对云计算资源的庞大需求,直接催化云计算基础设施的建设与升级。鉴于智能体在训练和运行过程中对强大计算能力和海量的数据存储的依赖,云计算凭借其灵活、可扩展的计算资源和存储服务,成为满足这些需求的理想平台。
同时,智能体的广泛应用也会吸引更多的企业和开发者加入云计算产业的生态中,不仅促进了云计算产业链的完善和发展,还推动了整个产业生态的良性循环和发展,形成一个互利共赢、持续进化的生态系统。
图1:AI Agents的生态体系
智能体工具平台
对于非LLM专业背景的用户而言,构建一个基于 LLM 的智能体不是一件容易的事情。这要求他们不仅要掌握LLM的工作原理、能力和局限性,还需辨别不同 LLM 在性能、准确性和适用性方面的差异,从而在众多选项中精准选择,并准确解读智能体基于所选模型的行为逻辑。
此外,构建一个有效的基于 LLM 的智能体通常需要大量的高质量数据。非技术人员可能缺乏有效收集与智能体任务相关的数据,以及如何确保数据的准确性、完整性和代表性,这进一步增加了构建难度。
为解决这一难题,智能体工具平台应运而生。智能体工具平台集成了智能体构建所需的各种关键模块,如数据处理、模型调用、通信等,将这些复杂技术细节封装于内,用户无需深入探究。通过智能体工具平台,非技术人员仅需简单配置与调用,即可实现数据收集和预处理功能,大大降低了构建智能体的技术难度。
为助力快速搭建智能体,澜舟科技推出一款强大的智能体工具平台-澜舟智搭,该平台配合澜舟科技孟子大模型技术,可面向各行各业构建和部署智能体,为企业提供全方位的服务。
图2:通用智能体框架图
在近日的一次访谈中,微软AI主管Mustafa Suleyman认为“未来几年将呈现大小模型“齐头并进”的趋势。一方面,大型模型的规模化竞赛仍将持续并融入更多模态的数据,例如视频、图像等。另一方面,利用大型模型训练小型模型的技术(如蒸馏)兴起,高效的小型模型将在特定场景中发挥巨大作用。知识将被浓缩到更小、更便宜的模型中,嵌入各种设备实现环境感知。”
大一统的LLM策略存在的问题
未来,不同用途、不同尺寸的模型将同时存在。智能体工具平台的设计需要充分挖掘不同模型的价值。
当前,智能体工具平台主要依赖于所选定的基座大语言模型(LLM)来提供智能体所需的语言理解、推理、知识库、自学习等能力。然而,这种大一统的 LLM 策略存在如下一系列问题:
- 计算需求差异:自然语言理解、图像识别、逻辑推理等不同的智能任务各自具有独特的计算需求。若试图在一个模型中实现所有这些功能,很可能会超出当前计算硬件的能力范围,进而导致训练和推理过程变得极为缓慢,甚至在实际应用中变得不可行。比如,训练一个包含超大规模模型可能需要数千甚至数万个高性能 GPU,这不但成本高昂,而且在能源消耗和硬件维护方面也面临着巨大挑战。
- 数据需求多样:不同的智能任务通常需要不同类型和领域的训练数据。将所有智能能力集成在一个模型中,意味着需要收集和整理海量的、多样化的数据,这无疑是一项极其艰巨的任务。例如,自然语言处理任务需要大量的文本数据,而图像识别任务需要大量的图像数据,至于推理所需要的推理步骤的分步标注则更加费时费力。要为一个集成模型收集涵盖所有任务类型的足够数据是极为困难的,而且数据的质量和多样性也难以得到保证。
- 模型复杂度增加:一个集成了所有智能能力的模型将变得极其复杂,其结构和参数空间会非常庞大,这使得模型的设计、训练和优化变得极为困难。复杂的模型更容易出现过拟合、梯度消失或爆炸等问题,并且在调试和改进时也更加困难。当出现新的智能任务或需求时,一个庞大的集成模型可能难以快速调整和适应,而专门针对新任务设计的模型则可以更灵活地进行调整和优化。
- 技术垄断风险:大一统模型的强大能力可能会形成垄断态势,其他公司和开发者缺乏足够的竞争空间和动力去探索新的技术、算法和应用方向。
- 任务的特定性:不同的智能任务往往有其特定的需求和最佳实践,专门为某个任务设计的模型通常能够更好地适应该任务的特点,从而获得更优的性能。
此外,在医疗、金融等关键领域,模型的可解释性是非常重要的。缺乏可解释性可能会导致用户对模型的信任度降低,并且在出现问题时难以进行故障排查和改进。
依据智能水准划分智能体能力
基于上述问题及讨论,澜舟科技创始人兼CEO周明博士认为,应将智能体的能力依据其智能水准(而非功能)划分为若干层次。这种设计理念旨在提升智能体的效率、灵活性与可扩展性,使其能够更好地适应各类复杂的任务与环境。
L1:基础交互能力
这一层级主要涵盖大语言模型(LLM)已具备的通用对话、常识与通识能力,主要表现为对用户问题的理解并生成回复。随着大语言模型的快速发展,L1 的能力正从文字交互向语音、图片、视频的多模态交互拓展。这种能力是智能体与用户进行交互的基础,也是实现其他高层次功能的前提。
L2:推理与解释能力
基于 L1,L2侧重于智能体的推理机制,即智能体在处理信息和决策时的方法与过程。可以是基于规则体系或大模型机制,逐步进行推理并寻求最优解或近似最优解。目前,在 L1 的支持下,L2已具备较为简单的常识问题推理机制,但缺乏对专业问题或复杂问题的推理能力。L2 的目标是建立一种针对专业或复杂问题的通用求解机制,并能对求解过程进行解释,同时与L1保持相对独立。
L3:专家级问题解决能力
在 L1 和 L2的基础上,L3通过引入领域知识或专家知识,提供专家级别的问题求解能力,可以理解为新一代的专家系统。借助检索增强生成(RAG)机制,L3可以整合领域相关的知识,包括文本、图片和视频数据以及结构化的知识图谱。结合L1 的语言理解和交互能力,以及 L2 的推理能力,L3能够针对专门领域问题进行交互式的回答和求解。
L4:自学习能力
L4强调智能体的自学习能力,即通过与环境的交互以及自身的经验积累,不断改进自身行为和性能的能力。智能体通过记忆与用户的交互信息、获取环境信息,探索所有可能的解决方案,并根据用户选择和环境反馈机制,利用强化学习机制选择可能获得高回报的行动。用户也可以不断引入新数据,让智能体更新知识库,提升对新问题的求解能力以及提供用户个性化服务的能力。
L5:世界模型与具身智能
L5级别的智能体具备世界模型,即能够在空间和事件中建模和推理物体、地点和交互,理解三维物理世界。智能体实时获取声音、视频、传感器、文字等各种信息,通过人机接口与物理世界和机器人进行命令 - 行动过程,完成任务。例如,机器人根据用户命令或环境的感知而自主产生的动作序列,这也是具身智能所需要的能力。虽然世界模型对人工智能很重要,但目前的世界模型仍局限于具体的任务场景,例如扫地机器人内置的地图(用户可以随时更新)以及商场、酒店、银行等场所迎宾机器人的活动范围和动作规划,复杂的如自动驾驶汽车的道路数据、交通数据、驾驶决策机制等。
自我博弈与慢思考
在此需要特别指出,上述设计将目前大家所关注的 OpenAI o1 的自我博弈(self-play)和慢思考的能力引入到 L2、L3、L4 这几个层次当中。这些能力对于智能体具有重要的作用和价值。特别是在在需要深入推理的场景,比如 AI 教育、医疗诊断、深度客服、交通规划、AI4S 等领域,它们能够显著提升用户体验,但同时也带来了新的挑战。
在智能体中,自我博弈(self-play)是指智能体自己与自己进行交互和对抗,从而提升结果的准确率。通过大量的自我博弈,智能体能够积累丰富的经验,探索出不同的策略和行动方案。在这个过程中,智能体不断优化自身的决策模型,提高在特定任务中的表现。这对于一些复杂的任务和领域来说尤为重要,因为人类可能难以提供足够的指导和反馈。智能体通过自我对弈可以自主地探索问题空间,不断改进自身的性能。
而“慢思考”是指在基础模型的基础上,当处理一些复杂指令时,智能体将需求拆解成多个子任务,会调用不同的工具来完成任务,并对结果进行反思、确认,这一过程体现了一种类似于人类思维的“系统 2”的过程,即 step-by-step、可解释的且能导致更准确结果的过程。它让大模型有理解、规划、反思的迭代过程,使大模型在完成复杂任务的同时,也试图在环境中持续学习、自主进化。
然而,自我博弈和慢思考对于智能体的决策过程和结果并非完全正确,存在虚幻和似是而非的过程和结果。因此,需要操作人员识别错误、检验结果、交叉验证,这也将造成一定的不确定性和偏差,需要进一步的研究和改进来不断优化其性能。在用户体验方面,这些能力也会导致速度降低、等待时间较长、界面混乱等不利因素。特别是在在推理方面,耗时过长会增加推理能力的需求,这也给部署的成本带来了新的压力。
智能体能力层次划分的优势
那么,将智能体的不同能力分别用一个模型实现,而非用一个大模型涵盖所有能力,这种层次划分具有哪些优势呢?
首先,这种划分可以专门针对某一个层次的能力进行训练和优化。这样不仅可以缩减模型规模降低对计算资源的消耗,还能显著提升模型的迭代与优化速度。
其次,可以赋予模型高度的中立性和灵活性。不同层次的模型可以独立开发和维护,然后根据需要进行集成和组合。这种方式使得智能体的功能可以根据具体的应用需求进行灵活配置,提高了系统的可扩展性和适应性。
综上所述,将智能体的不同能力交由独立模型承担,不仅实现了模型的精准定位、小巧轻便,还确保了其高度的中立性、灵活性和维护性。这种方式可以更好地满足不同应用场景的需求,提高智能体的性能和可靠性。
这种设计所面临的挑战主要在于不同层次智能之间的适配问题。例如,选择某一大型语言模型(LLM)作为基座,该基座主要支持 L1 层级,同时部分覆盖 L2 至 L5 层级。此时,智能体则需要进一步补充 L2 到 L5 的能力。尽管随着 LLM 的不断发展,其对 L2 至 L5 的通用支持会持续增强,但在面对某一特定专业任务时,仍然可能存在支持不足的情况。因此,需要使 L2 至 L5 的能力更好地适配 L1,并且补充对该专业任务的支持,以实现更高效、精准的智能应用。
结束语
随着大语言模型(LLM)的不断成熟,当前已然迈入后 LLM 时代。智能体成功地打通了 LLM 落地的“最后一公里”,大幅提升了生产力,成为人工智能技术进步的强劲推动者。可以预料,在未来,针对任何一项常见任务,都将会有相应的智能体来提供服务。为了助力智能体的开发,智能体工具平台对各种用途的 LLM、任务组件以及业务流程进行了封装,用户只需通过拖拉拽操作以及自然语言命令,便能够快速搭建智能体。
由此,提出了分层智能的智能体工具平台,将智能体的不同能力分别交由独立的模型来实现。该框架具有模型针对性强、规模较小、中立灵活且易于维护等众多优势。通过采用这种方式,能够更好地满足不同应用场景的需求,进而提升智能体的性能与可靠性。
周明博士认为,未来应当重点关注以下智能体发展趋势:
- 多模态融合的进一步深化。
- 推理、自主学习与自我进化能力持续增强。
- 可解释性和可靠性不断提高。
- 与各行业的业务的深度融合。
- 手机上可本地运行的个人智能助手。
- 智能体与智能机器人的融合发展。
- 多智能体之间的协作与交互。
- 更加便捷的智能体工具平台。
澜舟公司不断深耕技术创新,先后成功推出孟子GPT系列大模型,并在此基础上衍生出一系列智能应用产品:澜舟智会——智能会议助手,澜舟智库——企业智能知识库平台,以及涵盖文档理解、写作辅助、客服支持、营销优化、搜索增强等多领域的智能体应用。为进一步加速智能体的开发与部署,澜舟公司推出了澜舟智搭——一款新一代的智能体工具平台。凭借在通用及专用大模型领域的深厚积累,澜舟公司已全面掌握从预训练、SFT、对齐、推理优化、国产GPU适配,到跨行业智能体构建与部署的全流程技术能力,为企业提供一站式、全方位的智能化转型服务。