从0到1：广告营销多智能体架构落地全攻略

智能体的底层逻辑

我们眼中的智能体，应具备听得懂、主动规划、执行能力强、人格化回答4大核心能力。智能体的底层逻辑抽象如下：

1. 听得懂：听得懂自然语言描述的用户请求query，根据支持的句式，准确提取出全部词槽，并翻译成机器语言。

query：用户的每句话称为query。比如“我的账户今天哪个文案转化率最高”，“转化量为啥下降了”。
句式：MRD梳理出的句式集合，比如“我的方案要增加产品描述”。
词槽：通过句式解析出的关键信息，比如“文案” “点击率” “最高” 。
机器语言：业务系统不支持自然语言请求，每个词槽都需要映射业务系统中的参数变量。比如“点击率”翻译为 “ctr”。

2. 主动规划：结合长期记忆和领域知识，通过大模型按照期望逻辑推理灵活编排执行。

期望逻辑：提示词里面会给LLM一些fewshot指定逻辑分支，帮助LLM完成正确推理。比如，准确找出分析对象和指标。
灵活编排：综合考虑用户多轮的token（按照词槽的填充情况），结合场景，最大程度灵活编排，非剧本化。

3. 执行能力强：能联动大量的业务系统，提供丰富的功能集合来执行复杂的操作。丰富的功能集合是指调用大量的业务系统功能和强大的数据检索能力。

4. 人格化回答：自然语言拟人化回应，并且能够呈现出的丰富多样的交互形态。拟人化回应是指精准的回应用户，而非固化呆板甚至答非所问。

GEEK TALK

智能体技术

在商业广告平台应用面临的挑战

2.1 智能体技术应用场景

大模型技术在商业广告平台的主要应用场景有两大类：

1. 自然语言交互控制LGUI：通过自然语言交互完成复杂的业务功能，提升长尾功能利用率，降低用户使用门槛。依赖LLM的理解、记忆能力。

2. 通过分析推理完成问题诊断解决：通过LLM的推理实现对复杂业务问题的拆解，分步求解并最终得出结果。依赖大模型的理解、逻辑、记忆能力。

以上场景都不是单一的LLM交互完成任务，需要更为复杂的Agent技术来达成。

智能体（Agent）技术在2023年之前，更多是强化学习的研究概念，随着大语言模型的兴起，被重新定义：LLM Agent=LLM+记忆+规划+工具调用。

△Agent系统原理

△LLM Agent技术进化线路

到了2023年后半期，多智能体（Multi-Agents）系统逐渐成为了业界主流。在多智能体系统中，个体智能体评估其他智能体的需求和能力，并寻求与他们的协作行动和信息共享。这种方法可以提高任务效率、改进集体决策、解决单个智能体无法独立解决的复杂现实问题，最终实现协同互补。

2.2 智能体技术应用挑战

在商业广告平台使用LLM Agent技术进行系统重构时，遇到下列技术挑战。

1.【听得懂】如何精准解析场景包含的全部客户需求，做到槽位不丢、填槽正确和高效是一个很大的技术挑战。

LLM存在幻觉，无法稳定返回正确答案。比如：同一个prompt两次请求返回不一致。
LLM多步推理正确率低，平响高。

2.【主动规划】Agent自主规划解决实际问题比例非常低，容易陷入死循环。

LLM对多个逻辑分支的推理错误率极高。类似于AutoGPT等Autonomous Agent产品demo看似惊艳，但是对于抽象复杂的问题，有效解决比例不到 10%（让AI自我规划容易产生死循环，或者会出现一步走错，步步走错的问题）。
解决现实问题需大量业务知识，很难将这些全部输入到Prompt中，梳理业务也很困难，另外LLM的上下文窗口非常有限。

3.【执行能力】业务系统接口层次不齐，注释不全、不清晰、不准确。如何能被 LLM 理解正确使用业务系统，是一个非常有挑战性的问题。

效果平台API 5000+，业务系统数据表有 360+、涉及字段5k+，但LLM的上下文窗口非常有限，很难将这些全部输入到Prompt中。
人工编写Prompt function call，工作量惊人。业务变更就需调整和优化Prompt，维护难度极大。

4.【人格化回答】业务系统输出是结构化文本，如何将它们翻译回自然语言，并根据不同的返回展现不同的交互，是个棘手的问题。

人格化回答需了解业务知识，否则LLM无法完全准确理解返回的结构化信息。
大量业务 fewshot，会引发LLM多步逻辑推理，导致回答卡顿、用户体验极差。

GEEK TALK

百度商业广告平台多智能体架构介绍

大模型尤其是文心一言技术，它的变化和演进速度是惊人的，需要把这种变化考虑到业务和产品发展路径上去，拥抱变化，不断用最新的LLM技术革新。

在线商业系统可用性要求是99.99%。轻舸上线初期，多步推理准确率只有52%，无法满足生产环境要求。轻舸初期架构通过规则为主、模型为辅(占比10%-)的方式构建LUI系统，模型只用于闲聊或兜底。但是这种LUI系统query解析准确率低，交互固化呆板，客户体验比较差，对高阶功能难以支持。

文心大模型4.0发布后，轻舸率先在GBI 智能体试水，发现文心大模型4.0准确率能够达到生产环境要求。虽然仍然存在幻觉、推理更慢（耗时高于文心大模型3.5）、自主规划解决抽象复杂问题比例低 (不到10%)等问题，但是配合一个更加先进的技术架构是能充分发挥文心大模型4.0先进性的。

在商业广告平台落地场景中，我们采用了基于文心大模型4.0的多智能体架构，支持客户趋于无限的自然语言表达，彻底放弃剧本编排，多槽位指令解析准确率、平响达到成熟系统的标准（准确率达到98.5%，平响只有1.5s，95分位值3.3s），在智能助手、JarvisBot、销售Bot均成功落地，并取得显著的收益。

该架构有三个核心技术：

1. 模型层采用“大小模型协同”架构，大模型query尽量走长期记忆，解决【听不懂】和【问答卡顿呆板】的问题。

有些小任务不需要大模型，小模型不用1s，效果还更稳定。
必须通过大模型处理的query，对查询结果长期记忆。长期记忆可以通过离线处理来预热、填充和修正。持续一段时间后，这些请求全部走长期记忆，保证了高效准确。

2. 基于领域SOP的多智能体协作，解决【无法自主规划】和【执行能力弱】的问题。

实际业务问题非常复杂，直接通过大模型自主规划基本无解。类似人类解决问题“分而治之”，我们将一个大任务拆解为多个子任务，并将各个子任务交给领域专家去解决。
基于企业SOP，将复杂问题拆解给多个智能体协作解决，有效降低了大模型的推理难度，从而达到了生产环境要求的响应速度和稳定性。标准操作程序（SOPs）编码作为智能体Prompt，指导大模型按照结构化流程工作并协调智能体各个环节，允许具有领域专长的智能体验证输出并减少复合错误，有效避免大模型的幻觉。

3. 利用长期记忆和自学习策略优化数据飞轮，解决【无法自主规划】，驱动客户增量表达。

建设完整的动态规划机制，允许智能体局部试错、回溯，强化Agent的生成质量。
建设长期记忆 + Self-Learning结合的长效机制，使得Agent因为长期记忆的积累和自学习策略越用越强。

△智能体架构进化

商业广告平台智能体应用架构如下：

整体架构包含五个方面：

1. 应用层：基于SOP组装多个垂直领域的Vertical Agent实现多智能体应用。包含轻舸智能体、智能助手、JarvisBot等。

标准操作程序（SOPs）编码：作为智能体Prompt，指导LLM按照结构化流程工作并协调智能体各个环节，提供具有领域专长的智能体验证输出并减少复合错误。

2. 智能体层：Agent Framework 基础设施、垂直领域的Vertical Agent、基于SOPs的Multi-Agents协作。

Agent Framework 基础设施：提供构建agent的基础部件和AgentWorkflow设计和执行工具。业务开发者能够基于工作流很快的设计出高质量可靠的智能体，达到LLM+P的效果。前面提过Autonomous agent并不可靠，因为其可控性很差。而提高可控性最好的方式是去帮AI设计workflow，把规划职责部分转移给业务开发人员。

LLM+P方法论：Empowering Large Language Models with Optimal Planning Proficiency 论文中提出的一种任务解决方法，通过将 LLM 和规划（Planning）进行结合，通过使用自然语言来描述任务规划，进一步生成解决方案，从而推动问题的解决。

垂直领域Vertical Agent：基于对业务理解产生了一大批细分领域的Vertical Agent。比如意图识别智能体、投放智能体、GBI智能体等，能够满足细分领域智能化需求。这类智能体具备一定的类人格特征，它能够完成业务工作流指定的各个步骤，并在某些环节部分决策，具有长期记忆。
基于SOPs的Multi-Agents协作：Agent间通过自然语言描述的SOP来分工合作实现复杂的业务应用。一个用户的query到来后，Director智能体会解读SOP编排不同的Agent参与实现复杂的业务需求。Agent间的跳转可靠性通过会话状态机来保证。会话状态机维护当前会话每一句话的意图和状态，实时判断是否满足跳转条件，使应用的答复更加的灵活智能。

3. 模型层：提供大模型、小模型和一系列模型使用配套工具。

大模型：提供一系列标准模型；提供训练模型的基础设施，包括LLMs预训练和SFT、数据集等。
小模型：可以使用厂内EasyDL/BML平台，也可以使用面向NLP开发者的开源工具包JioNLP等。小模型不存在幻觉和平响高问题，但是数据构造和训练成本开销仍然不少。模型的挑选和使用对非AI的业务同学来说也需要一定的学习成本。
配套工具：基于业务特点，封装一系列自动化工具，方便完全没有AI背景的业务rd都可以快速的上手模型训练、微调、评估等。

4. 记忆层：向量数据和长期记忆全部存储在BaikalDB。

BaikalDB 商业自研的分布式数据库系统，支撑了整个广告库的海量物料存储和复杂的业务查询，为解决LLM应用的向量需求，BaikalDB通过内置向量索引方式实现向量数据的存储和检索，同时还支持全文检索，一套系统支持结构化检索、全文检索、向量检索等丰富的检索能力，综合满足LLM应用的各种记忆存储和检索需求，有效简化智能体和RAG的实现。

向量数据：自然语言表达的用户请求通过向量检索匹配到最相近的意图、场景或知识语料等，填充LLM Prompt的context，让 LLM的回答位于最新的事实数据之上，保证意图识别和问答等的准确率，“基于事实”地约束模型，缓解幻觉问题。
长期记忆：对模型交互产生的一系列记忆，进行长期保存和管理。还会通过离线模型不断的填充和修正、清理。数据飞轮运转一段时间后，结合向量相似性检索，能够保证在线大模型的请求全部走长期记忆，有效解决了大模型的延时高、资源开销贵和幻觉等问题。

5. 数据工具集：针对智能体应用打造了一系列数据评估、测试、标注的提效工具集。

Prompt 调优平台：工程效能部建设的iEvalue等工具，提供Prompt开发调试和大模型的效果评估能力，尤其方便对文心千帆和其他开源模型的不同版本效果评估。
流量自动化录制和回放：如果利用传统的人工测试回归的方式成本非常高昂，基于java-agent探针技术的自动化流量录制和回放工具完美解决该问题。
多模型自动化标注：基于多个模型和历史正负例数据，对轻舸系统的客户QA进行准召评估，优质数据用于优化领域模型，并产出整体准召评估报告。

GEEK TALK

商业广告平台智能体应用案例

4.1 Vertical Agent-轻舸GBI智能体

轻舸GBI智能体是业界首个广告营销领域生成式 BI 产品，用户能够通过自然语言智能分析广告数据，指定任意时间格式、任意指标top类排序、人群定向条件、多指标筛选叠加等复杂计算。还能结合业务workflow计算之后进一步涌现解读报告数据并给出诊断优化建议。

主体流程包括：

GBI智能体借助洞察工作流通过LLM拆解出某个token的解析步骤，然后分发成多个子任务并行处理。
各个子任务依赖不同的小模型或者文心4.0 、文心3.5 等大模型。对于大模型尽量走长期记忆，如果记忆没有检索到再走大模型。
整体结果输出需要一个校验模型进行复合校验，拦截和修正有问题的结果。

4.2 JarvisBot智能体

JarvisBot通过全流程自然语言交互和LLM推理诊断处理两项关键技术，多AI智能体实现协作将专家经验内化，大幅降低使用门槛，通过大模型来显著提升故障处理和根因定位、架构优化的效率。

△一次线上问题的自动化诊断处理过程

主体流程包括：

Director智能体（DirectorAgent）根据用户的指令意图识别后分类对应SOP场景，组装 Agents执行流。比如上述流程编排了诊断智能体先诊断，操作智能体后操作的智能体执行流。
诊断智能体（DiagnisisAgent）通过 LLMs去拆解 SOP诊断步骤为Actions，执行完 Actions 后发布优化建议到消息总线中去，等待操作智能体获取。
操作智能体（OpsAgent）检索对应状态的AgentWorkflow工作流，每个Action应对为一个状态节点，根据用户反馈操作止损，最后返回止损结果给用户。

GEEK TALK

智能体应用的效果收益

从业务应用层面的轻舸智能体，到工程运维层面的JarvisBot，生成式AI在业务与工程两个层面均有显著受益。

【轻舸智能系统】打造全球首个AI Native营销平台“轻舸”

轻舸带来增量消费：“轻舸+生成式召回”相比于传统“关键词广告+生成式召回”，能够为整体带来更多的消费增量，也给客户带来更多新增转化。
LUI识别回答更准确更快：指令驱动准确率从85%提升到96%。打造业界首个广告营销领域GBI产品，支持广告主通过自然语言进行任意时间、top类排序、定向筛选、多指标叠加筛选等复杂计算，挖掘用户深层次需求并诊断问题。
AI 重构效率大幅提升：轻舸智能体支持既定几种句式（前端+后端）人力从3PD 降低到1PD-。借助Agent Workflow和前端智能体组件，从每次上线只支持既定几种句式，升级到单个场景整批表达。前端和后端全方位智能化革新，支持智能体涌现带来的泛化、不确定、全新的AI产品形态。

【JarvisBot】利用 LGUI+AIOps 打造了微服务治理的新范式

智能运维和故障处理：智能诊断利用LLM分析PaaS环境、微服务日志和Tracing 等根因定位，单次异常定位时间从30m+骤降为1m-；智能问答通过LLM进行文档自动总结和回复，单次节省用户定位耗时10min-。
对话式全流程智能操作：审批利用LLM结合如流工作卡自动化串联审批流程，单次等待从7PD骤减为1h-；机器人将上线操作主动通知用户，单次节省等待耗时5分钟。
智能流量录制和回放：利用大语言模型和微服务治理生态工具，将单个应用自动化回归环境建设成本从7PD降低到1h-，单接口测试节约时间1小时。

GEEK TALK

技术创新的变革思考

在整个技术架构的演变过程中，在不断拥抱新LLM技术的同时，我们在实践上也有一些自己的思考和总结：

1. LLM的幻觉问题：LLM的幻觉问题在生成式场景是一种优势，但在LUI场景的错误推理是一种劣势，而且LLM对逻辑分支较多的推理耗时长、幻觉大，无法形成LUI场景的低延迟可靠交互，因此需要借助更多的辅助手段，降低LLM处理问题的难度。不要寄希望LLM一次性解决问题，需要拆解具体的子任务来多步执行，而不是浪费时间在复杂的Prompt调优上。

2. 综合的向量数据库：向量检索是LLM应用记忆能力的核心需求，同时在应用场景，记忆需要多维度的能力，因此功能特别单一的向量数据库在实际使用中难以使用，因此我们很早就发现AI应用真正需要的是同时具备向量检索、全文检索、结构化检索的记忆能力，通过调研开源向量数据库，我们判断向量应该是数据库的一种特殊索引，且可以融入数据库的查询环节，为此我们在自研的BaikalDB基础仅花费2个月时间就完成了向量检索能力的补齐，AI应用仅需要通过sql就可以完成向量存储和检索的功能。

随着AI技术的不断发展和完善，多模态/跨模态等大模型的兴起，我们可以预期生成式AI将在未来的广告营销领域扮演更加重要的角色，带来更深层次的变革和创新。以上是商业广告平台研发团队在智能体技术的探索，欢迎大家一起交流。