题目
探索快速工程:基于 SWOT 分析的系统评价
论文地址: https://arxiv.org/abs/2410.12843
摘要
在本文中,我们对大型语言模型 (LLM) 领域的提示工程技术进行了全面的 SWOT 分析。我们强调语言原理,研究各种技术以确定它们的优势、劣势、机会和威胁。我们的研究结果为增强人工智能交互和提高语言模型对人类提示的理解提供了见解。分析涵盖了包括基于模板的方法和微调在内的技术,解决了与每种方法相关的问题和挑战。结论提供了未来的研究方向,旨在提高提示工程在优化人机通信方面的有效性。含义陈述:提示工程增强了与大型语言模型 (LLM) 的通信。我们的 SWOT 分析确定了各种技术的优势、劣势、机会和威胁,包括基于模板的方法和微调。通过关注语言原理,我们提供了改善人工智能交互和对人类提示的理解的见解。这项研究提高了人工智能的能力并解决了挑战,为更有效的人机交流铺平了道路。这些发现有利于客户服务、教育等领域的应用,从而带来更可靠、响应更快的人工智能系统。
索引词——大型语言模型、自然语言处理、提示工程、提示工程技术
简介
提示工程是人工智能领域中一个发展迅速的领域,尤其专注于优化人与大型语言模型 (LLM) 之间的交互 。提示工程的核心是设计和构建输入(称为提示),以从人工智能系统中获得最准确、最相关和最有用的响应。这种实践以语言学原理为基础,利用对语言模式和结构的理解来设计有效指导人工智能行为的提示。大型语言模型的出现凸显了提示工程的重要性 [9]。这些模型在生成类人文本、文本转图像、文本转视频、回答问题以及执行各种语言任务方面表现出了卓越的能力。
然而,它们的表现在很大程度上取决于提示的制作水平。有效的提示工程可以显著提高人工智能响应的准确性和相关性,使交互更加直观和高效。已经开发出各种技术来改进提示工程,包括基于模板的方法,其中使用固定结构来标准化提示,以及使模型适应特定任务或领域的微调方法。这些技术旨在缓解歧义、偏见和上下文敏感性等常见问题,从而提高人工智能输出的稳健性和可靠性。随着人工智能继续更深入地融入日常应用,提示工程在确保无缝和有意义的人机通信方面的作用变得越来越重要。
主要发现,本文的主要发现如下:
- 协同作用:确定了人工智能、语言学和即时工程之间的协同作用。
- 技术:确定并分类了许多即时工程方法。
- 指标:确定了用于评估不同即时工程方法的众多指标,包括 BLEU、BERTScore、ROUGE 和 Perplexity。
- SWOT 分析:确定了各种即时工程技术的优势、劣势、机会和威胁。
方法论
这项调查对即时工程领域进行了广泛的研究,结合了来自著名学术数据库和在线平台(如 IEEE Xplore、ACM 数字图书馆、Google Scholar 等)的 100 多篇论文的见解。使用与即时工程相关的关键字进行查询以收集一套全面的出版物。
背景
提示工程涉及制定定制的指令或提示,以将高级语言模型(例如 GPT-3)的响应引导至特定结果(例如,指示 ChatGPT 生成特定文本)。提示工程涉及设计输入提示,以从大型语言模型 (LLM) 中引出准确且有价值的响应。提示工程是指制定和改进输入查询(称为“提示”)以从大型语言模型 (LLM) 中获得特定结果的实践。这些提示在指导 LLM 产生既相关又有益的输出方面起着关键作用。提示工程创建了一种设计解决不同问题的提示的方法,允许跨各个领域进行定制。它通过合并多种提示策略来增强 LLM 输出,并促进知识LLM 用户和开发者之间的共享。提示工程简化了 LLM 应用程序开发,节省了时间并提供可定制的交互。它简化了常见问题的解决,提高了响应准确性并促进了对话式 AI 的发展。提示工程将显著增强大型语言模型 (LLM) 的功能,促进精确和快速的语言输出。
这个新兴领域不仅有望提高效率和优化跨部门运营,而且还为那些精通提示制作的人开辟了新的职业道路。随着复杂提示的不断进步,我们可以期待 LLM 管理的用户界面更加直观,从而实现精细的内容生成和探索以前无法实现的 LLM 应用程序。提示工程通过促进对 LLM 行为和能力的更深入理解来增强 LLM 应用程序,引导 LLM 提供真实且信息丰富的响应。它通过将优化的提示与传统学习技术相结合来促进小样本学习,从而产生更高效的聊天机器人、虚拟助手和专门用于对话式 AI 的提示工程工具。因此,它在通过提高 LLM 性能来推进 NLP 任务方面发挥着至关重要的作用。提示工程通过使用特定的单词和格式制定详细的指令来引导生成式 AI 获得所需的输出。这个涉及反复试验的创造性过程确保 AI 与用户进行有意义的交互并满足应用程序的期望。
提示工程中的语言学原理 Marjorie McShane 和 Sergei Nirenburg认为,人工智能时代的语言学基于四大支柱:
- 支柱 1:在统一代理框架内开发语言处理。
- 支柱 2:受人类启发的解释性 AI 建模和可操作的见解。
- 支柱 3:对语言学学术的贡献和学习。
- 支柱 4:使用所有启发式证据进行意义提取和表示。
Marjorie McShane 和 Sergei Nirenburg提出的人工智能语言学四大支柱与以下描述中定义的即时工程的几个方面有相似之处:在统一代理框架内进行开发(支柱 1)符合即时工程的目标,即简化 LLM 应用程序开发并提供可定制的交互,提高语言输出效率和响应准确性。这种联系强调了复杂系统的集成以及两个领域的一致性目标。受人类启发的解释性人工智能建模(支柱 2)反映了即时工程背后的意图,即促进对 LLM 行为和能力的更深入理解,指导 LLM 提供真实且信息丰富的响应。两者都强调了类似人类的理解和推理在人工智能系统中的重要性。
学习和贡献语言学研究(支柱 3)与提示工程方面相平行,提示工程涉及基于反复试验设计和改进提示,这需要理解语言及其细微差别。这反映了双方对推进语言知识并将其应用于增强 AI 能力的共同兴趣。在提示工程方法中可以看到,将启发式证据纳入意义提取(支柱 4),以设计提示,从 LLM 中引出准确而有价值的反应。这两个领域都利用全面的数据和见解来改进语言的解释和生成。图 1 和表 I 说明了 AI 语言学和提示工程之间的融合。
图 1. 即时工程中人工智能、语言学、心理学和创造力的融合
相关工作
即时工程技术简要调查 已经进行了许多调查,以提供现有即时工程技术的概述和总结,强调进步、应用和实践见解(见表 II)。然而,我们的研究不同,我们进行了全面的优势劣势机会和威胁 (SWOT) 分析,特别关注与每种技术相关的优势、劣势、机会和威胁。此外,我们深入研究了塑造即时设计的语言学原理,并提出了有针对性的研究方向,以应对当前的挑战并增强未来的人工智能交互。 不同类型的即时工程技术 不同类型的即时工程技术如下。表 III 提供了每种技术的摘要。
表 I 人工智能语言学支柱与提示工程方面之间的协同作用
- 自动推理和工具使用:自动推理和工具使用 (ART)是一个计算框架,旨在增强大型语言模型 (LLM) 在少样本和零样本设置中解决复杂问题的能力。ART 结合了 LLM 生成的通过执行外部工具,ART 可以实现“思路链” (CoT) 推理,从而实现超越标准语言处理的任务。这种集成使 ART 能够自动生成中间推理步骤,这些步骤被格式化为可执行程序,并通过工具交互策略性地整合外部数据。ART 通过从任务库中选择适当的多步骤推理模板,并将外部工具的响应动态地整合到 LLM 的工作流程中来运行。通过基于工具交互点暂停和恢复 LLM 的输出生成,以数学方式管理此过程,形式化为:其中 f 表示将工具输出整合到 LLM 推理过程中的函数。
表二 快捷工程技术调查总结
- 思维链 (CoT):思维链 (CoT) 提示是一种通过生成中间推理步骤来促进复杂推理的技术。这种方法允许大型语言模型 (LLM) 逐步阐明其思维过程,从而提高其处理更多问题的能力复杂的任务需要先进行初步推理才能做出反应。思维链提示可以表示为:
这里,
- K0 定义为包含初始问题陈述 s 的起点。
- ri 表示每个推理步骤,其中 g 是一个函数,它对 LLM 的处理进行建模,以根据当前知识状态 Ki−1 和初始问题陈述 s 生成推理步骤。
- Ki 将每个推理步骤累积到知识库中,有效地建立在每个先前步骤的基础上。
- Outputfinal 表示最终结果,h 根据所有推理步骤后完全积累的知识 Kn 计算得出。
CoT 提示已通过多种创新方法适应多语言环境。其中一种方法是 Huang 等人开发的 XLT(跨语言思维)提示,它使用一个包含六个不同指令的提示模板,包括角色分配、跨语言推理和 CoT。此外,秦等人(2023a) 提出的跨语言自洽提示 (CLSP) 采用集成技术构建多种语言的推理路径,进一步拓宽了思路链提示在多语言环境中的适用性和有效性。虽然思路链 (CoT) 提示在英语中取得了巨大成功,但其在低资源语言中的应用仍然有限。为了解决这一差距,柴等人开发了 xCoT,这是一个将知识从高资源语言转移到低资源语言的框架,增强了多语言 CoT 推理能力。尽管跨语言思路链 (CoT) 推理取得了进展,但现有方法仍面临局限性,因为需要手动指定语言并在不同语言推理路径之间进行静态权重分配。为了克服这些挑战,张教授引入了 AutoCAP,这是一个框架,可以自动选择语言并为零样本 CoT 的不同推理路径动态分配权重分数,从而显着提高性能和通用性。
Shi 等人通过思维链 (CoT) 提示探索大型语言模型的多语言推理能力,表明它们在解决各种语言任务(如多语言小学数学 (MGSM) 基准)方面的有效性随着模型规模的扩大而增强,并扩展到代表性良好和代表性不足的语言。然而,该研究强调了使用 CoT 提示实现稳健的多语言性能对模型大小的依赖存在一个关键差距,强调需要更高效的架构或训练策略,以便在不进行大量扩展的情况下实现类似的结果。 Chen 等人通过引入一种结合多领域、多步骤和多模态推理能力的新基准来解决现有多模态思维链 (CoT) 基准中的关键差距。 尽管取得了这些进步,但他们的研究结果表明,视觉大型语言模型 (VLLM) 难以在这个复杂的 CoT 框架内准确执行,凸显了 VLLM 与人类能力之间的显著性能差异。 这项开创性的工作为未来探索和增强多模态推理系统奠定了基础。
- 定向刺激提示:定向刺激提示 (DSP)是一种提示工程方法,它在提示中嵌入特定的指导或刺激,以将语言模型的反应引导至期望的结果。 该方法通过在任务描述旁边包含微妙的提示或明确的说明来增强模型的性能和相关性。 在 DSP 中,将称为“定向刺激”的离散标记引入提示中以指导模型。例如,在摘要任务中,这些刺激可能包括要在摘要中反映的必要关键字。此过程的数学表示如下:
其中:
-
x 是原始输入。
-
pP OL(z | x) 是从 x 生成定向刺激 z 的策略语言模型。
-
pLLM(y | x, z) 是基于输入 x 和定向刺激 z 生成输出 y 的语言模型。 pLLM 的参数保持不变,保持模型的效率和稳定性,同时通过额外的刺激提供精确的指导。
-
少量提示:少量提示是一种通过在提示中包含示例演示来增强上下文学习的技术。这些示例指导模型根据提供的上下文为后续任务生成准确的响应。在少量提示中,模型的行为受少量示例的影响。让我们表示:
-
x 为原始输入或查询。
-
{(xi , yi)} k i=1 为 k 个少样本示例的集合,其中每个示例由一个输入 xi 和一个相应的输出 yi 组成。
-
pLM(y | x, {(xi , yi)} k i=1) 为基于输入 x 和少样本示例生成输出 y 的语言模型。
少样本提示的数学表示可以写成:其中 {(xi,yi)}ki=1 是提供给模型的 k 个少样本示例,用于指导其生成输出 y。Lee 等人探讨了 ChatGPT 和提示工程在英语教育中自动生成问题的功效,证明了通过少样本提示技术可以显着提高问题的有效性。然而,它强调了通过少样本提示优化某些问题类型方面的差距,表明需要进一步改进以增强 AI 生成的教育内容的多功能性和可靠性。Timo Schick 和 Hinrich Schutze证明,将文本说明与基于示例的微调相结合的 Pet 方法在真正的少样本设置中表现强劲,而无需开发集,在 RAFT 基准上取得了新的最先进结果。
然而,该研究强调了在真正的少样本学习场景中实现最佳性能所需的特定设计选择和配置的理解存在差距,表明需要进一步研究智能提示处理和配置。 Xi Ye 和 Greg Durrett研究了使用解释提示 GPT3 等大型语言模型 (LLM) 是否能增强文本推理任务的上下文学习。他们的研究发现,虽然解释为大多数模型提供了小到中等的准确度提升,但 text-davinci-002 的好处更为显著。然而,解释往往与模型的预测或事实依据不一致。Chengyu Wang 等人介绍了 TransPrompt,这是一个利用可迁移提示嵌入在类似的 NLP 任务中进行少样本文本分类的框架。TransPrompt 使用通过多任务元知识获取过程训练的元学习者,采用去偏技术保持任务无关性。大量实验表明,TransPrompt 的表现优于强基线。然而,优化不同任务的可迁移性和去偏技术仍然是一个挑战,需要进一步研究。
- 生成知识提示:生成知识提示 [57] 是一种通过两个关键步骤提高语言模型在多项选择常识推理任务上的性能的技术:知识生成和知识集成。在此类任务中,给定问题 q ∈ Q,我们预测答案 aˆ ∈ Aq,其中 Aq 是问题 q 的选项集。该方法包括两个步骤:1. 知识生成:生成以问题为条件的知识陈述 Kq:
- Kq:与问题 q 相关的生成知识陈述集。
- km:针对问题 q 生成的单个知识陈述。
- pG(k | q):给定问题 q,生成知识陈述 km 的概率分布。
- m:表示集合 Kq 中不同知识陈述的索引。
- M:生成的知识陈述总数。
知识集成:将生成的知识集成到决策过程中进行推理:
- aˆ:问题 q 的预测答案。
- Aq:问题 q 的可能答案选项集。
-pI (a | q, Kq):给定问题 q 和生成的知识 Kq,答案 a 的概率。
arg maxa∈Aq:查找使概率最大化的答案 a 的操作。
相比之下,如果不使用生成的知识,推理模型将得出:
- aˆ:没有额外生成的知识时对问题 q 的预测答案。
- pI (a | q):仅给定问题 q,无需生成的知识 Kq,答案 a 的概率。
- arg maxa∈Aq:仅基于问题 q 找到答案 a 的操作,该操作使概率最大化。
Jiajin Tang 等人在知识提示概念的基础上,提出了一个名为 CoTDet 的框架,该框架将知识提示与思路链推理相结合,用于任务驱动的对象检测。CoTDet 使用知识提示从大型语言模型中提取和应用必要的可供性知识,重点关注使各种对象能够执行特定任务的属性。然后,它采用多级思路链 (MLCoT) 推理通过原理将这些知识系统地链接到对象属性。这种组合增强了物体检测和定位,与现有方法相比,CoTDet 在框和掩模 AP 方面都实现了显着改进。 同样,Jianing Wang 等人引入了 KP-PLM,这是一个使用自然语言提示用事实知识增强预训练语言模型的框架。这种方法避免了对 PLM 架构进行复杂的修改和来自知识库的冗余信息。KP-PLM 采用知识子图和两个自监督任务来提高性能。实验表明,它在自然语言理解任务中优于当前方法。
此外,Jianing Wang 等人提出了知识链 (CoK) 提示来解决思维链 (CoT) 提示在推理任务中的局限性。 CoK 提示旨在以结构化三元组的形式引出显性知识证据,灵感来自人类的推理过程。为了提高可靠性,作者引入了 F² 验证方法来评估推理链的真实性和忠实性,促使模型重新考虑不可靠的响应。大量实验表明,CoK 提示进一步提高了各种推理任务的性能,包括常识、事实、符号和算术推理。张丽慧和李瑞凡提出了用于无监督常识问答的知识提示对比学习 (KPCL) 模型。KPCL 通过使用 dropout 来提高性能噪声用于增强,无监督对比学习用于细微问题处理,通用提示用于零样本知识生成。张晓涵等人通过他们的框架 DKPROMPT 将知识提示与视觉语言模型结合起来。该方法整合了基于 PDDL 的经典规划领域的知识,以增强 VLM 的开放世界任务规划。DKPROMPT 有效地弥合了 VLM 的视觉语言能力与经典规划的鲁棒性之间的差距,与传统方法和仅使用 VLM 的方法相比,其任务完成率更高。
- 图提示:图提示是提示工程中的一种技术,它利用图数据为机器学习模型创建更有效的提示。它将任务重新表述为类似于借口任务,从而能够直接使用预训练模型。该方法整合了来自图的关系和上下文信息,提高了提示的精确度和相关性。图形提示有两种主要类型:
- 离散提示:这些提示利用自然语言或特定图形元素来创建提示。它们涉及手动或自动制作的模板,这些模板包含基于图形的知识,使其适合需要明确上下文信息的任务。
- 连续提示:这些提示涉及学习的表示或嵌入。连续提示动态调整嵌入空间中的输入数据,利用图形表示学习方法生成上下文丰富的提示。
图形提示的数学框架可以概括如下:其中 x 是输入样本,θprompt 表示提示中包含的任务相关知识参数。对于预训练阶段,采用链接预测任务从图 G = (V, E) 中学习可泛化的知识:其中 Sv 是节点 v 的上下文子图,δ 是预定阈值。子图表示 sx 使用 ReadOut 操作计算:对于下游任务,例如链接预测、节点分类和图分类,使用以下公式:
可学习的提示可以进一步细化特定任务的子图表示:其中 pt 是可学习提示向量,⊙ 表示元素乘法。最后,通过以下方式确定给定提示的最可能答案:其中 Z 是可能答案的集合,P 是概率或相似度函数。图提示有效地利用图结构来生成上下文丰富的提示,从而提高机器学习模型在各种与图相关的任务中的性能和适应性。
- 迭代提示:迭代提示是提示工程中的一种方法,其中给予生成式 AI 工具的提示会逐步完善,以增强其响应的相关性、准确性和深度。这种方法类似于对话交流,其中每个答案都有助于塑造下一个问题,从而允许根据反馈进行持续学习和调整。在迭代提示中,该过程涉及几个基本步骤:
- 初始提示:从广泛、开放式的提示开始,以评估 AI 对任务的初步理解。
- 响应分析:检查 AI 的响应的相关性和深度,确定差距或需要改进的领域。
- 提示细化:根据初始响应调整提示,并加入特别有见地或相关的特定关键字或短语。
- 反馈循环:将过程视为一个连续的反馈循环,其中每次提示迭代都由之前迭代的响应提供信息。
- 实验测试:测试不同的提示样式并在多个示例上验证细化的提示,以确保稳健性和有效性。
迭代提示过程可以用数学表示如下:给定 x0(初始输入),初始化:对于每次迭代 t 都执行:直到收敛或最大迭代次数。输出:
其中:
- x0:初始输入或问题陈述。
- pt:第 t 次迭代时的提示。
- rt:第 t 次迭代时 AI 模型的响应。
- et:第 t 次迭代时的错误或反馈。
- fprompt:生成初始提示的函数。
- fresponse:生成 AI 响应的函数。
- ferror:评估响应以识别错误的函数。
- frefine:根据错误细化提示的函数。
- ffinal:生成最终输出的函数。
迭代提示类似于迭代研究,侧重于通过设计、学习和细化进行持续改进,确保 AI 工具与研究目标准确一致,并提高数据分析的效率和效果。
- 从最少到最多提示:从最少到最多提示是提示工程中的一种技术,它教语言模型通过将复杂问题分解为更简单的子问题来解决复杂问题。它涉及两个主要阶段:分解:初始提示演示如何将复杂问题分解为可管理的子问题。子问题解决:后续提示引导模型依次解决每个子问题,直到原始问题得到解决。此方法可以用数学表示如下:
第 1 阶段:分解:其中 D 是子问题集 {d1, d2, . . . , dn},fdecompose 是应用于原始问题 P 的分解函数。第 2 阶段:子问题求解对于 i = 1, 2, . . . , n,其中 si 是子问题 di 的解,fsolve 是考虑先前解的求解函数。第 3 阶段:积分:其中 fintegrate 是结合所有子问题解的积分函数。
- 自洽性:自洽性是提示工程中的一项技术,通过为给定提示生成多个候选输出并汇总结果来提高语言模型的准确性。这种方法利用不同的推理路径来提高答案的可靠性。给定一个提示和一个问题,自洽性引入了一个潜在变量 ri ,其中 ri 表示第 i 个输出中的推理路径,从而得出答案 ai 。最终答案是根据对候选答案 a1、a2、…、am 的多数投票来选择的。
其中,如果 ai = a,则 1(ai = a) 为 1,否则为 0。更详细地讲,假设生成的答案 ai 来自一个固定的答案集,ai ∈ A,其中 i = 1, . . . , m 索引从解码器采样的 m 个候选输出。给定一个提示和一个问题,自洽性引入了一个额外的潜在变量 ri ,它是表示第 i 个输出中的推理路径的标记序列。这将 (ri , ai) 的生成耦合起来,其中 ri → ai ,即生成推理路径 ri 是可选的,仅用于得出最终答案 ai 。该方法可以正式表示为:
其中联合概率 P(ri, ai |提示, 问题) 分解为给定推理路径和提示生成答案的概率,以及给定提示和问题的推理路径的概率。 要计算 P(ri, ai |提示, 问题),我们可以采用给定 (提示, 问题) 的模型生成 (ri, ai) 的非规范化概率,也可以通过输出长度对条件概率进行规范化:
其中 log P(tk|prompt, question, t1, . . . , tk−1) 是在 (ri , ai) 中基于前几个标记生成第 k 个标记 tk 的对数概率,K 是 (ri , ai) 中的标记总数。
自洽可以应用于最终答案来自固定答案集的问题。 通过在推理过程中引入多样性,该技术增强了语言模型输出的鲁棒性和准确性。
- 顺序提示:顺序提示是自然语言处理任务中使用的一种策略,通过使用前几步的结果作为下一步预测的先验知识来提高预测的准确性。 在这种方法中,任务涉及根据先前的预测和初始输入提取元素 ei。 该过程使用一个步骤的输出作为下一步的输入提示。 给定输入 X = [x1, x2, . . . , xm],目标是提取元素集合 E = {ei} |E| i=1。
- 初始提取:
- 后续预测:
这里,P(e|X) 是在给定输入 X 的情况下元素 e 的概率,P(e|e1, e2, . . . , ei−1, X) 是在给定先前元素 (e1, e2, . . . , ei−1) 和输入 X 的情况下元素 e 的概率。顺序提示策略利用这些条件概率,使用先前的结果迭代地细化预测。
- 思想树(ToT):思想树(ToT)是一个由引入的用于增强语言模型在复杂任务上性能的高级框架。ToT 通过维护解决问题的中间步骤或“思想”的层次结构来扩展思路链提示。该框架允许语言模型自我评估进度,并使用广度优先搜索和深度优先搜索等搜索算法系统地探索不同的路径,结合前瞻和回溯技术。通过这样做,ToT 能够进行更有效的探索和战略规划,提高模型的推理和解决问题的能力。Long 等在此想法的基础上,建立了一个 ToT 框架,该框架使用经过强化学习训练的“ToT 控制器”来适应和学习新数据,提供比传统搜索方法更具动态性的方法。
Hulbert 将 ToT 概念简化为一种单一的提示技术,其中语言模型逐步评估中间思想,使其更易于访问和直接。Sun通过大规模实验进一步推进了 ToT,并引入了 PanelGPT,这是一种模拟语言模型之间的小组讨论的创造性方法,以对提示技术进行基准测试和增强。思想树 (ToT) 框架通过利用树状搜索策略来增强问题解决能力。树中的每个节点代表一个部分解决方案 s = [x, z1:i ],其中 x 是初始输入,z1:i 是迄今为止的思想序列。该过程涉及四个主要部分:
- 思想分解:将问题分解为可管理的思想步骤。
- 思维生成:使用独立同分布抽样或提议提示抽样等策略为下一步思维步骤生成多个候选。
- 状态评估:使用启发式或深思熟虑的推理提示评估每个状态以评估解决方案的进展。
- 搜索算法:使用广度优先搜索 (BFS) 或深度优先搜索 (DFS) 等搜索策略来探索和扩展最有希望的思维路径。
从数学上讲,ToT 可以表示为:思维的产生:状态评估:这样就可以利用预先训练的语言模型进行系统性的探索、前瞻和回溯,而无需额外的训练。
- 零样本提示:当代的大型语言模型(LLM)如 GPT-3.5 Turbo、GPT-4 和 Claude 3 都是在大量数据集上进行训练的,并且经过了优化以遵循指令。这种全面的训练使这些模型能够以“零样本”的方式执行任务。零样本提示涉及向模型提供任务指令,而不提供任何具体的示例或演示。直接指示模型仅根据给定的提示执行任务。
评估
提示工程的指标提示工程涉及战略性地制定输入,以引导语言模型(LLM)实现期望的输出。评估提示工程的有效性需要考虑几个关键指标。表 IV 列出了用于评估提示工程的关键指标。这些指标涵盖了语义相似性、多样性和语言可接受性等类别。例如,BERTScore 和 STS-B 等指标关注生成文本和参考文本之间的语义相似性,而 ROUGE 和 BLEU 则通过比较 n-gram 和词序列来衡量多样性。CoLA 和 Perplexity 等指标分别评估语言的可接受性和预测性能。理解和应用这些指标对于优化提示设计和增强语言模型在各种 NLP 任务中的能力至关重要。
结论
总之,这篇综述论文对大型语言模型 (LLM) 背景下的提示工程技术进行了全面的分析。通过进行 SWOT 分析,我们强调了零样本提示、少样本提示、思路链提示等各种方法的优势、劣势、机会和威胁。我们的研究结果强调了语言原理在塑造有效提示设计中的关键作用,以及这些技术增强人工智能交互和对人类提示的理解的潜力。主要发现包括确定人工智能、语言学和快速工程之间的协同作用,对众多快速工程方法进行分类,确定 BLEU、BERTScore、ROUGE 和 Perplexity 等评估指标,并对各种快速工程技术进行 SWOT 分析。尽管取得了显著的进步,但快速复杂性、计算需求和领域特定限制等挑战仍然存在。未来的研究应侧重于应对这些挑战,优化快速工程策略,并探索新的应用,以进一步提高 LLM 在各种现实场景中的有效性和可靠性。
表三 各种快速工程技术总结
表四 评估快速工程和相应技术的指标