Bootstrap

第81期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 大语言模型与代码安全:一项系统性文献综述

简介:大语言模型(LLMs)已成为用于自动化各类编程任务(包括与安全相关的任务,如检测和修复漏洞等)的强大工具。尽管它们具备令人期待的能力,但在需要生成或修改已有代码时,大语言模型可能会引入编程人员所不知的漏洞。在分析代码时,它们可能会遗漏明显的漏洞,或者提示不存在的漏洞。

在这项系统性文献综述(SLR)中,研究者旨在研究将大语言模型用于各类与代码相关任务时的安全益处以及潜在缺陷。具体而言,首先,研究者聚焦于大语言模型在用于生成代码时可能引入的漏洞类型。其次,研究者分析大语言模型在任意给定代码中检测和修复漏洞的能力,以及所选用的提示策略如何影响它们在这两项任务中的表现。最后,研究者深入分析针对大语言模型的数据投毒攻击会如何影响其在上述任务中的表现。

链接:

https://arxiv.org/abs/2412.15004

2. SATA:一种通过简单辅助任务关联实现大语言模型(LLM)越狱的范例

简介:大语言模型(LLMs)在各类任务中取得了重大进展,但其安全性对齐仍是一个主要关注点。探索越狱提示语能够暴露大语言模型的漏洞,并为保障其安全的相关工作提供指引。现有的方法主要是为大语言模型设计复杂的指令让其遵循,或者依赖多次迭代,而这可能会阻碍越狱的性能和效率。

在这项工作中,研究者提出了一种新颖的越狱范例 —— 简单辅助任务关联(SATA),它能够有效绕过大语言模型的安全防护并诱导出有害的回应。具体而言,SATA 首先会对恶意查询中的有害关键词进行掩码处理,以生成一个包含一个或多个MASK特殊标记的相对无害的查询。然后,它会采用一项简单的辅助任务,如掩码语言模型任务或按位置查找元素任务,来对被掩码的关键词的语义进行编码。最后,SATA 将辅助任务与被掩码的查询关联起来,共同执行越狱操作。

大量实验表明,SATA 实现了最先进的性能,并且大幅优于基准方法。具体来说,在 AdvBench 数据集上,使用掩码语言模型(MLM)辅助任务时,SATA 实现了 85% 的总体攻击成功率(ASR)以及 4.57 的有害分数(HS);而使用按位置查找元素(ELP)辅助任务时,SATA 达到了 76% 的总体攻击成功率(ASR)以及 4.43 的有害分数(HS)。

链接:

https://arxiv.org/abs/2412.15289

3. JailPO:一种针对经过对齐的大语言模型,通过偏好优化实现的新型黑盒越狱框架

简介:与人类反馈对齐的大语言模型(LLMs)近期受到了极大关注。然而,它仍然容易受到越狱攻击,在这种攻击中,攻击者会操纵提示语以诱导出有害的输出内容。对越狱攻击进行探究,能够使研究者研究大语言模型的漏洞,并进一步指导研究者增强其安全性。遗憾的是,现有技术主要依赖手工制作的模板或基于生成的优化,这在可扩展性、效率和通用性方面带来了挑战。

为解决这些问题,研究者提出了 JailPO,这是一种新颖的黑盒越狱框架,用于检验大语言模型的对齐情况。出于可扩展性和通用性的考量,JailPO 精心训练攻击模型,使其能够自动生成隐蔽的越狱提示语。此外,研究者引入了一种基于偏好优化的攻击方法,以增强越狱的有效性,进而提高效率。为了分析模型的漏洞,研究者提供了三种灵活的越狱模式。

大量实验表明,JailPO 不仅能在保持有效性的同时实现攻击过程的自动化,而且相较于基准方法,在效率、通用性以及针对防御的鲁棒性方面都展现出了更优异的表现。此外,研究者对 JailPO 的三种模式进行分析后发现,基于复杂模板的攻击展现出了更高的攻击强度,而隐蔽的问题变换则会引出风险更高的回应,并且更有可能绕过防御机制。

链接:

https://arxiv.org/abs/2412.15623

4. 任务护盾:强制任务对齐以防御大语言模型智能体中的间接提示注入

简介:大语言模型(LLM)智能体正越来越多地被部署为对话助手,它们能够通过工具集成来执行复杂的现实世界任务。这种与外部系统交互以及处理各类数据源的能力增强了,虽然功能强大,但也带来了重大的安全隐患。特别是,间接提示注入攻击构成了严重威胁,外部数据源中嵌入的恶意指令可能操纵智能体,使其偏离用户意图。

虽然现有的基于规则约束、源聚焦以及认证协议的防御手段展现出了一定前景,但它们在保持强大安全性的同时难以维持任务功能。研究者提出了一种新颖且独特的视角,将智能体安全从预防有害行为重新定义为确保任务对齐,要求智能体的每一项行动都服务于用户目标。

基于这一见解,研究者开发了 “任务护盾”,这是一种测试时防御机制,它会系统地验证每一条指令和工具调用是否有助于实现用户指定的目标。通过在 “智能体道场”(AgentDojo)基准测试上进行的实验,研究者证明了 “任务护盾” 在 GPT-4o 上可将攻击成功率降低至 2.07%,同时能维持较高的任务实用性(69.79%)。

链接:

https://arxiv.org/abs/2412.16682

5. 扩散攻击者:用于大语言模型越狱的扩散驱动型提示操纵

简介:大语言模型(LLMs)在接收到精心构造的输入提示时,容易生成有害内容,这种漏洞被称为大语言模型越狱。随着大语言模型变得愈发强大,研究越狱方法对于增强安全性以及使模型符合人类价值观至关重要。传统上,越狱技术依赖于添加后缀或提示模板,但这些方法存在攻击多样性有限的问题。

本文介绍了 “扩散攻击者”(DiffusionAttacker),这是一种受扩散模型启发的、用于越狱改写的端到端生成式方法。研究者的方法采用序列到序列(seq2seq)文本扩散模型作为生成器,以原始提示为条件,并通过一种新颖的攻击损失来引导去噪过程。

与之前使用自回归大语言模型来生成越狱提示的方法不同(那些方法会限制对已生成词元的修改,并约束改写空间),“扩散攻击者” 利用序列到序列扩散模型,能够进行更灵活的词元修改。这种方法在保留原始提示语义内容的同时生成有害内容。此外,研究者利用了 “软离散采样”(Gumbel-Softmax)技术,使从扩散模型输出分布中进行采样的过程可微,从而无需进行迭代式词元搜索。

在 “对抗基准”(Advbench)和 “有害基准”(Harmbench)上进行的大量实验表明,“扩散攻击者” 在包括攻击成功率、流畅性和多样性等各项评估指标上的表现均优于之前的方法。

链接:

https://arxiv.org/abs/2412.17522

6. 词元高亮器:检查并缓解大语言模型的越狱提示

简介:大语言模型(LLMs)正越来越多地被集成到诸如 ChatGPT 之类的服务中,以便为用户的查询提供回复。为减轻潜在危害并防止滥用,人们齐心协力,通过将人类反馈强化学习(RLHF)等各类技术融入大语言模型的训练当中,使这些模型符合人类价值观并遵守法律法规。然而,近期研究表明,即便经过校准的大语言模型也容易受到被称为 “越狱攻击” 的对抗性操纵影响。

为应对这一挑战,本文提出了一种名为 “词元高亮器”(Token Highlighter)的方法,用于检查并缓解用户查询中潜在的越狱威胁。“词元高亮器” 引入了一个名为 “确认损失”(Affirmation Loss)的概念,用以衡量大语言模型回答用户查询的意愿。然后,它利用用户查询中每个词元的 “确认损失” 梯度来定位对越狱起关键作用的词元。此外,“词元高亮器” 利用研究者提出的 “软移除”(Soft Removal)技术,通过缩小关键词元的词元嵌入来缓解这些词元的越狱影响。

在两个经过校准的大语言模型(LLaMA - 2 和 Vicuna - V1.5)上进行的实验结果表明,所提出的方法能够有效抵御多种越狱攻击,同时在 AlpacaEval基准的良性问题上保持良好性能。此外,“词元高亮器” 是一种性价比高且具有可解释性的防御手段,因为它只需向受保护的大语言模型查询一次就能计算 “确认损失”,而且在拒绝回答时能够高亮显示关键词元。

链接:

https://arxiv.org/abs/2412.18171

;