Bootstrap

2024年7月8日Arxiv语言模型相关论文

ARM:使用自回归奖励模型进行高效引导解码

原标题: ARM: Efficient Guided Decoding with Autoregressive Reward Models

作者: Sergey Troshin, Vlad Niculae, Antske Fokkens

机构: 阿姆斯特丹大学 VU大学

摘要: 训练在大量数据上的语言模型需要进行仔细调整,才能安全地在现实世界中部署。我们重新审视了引导解码范式,其目标是利用来自特定任务奖励模型的分数来增强基础语言模型的logits。我们提出了一种简单但高效的自回归奖励模型参数化,实现了快速有效的引导解码。在戒毒和情感控制任务中,我们展示了我们的高效参数化与RAD表现相当,RAD是一种强大但效率较低的引导解码方法。

论文链接: https://arxiv.org/pdf/2407.04615

实体分解与过滤:零样本临床命名实体识别框架

原标题: Entity Decomposition with Filtering: A Zero-Shot Clinical Named Entity Recognition Framework

作者: Reza Averly, Xia Ning

机构: 俄亥俄州立大学

摘要: 临床命名实体识别(NER)旨在提取临床叙述中的重要实体。最近的研究表明,大语言模型(LLMs)在这一任务中可以取得很强的性能。虽然以往的研究侧重于专有的LLMs,但我们研究了针对实体识别专门训练的开放NER LLMs在临床NER中的表现。在本文中,我们旨在通过一种新颖的框架,即实体分解与过滤(EDF),来改进它们。我们的关键思想是将实体识别任务分解为几个子实体类型的检索。我们还引入了一个过滤机制来移除不正确的实体。我们的实验结果表明,我们的框架在所有指标、模型、数据集和实体类型上都表现出很好的效果。我们的分析显示,实体分解可以识别以前被忽略的实体,并取得了显著的改进。我们进一步对我们的框架进行了全面评估,并进行了深入的错误分析,为未来的工作铺平道路。

论文链接: https://arxiv.org/pdf/2407.04629

ANAH-v2:扩展大语言模型的分析性幻觉注释

原标题: ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

作者: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

机构: 上海人工智能实验室 香港科技大学 香港中文大学

摘要: 大语言模型(LLMs)在各个领域和广泛应用中的长篇问答任务中表现出幻觉。目前的幻觉检测和缓解数据集在领域和规模上受到限制,由于劳动成本高昂和现有幻觉注释者的可靠性不足而难以扩展。为了促进大语言模型幻觉的可扩展监督,本文介绍了一种迭代自训练框架,同时逐步扩展幻觉注释数据集并提高幻觉注释者的准确性。基于期望最大化(EM)算法,在每次迭代中,该框架首先应用幻觉注释流水线对一个扩展数据集进行注释,然后在数据集上训练一个更准确的幻觉注释者。这个新的幻觉注释者被采用在下一次迭代中用于幻觉注释流水线。大量实验结果表明,最终获得的仅具有7B参数的幻觉注释者超越了GPT-4的性能,并通过零样本推理在HaluEval和HalluQA上获得了新的最先进的幻觉检测结果。这样的注释者不仅可以评估大规模数据集上各种LLMs的幻觉水平,还可以帮助减轻LLMs生成的幻觉,自然语言推理(NLI)指标在HaluEval上从25%增加到37%。

论文链接: https://arxiv.org/pdf/2407.04693

通过操纵学习数据使用神经网络测试学习假设

原标题: Testing learning hypotheses using neural networks by manipulating learning data

作者: Cara Su-Yi Leong, Tal Linzen

机构: 纽约大学 数据科学中心 语言学系

摘要: 尽管被动语态在英语中是常见的,但并非完全通用——存在一些例外情况(例如*会议持续了一个小时)。英语使用者是如何学习这些例外情况以外的通用模式的呢?通过将神经网络语言模型作为习得理论,我们探讨学习者可以利用的间接证据来源,以了解一个动词是否能被转换为被动语态。我们首先描述英语使用者对被动语态例外情况的判断,确认使用者认为有些动词比其他动词更容易转换为被动语态。然后我们展示神经网络语言模型可以学习到与人类展示的类似的被动语态限制,这表明这些例外情况的证据在语言输入中是可用的。我们通过在修改后的训练语料库上训练模型来测试语言模型学习这些限制的两种假设的因果作用,我们通过改变现有训练语料库来创建修改后的训练语料库,以消除每个假设涉及的输入特征。我们发现,动词在被动语态中出现的频率显著影响其是否能被转换为被动语态,而动词的语义则不会。这项研究突显了改变语言模型的训练数据对于回答需要对学习者的输入进行完全控制的问题的实用性。

论文链接: https://arxiv.org/pdf/2407.04593

我,我自己和人工智能:用于大语言模型的情境感知数据集(SAD)

原标题: Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs

作者: Rudolf Laine, Bilal Chughtai, Jan Betley, Kaivalya Hariharan, Jeremy Scheurer, Mikita Balesni, Marius Hobbhahn, Alexander Meinke, Owain Evans

机构: 独立、星座、麻省理工学院、阿波罗研究

摘要: 像ChatGPT这样的AI助手经过训练,可以回答用户说,“我是一个大语言模型”。这引发了一些问题。这些模型是否知道它们是LLMs并可靠地根据这一知识行事?它们是否意识到自己目前的情况,比如被部署到公众中?我们将模型对自身和周围环境的了解称为情境意识。为了量化LLMs的情境意识,我们引入了一系列基于问答和指令遵循的行为测试。这些测试构成了 情境意识数据集(SAD) \textbf{情境意识数据集(SAD)} 情境意识数据集(SAD,包括7个任务类别和超过13,000个问题。该基准测试了许多能力,包括LLMs的能力:(i)识别自己生成的文本,(ii)预测自己的行为,(iii)确定提示是来自内部评估还是真实世界部署,以及(iv)遵循依赖于自我知识的指令。
我们在SAD上评估了16个LLMs,包括基础(预训练)和聊天模型。虽然所有模型表现均优于随机猜测,但即使是得分最高的模型(Claude 3 Opus)在某些任务上也远低于人类基准。我们还观察到,在SAD上的表现仅部分由一般知识指标(例如MMLU)预测。聊天模型,这些模型经过微调以充当AI助手,在SAD上表现优于其对应的基础模型,但在一般知识任务上表现不佳。SAD的目的是通过将情境意识分解为定量能力,促进对LLMs情境意识的科学理解。情境意识很重要,因为它增强了模型进行自主规划和行动的能力。虽然这对自动化有潜在好处,但也引入了与AI安全和控制相关的新风险。代码和最新结果可在此https URL找到。

论文链接: https://arxiv.org/pdf/2407.04694

其他链接: https://situational-awareness-dataset.org

迭代自我完善中的自发奖励篡改

原标题: Spontaneous Reward Hacking in Iterative Self-Refinement

作者: Jane Pan, He He, Samuel R. Bowman, Shi Feng

机构: 纽约大学 人类学,PBC 乔治·华盛顿大学

摘要: 语言模型能够根据自然语言反馈迭代地改进其输出,从而实现对用户偏好的上下文优化。在人类用户的位置上,可以使用第二个语言模型作为评估者,提供反馈以及数值评分,生成器试图优化这些评分。然而,由于评估者是用户偏好的不完美代理,这种优化可能导致奖励破解,即评估者的评分提高,而生成质量则保持不变甚至随着实际用户偏好的判断而下降。奖励破解的担忧在迭代自我完善中被加剧,在这种情况下,生成器和评估者使用相同的基础语言模型,这种优化压力可能驱使它们利用共享的漏洞。通过使用一项论文编辑任务,我们展示了迭代自我完善导致语言模型评估者和人类判断之间的偏差,证明了奖励破解可以在使用迭代自我完善的情境中自发发生。此外,我们研究了奖励破解发生的条件,并观察到影响奖励破解严重程度的两个因素:模型大小和生成器与评估者之间的上下文共享。

论文链接: https://arxiv.org/pdf/2407.04549

还(尚未)完整的故事:评估视觉叙事需要不仅仅是衡量连贯性、基础和重复。

原标题: Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition

作者: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle

机构: 阿姆斯特丹大学逻辑、语言和计算研究所

摘要: 视觉叙事是指在给定一个时间顺序的图像序列的情况下生成自然语言故事。这项任务不仅对模型具有挑战性,而且由于对于什么构成一则“好故事”没有共识,使用自动度量衡来评估也非常困难。在这篇论文中,我们介绍了一种新方法,根据先前工作中强调的三个关键方面(视觉基础、连贯性和重复性)来衡量故事质量。然后我们使用这种方法来评估几种模型生成的故事,结果显示基础模型LLaVA获得了最佳结果,但与TAPM相比,TAPM是一个规模小50倍的视觉叙事模型。升级TAPM的视觉和语言组件会产生一个具有竞争性表现的模型,且参数数量相对较低。最后,我们进行了一项人类评估研究,结果表明一则“好故事”可能需要超过人类水平的视觉基础、连贯性和重复性。

论文链接: https://arxiv.org/pdf/2407.04559

通过预训练执行句法转换来加强结构归纳偏好

原标题: Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations

作者: Matthias Lindemann, Alexander Koller, Ivan Titov

机构: 爱丁堡大学 萨尔兰大学 阿姆斯特丹大学

摘要: 模型需要适当的归纳偏差,才能有效地从少量数据中学习,并在训练分布之外系统地推广。虽然Transformer非常灵活和强大,但它们仍然可以从增强的结构归纳偏差中受益,特别是对于涉及句法转换的seq2seq任务,比如将主动语态转换为被动语态或语义分析。在这篇论文中,我们提出通过中间预训练来加强Transformer的结构归纳偏差,以执行给定转换描述的依赖树的合成生成句法转换。我们的实验证实,这有助于少样本学习句法任务,比如分块,并且还改善了语义分析的结构泛化。我们的分析表明,中间预训练导致注意力头跟踪哪些句法转换需要应用于哪个标记,并且模型可以利用这些注意力头来处理下游任务。

论文链接: https://arxiv.org/pdf/2407.04543

在突尼斯方言的低资源语音理解(SLU)和自动语音识别(ASR)中,对语音编码器性能进行分析。

原标题: Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect

作者: Salima Mdhaffar, Haroun Elleuch, Fethi Bougares, Yannick Estève

机构: 阿维尼翁大学 伊莱亚数据 巴黎 Elyadata

摘要: 通过自监督学习(SSL)预训练的语音编码器在各种下游任务中表现出色,包括口语理解(SLU)和自动语音识别(ASR)。例如,对这些任务进行SSL模型微调显示出显著潜力,提高了在具有挑战性数据集上的SOTA性能。与现有研究相比,本文通过比较SSL方法在以下情境中的有效性做出了贡献:(i)低资源的突尼斯阿拉伯方言,(ii)将其与低资源的SLU和ASR场景相结合,在这种情况下,仅有少量语义标注可用于微调。我们在TARIC-SLU数据集上使用许多SSL语音编码器进行实验。我们使用了在单语或多语音数据上预训练的语音编码器。其中一些还通过多模式监督师生范式在没有领域内或突尼斯数据的情况下进行了改进。这项研究得出了许多重要发现,我们将在本文中进行讨论。

论文链接: https://arxiv.org/pdf/2407.04533

PoPreRo:一个用于预测罗马尼亚 Reddit 帖子受欢迎程度的新数据集

原标题: PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts

作者: Ana-Cristina Rogoz, Maria Ilinca Nechita, Radu Tudor Ionescu

机构: 布加勒斯特大学

摘要: 我们介绍了 PoPreRo,这是从 Reddit 收集的第一个用于预测罗马尼亚帖子受欢迎程度的数据集。PoPreRo 数据集包括来自罗马尼亚五个不同子社区的帖子样本,共计 28,107 个数据样本。除了我们的新数据集,我们还介绍了一组竞争性模型,可作为未来研究的基准。有趣的是,排名第一的模型在测试集上实现了 61.35% 的准确率和 60.60% 的宏观 F1 分数,表明在 PoPreRo 上的受欢迎程度预测任务非常具有挑战性。基于少样本提示的 Falcon-7B 大语言模型的进一步研究也指向同一方向。因此,我们相信 PoPreRo 是一个有价值的资源,可用于评估模型在预测罗马尼亚社交媒体帖子受欢迎程度方面的表现。我们在此 https URL 上发布了我们的数据集。

论文链接: https://arxiv.org/pdf/2407.04541

Github: https://github.com/ana-rogoz/PoPreRo

GPT 对比 RETRO:探索检索和参数高效微调的交集

原标题: GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning

作者: Aleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev

机构: 英伟达(NVIDIA)

摘要: 参数高效微调(PEFT)和检索增强生成(RAG)已成为调整大型语言模型并最小化计算需求的流行方法。在本文中,我们将PEFT方法(P-tuning、Adapters和LoRA)应用于修改后的检索增强Transformer(RETRO)和基准GPT模型,涵盖了从8.23亿到480亿参数的多个规模。我们展示了在零样本设置中,由于其独特的预训练过程,RETRO模型胜过GPT模型,但GPT模型在PEFT方面具有更高的性能潜力。此外,我们的研究表明,8B参数模型在成本和性能之间达到了最佳平衡,而P-tuning落后于其他PEFT技术。我们进一步对将PEFT应用于经过指令调整的RETRO模型和基准RETRO模型进行了比较分析。这项工作首次全面比较了集成RAG的各种PEFT方法应用于GPT和RETRO模型,突出它们的相对性能。

论文链接: https://arxiv.org/pdf/2407.04528

利用图结构来检测大语言模型中的幻觉

原标题: Leveraging Graph Structures to Detect Hallucinations in Large Language Models

作者: Noa Nonkes, Sergei Agaronian, Evangelos Kanoulas, Roxana Petcu

机构: 阿姆斯特丹大学

摘要: 大语言模型被广泛应用于各种任务,如客户支持、内容创作、教育辅导和提供财务指导。然而,众所周知的缺点是它们倾向于生成幻觉。这损害了这些模型提供信息的可信度,影响了决策和用户信心。我们提出了一种方法,通过查看潜在空间的结构并找到幻觉和非幻觉生成之间的关联来检测幻觉。我们创建了一个连接在嵌入空间中紧密相连的生成物的图结构。此外,我们使用了一个图注意力网络,该网络利用消息传递来聚合来自相邻节点的信息,并根据它们的相关性为每个邻居分配不同程度的重要性。我们的研究结果表明:1)存在一个在潜在空间中区分幻觉和非幻觉生成的结构,2)图注意力网络可以学习这种结构并将其推广到未见过的生成物,3)当结合对比学习时,我们的方法的鲁棒性得到增强。在与基于证据的基准测试相比时,我们的模型在没有使用基于搜索的方法的情况下表现类似。

论文链接: https://arxiv.org/pdf/2407.04485

通用人工智能与专业人工智能:评估乌尔都语大语言模型

原标题: Generalists vs. Specialists: Evaluating Large Language Models for Urdu

作者: Samee Arif, Abdul Hameed Azeemi, Agha Ali Raza, Awais Athar

机构: 拉合尔管理科学学院 EMBL-EBI

摘要: 在这篇论文中,我们比较了通用预训练模型GPT-4-Turbo和Llama-3-8b-Instruct与针对特定任务微调的专用模型XLM-Roberta-large、mT5-large和Llama-3-8b-Instruct。我们专注于七个分类任务和六个生成任务,以评估这些模型在乌尔都语上的性能。乌尔都语拥有7000万母语使用者,但在自然语言处理(NLP)中仍然代表不足。尽管大型语言模型(LLMs)不断取得进展,但它们在包括乌尔都语在内的低资源语言中的表现仍有待探讨。我们还对生成任务进行了人类评估,并将结果与GPT-4-Turbo和Llama-3-8b-Instruct进行的评估进行了比较。我们发现,专用模型在各种任务中始终优于通用模型。我们还发现,GPT-4-Turbo对生成任务的评估与人类评估更加接近,而与Llama-3-8b-Instruct的评估相比。本文通过提供有关通用和特定用途LLMs在低资源语言中的有效性的见解,为NLP社区做出了贡献。

论文链接: https://arxiv.org/pdf/2407.04459

使用大语言模型根据CIViC证据模型为医学论文打标签

原标题: Using LLMs to label medical papers according to the CIViC evidence model

作者: Markus Hisch, Xing David Wang

机构: 柏林洪堡大学

摘要: 我们将序列分类问题CIViC Evidence引入医学自然语言处理领域。CIViC Evidence指的是将临床证据的标签分配给研究了各种基因组变异、癌症类型和治疗方法组合的科学论文摘要的多标签分类问题。我们使用不同的语言模型来处理CIViC Evidence:我们在CIViC Evidence数据集上微调了预训练的BERT和RoBERTa检查点,并挑战了它们在已在特定领域文本上预训练的相同架构模型的性能。在这种情况下,我们发现BiomedBERT和BioLinkBERT可以在CIViC Evidence上胜过BERT(类支持加权F1分数绝对改进+0.8%和+0.9%)。与基于二元tf-idf分数训练的逻辑回归相比,所有基于Transformer的模型都表现出明显的性能优势(F1分数提高了1.5-2.7%)。我们将上述类似BERT的模型与OpenAI的GPT-4在少样本设置中进行比较(在我们原始测试数据集的一个小子集上),结果显示,没有额外的提示工程或微调,GPT-4在CIViC Evidence上的表现不如我们的六个微调模型(加权F1分数为66.1%,而最佳微调模型为71.8%)。然而,性能与基于二元tf-idf分数训练的逻辑回归模型的基准相当接近(加权F1分数为67.7%)。

论文链接: https://arxiv.org/pdf/2407.04466

TokenVerse:通过基于转录器的自动语音识别统一语音和自然语言处理任务

原标题: TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR

作者: Shashi Kumar, Srikanth Madikeri, Juan Zuluaga-Gomez, Iuliia Nigmatulina, Esaú Villatoro-Tello, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju

机构: Idiap研究所 瑞士 苏黎世大学 捷克共和国布尔诺理工大学 LIDIAP,洛桑联邦理工学院(EPFL) Uniphore,印度

摘要: 在传统的语音对话智能中,通常会使用级联流水线,涉及诸如语音活动检测、说话人分离、转录等任务,然后使用不同的 NLP 模型进行后续处理,如语义端点标记和命名实体识别(NER)。我们的论文介绍了 TokenVerse,这是一个基于单个 Transducer 模型设计的模型,旨在处理多个任务。通过在 ASR 模型训练过程中将特定于任务的 Token 集成到参考文本中,实现了简化推理过程,消除了对单独的 NLP 模型的需求。除了 ASR 外,我们还对3个不同任务进行了实验:说话人变更检测、端点标记和 NER。我们在公共和私有数据集上的实验表明,所提出的方法在相对 WER 方面将 ASR 改善了高达 7.7%,同时在各个任务的性能上优于级联流水线方法。此外,我们提出了将任务迁移学习到现有 TokenVerse 中的新任务的方法。

论文链接: https://arxiv.org/pdf/2407.04444

多语言自动语音识别的罗马化编码

原标题: Romanization Encoding For Multilingual ASR

作者: Wen Ding, Fei Jia, Hainan Xu, Yu Xi, Junjie Lai, Boris Ginsburg

机构: NVIDIA Corporation

摘要: 我们引入罗马化编码用于脚本密集型语言,以优化多语言和代码切换的自动语音识别(ASR)系统。通过在FastConformer-RNNT框架中采用罗马化编码以及平衡的连接标记器,并配备Roman2Char模块,我们显著减少了词汇量和输出维度,实现了更大的训练批次和减少的内存消耗。我们的方法将声学建模和语言建模解耦,增强了系统的灵活性和适应性。在我们的研究中,将这种方法应用于汉英ASR,词汇量显著减少了63.51%,在SEAME代码切换基准上性能提升明显,分别为13.72%和15.03%。对汉韩和汉日的消融研究突显了我们方法处理其他脚本密集型语言复杂性的强大能力,为更多多功能和有效的多语言ASR系统铺平了道路。

论文链接: https://arxiv.org/pdf/2407.04368

从《Showgirls》到《表演者》:使用性别包容语言进行微调,减少大语言模型中的偏见

原标题: From ‘Showgirls’ to ‘Performers’: Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs

作者: Marion Bartl, Susan Leavy

机构: 都柏林大学 数据分析洞察SFI研究中心

摘要: 性别偏见不仅存在于大语言模型(LLMs)及其训练数据中,而且根植于语言结构本身。因此,调整LLM训练数据中的语言结构以促进性别包容性可以使模型内的性别表征更具包容性。我们的工作重点是英语中的性别专属词缀,比如"show-girl"或"man-cave",这些词可以持续传播性别刻板印象和对性别的二元概念。我们利用一个LLM训练数据集编制了一个包含692个性别专属术语及其性别中立变体的目录,并从中开发了一个性别包容的微调数据集,即"Tiny Heap"。通过用这个数据集微调三种不同的LLMs,我们观察到模型整体上对性别刻板印象的倾向有所减少。我们的方法为增强LLM训练数据中的性别包容性提供了一种实用方法,并有助于将酷儿女权主义语言活动纳入自然语言处理中的偏见缓解研究中。

论文链接: https://arxiv.org/pdf/2407.04434

为增强可解释性而打造大语言模型

原标题: Crafting Large Language Models for Enhanced Interpretability

作者: Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng

机构: 清华大学 赫尔辛基大学

摘要: 我们介绍了概念瓶颈大语言模型(CB-LLM),这是一种开创性的方法,用于创建固有可解释的大语言模型(LLMs)。与传统的依赖有限神经元功能洞见的事后解释方法的黑盒LLMs不同,CB-LLM通过其内置的可解释性、可扩展性和提供清晰准确解释的能力,树立了新的标准。这种创新不仅推动了语言模型的透明度,还增强了它们的有效性。我们独特的自动概念校正(ACC)策略成功地缩小了与传统黑盒LLMs之间的性能差距,将CB-LLM定位为一种将传统LLMs的高准确性与清晰可解释性的附加优势相结合的模型——这是现有LLMs中明显缺失的特征。

论文链接: https://arxiv.org/pdf/2407.04307

LearnerVoice:非母语英语学习者自发语音数据集

原标题: LearnerVoice: A Dataset of Non-Native English Learners’ Spontaneous Speech

作者: Haechan Kim, Junho Myung, Seoyoung Kim, Sungpah Lee, Dongyeop Kang, Juho Kim

机构: KAIST 韩国科学技术院 Ringle 韩国 University of Minnesota 美国

摘要: 来自第二语言(L2)学习者的口语中普遍存在的不符合语法规范的表达和口吃现象给自动语音识别(ASR)系统带来了独特的挑战。然而,为L2学习者的口语量身定制的数据集很少。我们公开发布了LearnerVoice 数据集,其中包含50.04小时的L2学习者口语音频和转录。我们的语言分析显示,我们数据集中的转录包含L2S(L2学习者的自发语音)特征,其中包括不符合语法规范的表达和口吃(例如,填充词、词重复、自我修正、启动失败),显著多于母语数据集。使用LearnerVoice 对 whisper-small.en 进行微调,实现了10.26% 的词错误率(WER),比基准的 whisper-small.en 降低了44.2%。此外,我们的定性分析表明,基准模型在 LearnerVoice 上的错误中有 54.2% 可归因于 L2S 特征,其中 48.1% 在经过微调的模型中得到了减少。

论文链接: https://arxiv.org/pdf/2407.04280

在线说话人辨识系统在延迟方面的系统性评估

原标题: Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency

作者: Roman Aperdannier, Sigurd Schacht, Alexander Piazza

机构: 安斯巴赫应用科学大学 德国

摘要: 在这篇论文中,针对不同的在线说话人分离系统在相同硬件和相同测试数据上的延迟进行了评估。延迟是从音频输入到相应说话人标签输出的时间跨度。作为评估的一部分,比较了DIART框架内的各种模型组合,这是一个基于在线聚类算法UIS-RNN-SML和端到端在线说话人分离系统FS-EEND的说话人分离系统。DIART-pipeline结合嵌入模型pyannote/embedding和分割模型pyannote/segmentation实现了最低的延迟。FS-EEND系统显示出类似良好的延迟。总的来说,目前没有公开发表的研究比较了几种在线说话人分离系统的延迟。这使得这项工作更加相关。

论文链接: https://arxiv.org/pdf/2407.04293

BiosERC:将传记说话者与大语言模型集成,用于ERC任务

原标题: BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks

作者: Jieying Xue, Minh Phuong Nguyen, Blake Matheny, Le Minh Nguyen

机构: 日本科学技术高级研究所

摘要: 在对话情绪识别任务中,最近的研究利用注意力机制探索了发言者之间和发言者内部话语之间的关系,用于建模他们之间的情绪互动。然而,诸如说话者个性特征等属性仍未被探索,并在适用于其他任务或与不同模型架构兼容方面存在挑战。因此,这项工作引入了一个名为BiosERC的新框架,该框架研究了对话中的说话者特征。通过使用大语言模型(LLMs),我们提取了对话中说话者的“传记信息”,作为注入模型的补充知识,用于为每个话语分类情绪标签。我们提出的方法在三个著名基准数据集:IEMOCAP、MELD和EmoryNLP上取得了最先进的结果,展示了我们模型的有效性和泛化能力,并展示了其在适应各种对话分析任务方面的潜力。我们的源代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2407.04279

Github: https://github.com/yingjie7/BiosERC

负采样损失函数中平滑方法的统一解释在知识图嵌入中

原标题: Unified Interpretation of Smoothing Methods for Negative Sampling Loss Functions in Knowledge Graph Embedding

作者: Xincan Feng, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe

机构: 奈良科学技术大学 东京大学

摘要: 知识图谱(KGs)是自然语言处理中知识密集型任务中的基本资源。由于手动创建知识图谱的限制,知识图谱补全(KGC)通过使用知识图嵌入(KGE)对链接进行评分,自动完成知识图谱起着重要作用。为了处理训练中的许多实体,KGE依赖于负采样(NS)损失,通过采样可以降低计算成本。由于知识图谱中每个链接的出现频率最多为一次,稀疏性是一个重要且不可避免的问题。NS损失也不例外。作为解决方案,KGE中的NS损失依赖于平滑方法,如自对抗负采样(SANS)和子采样。然而,由于缺乏理论理解,目前尚不清楚哪种平滑方法适用于此目的。本文提供了关于KGE中NS损失的平滑方法的理论解释,并引入了一种新的NS损失,即三元自适应负采样(TANS),可以涵盖传统平滑方法的特征。在FB15k-237、WN18RR和YAGO3-10数据集及其更稀疏子集上的TransE、DistMult、ComplEx、RotatE、HAKE和HousE的实验结果显示了我们解释的合理性,以及我们的TANS带来的性能改进。

论文链接: https://arxiv.org/pdf/2407.04251

ArAIEval 共享任务:单模态和多模态阿拉伯语内容中的宣传技术检测

原标题: ArAIEval Shared Task: Propagandistic Techniques Detection in Unimodal and Multimodal Arabic Content

作者: Maram Hasanain, Md. Arid Hasan, Fatema Ahmed, Reem Suwaileh, Md. Rafiul Biswas, Wajdi Zaghouani, Firoj Alam

机构: 卡塔尔计算研究所,新不伦瑞克大学,哈马德本哈利法大学,卡塔尔西北大学 教育城

摘要: 我们介绍了作为ArabicNLP 2024会议的一部分与ACL 2024同期举办的ArAIEval共享任务第二版的概述。在这个版本中,ArAIEval提供了两个任务:(i)检测推广性文本片段中的说服技术识别,包括推文和新闻文章,以及(ii)区分推广性和非推广性的表情包。共有14个团队参加了最终评估阶段,其中6个团队参与了任务1,9个团队参与了任务2。最终,有11个团队提交了系统描述论文。在两个任务中,我们观察到,对Transformer模型进行微调,如AraBERT,是大多数参与系统的核心。我们提供了任务设置的描述,包括数据集构建和评估设置的描述。我们进一步简要介绍了参与系统。所有数据集和评估脚本已发布给研究社区(此处链接)。我们希望这将促进进一步研究这些重要的阿拉伯语任务。

论文链接: https://arxiv.org/pdf/2407.04247

其他链接: https://araieval.gitlab.io/

错过的原因和模糊的影响:反事实情况对解释神经网络提出挑战

原标题: Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks

作者: Aaron Mueller

机构: 东北大学 以色列理工学院

摘要: 可解释性研究默认使用反事实因果理论。大多数因果方法依赖于对输入或特定模型组件的反事实干预,随后观察模型输出对数或行为的变化。虽然这比相关方法产生了更可信的证据,但反事实仍然存在一些关键问题,会以特定和可预测的方式影响我们的发现。具体来说,(i) 反事实理论未能有效捕捉同一效应的多个独立充分原因,这导致我们完全忽略了某些原因;(ii) 神经网络中的反事实依赖通常不是传递的,这使得从神经网络中提取和解释因果图的方法变得复杂。我们讨论了这些挑战对可解释性研究人员的影响,并提出了未来工作的具体建议。

论文链接: https://arxiv.org/pdf/2407.04690

重新思考利用外部知识进行多模态大语言模型的视觉提示

原标题: Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

作者: Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip Torr, Lu Yuan

机构: 牛津大学 微软

摘要: 近年来,多模态大语言模型(MLLMs)通过在庞大高质量的图像文本数据集上进行训练,取得了显著进展,使它们能够普遍地很好地理解图像。然而,文本中明确传达细粒度或空间密集信息的困难,比如蒙版,对MLLMs构成了挑战,限制了它们回答需要理解详细或局部视觉元素的问题的能力。本文从检索增强生成(RAG)概念中汲取灵感,提出了一种新的视觉提示方法,将从专业视觉模型(例如实例分割/OCR模型)中获取的细粒度外部知识整合到MLLMs中。这是一个有前途但尚未深入探讨的增强MLLMs性能的方向。我们的方法与同时进行的工作有所不同,后者将外部知识转换为额外的文本提示,需要模型间接学习视觉内容和文本坐标之间的对应关系。相反,我们提出将细粒度知识信息直接嵌入到空间嵌入地图中作为视觉提示。这种设计可以轻松地整合到各种MLLMs中,如LLaVA和Mipha,显著提高它们的视觉理解性能。通过严格的实验,我们证明了我们的方法可以增强MLLM在九个基准测试中的性能,增强它们的细粒度上下文感知能力。

论文链接: https://arxiv.org/pdf/2407.04681

迷失在翻译中:LMs和大脑之间的算法差距

原标题: Lost in Translation: The Algorithmic Gap Between LMs and the Brain

作者: Tommaso Tosato, Pascal Jr Tikeng Notsawo, Saskia Helbling, Irina Rish, Guillaume Dumas

摘要: 语言模型(LMs)在各种语言任务上取得了令人印象深刻的表现,但它们与大脑中的人类语言处理之间的关系仍不清楚。本文研究了在不同分析层次上LMs与大脑之间的差距和重叠,强调了超越输入-输出行为,审视和比较这些系统的内部过程的重要性。我们讨论了来自神经科学的见解,如稀疏性、模块化、内部状态和交互式学习,如何有助于开发更具生物学可信性的语言模型。此外,我们探讨了在弥合LMs和人类认知之间差距中的作用,突出了需要效率约束类似于生物系统中的约束的重要性。通过开发更贴近大脑功能的LMs,我们旨在推进人工智能和对人类认知的理解。

论文链接: https://arxiv.org/pdf/2407.04680

使用自动发现的声学单元进行端到端关键词搜索的预训练

原标题: Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units

作者: Bolaji Yusuf, Jan “Honza” Černocký, Murat Saraçlar

机构: 博格阿齐奇大学 土耳其 布尔诺理工大学 语音@FIT 捷克

摘要: 端到端(End-to-end,E2E)关键词搜索(Keyword Search,KWS)已经成为传统依赖于自动语音识别(Automatic Speech Recognition,ASR)系统输出的关键词搜索的一种替代和补充方法。虽然端到端方法极大地简化了关键词搜索流程,但通常性能比基于ASR的方法差,后者可以通过对未转录数据进行预训练来获益。在这项工作中,我们提出了一种利用未转录数据对端到端关键词搜索系统进行预训练的方法,其中涉及使用声学单元发现(Acoustic Unit Discovery,AUD)来获取未转录数据的离散单元,然后学习定位这些单元序列在语音中的位置。我们跨语言和AUD系统进行实验:我们展示微调这样一个模型明显优于从头开始训练的模型,并且性能改进通常与用于预训练的AUD系统的质量相关。

论文链接: https://arxiv.org/pdf/2407.04652

Github: https://github.com/beer-asr/beer

通过音频前缀的低秩语言模型适应进行推测性语音识别

原标题: Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models

作者: Bolaji Yusuf, Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran

机构: 谷歌公司 美国 博加兹奇大学 土耳其 布尔诺理工大学 语音@FIT 捷克

摘要: 这篇论文探讨了推测性语音识别(SSR),在这种方法中,我们赋予传统的自动语音识别(ASR)推测能力,使识别器能够超前运行音频。我们引入了一个衡量SSR性能的指标,并提出了一种模型,该模型通过将基于RNN-Transducer的ASR系统与一个音频前缀语言模型(LM)相结合来进行SSR。ASR系统转录进行中的音频,并将结果转录与一个依赖于音频的前缀一起馈送给LM,后者推测出转录的可能完成部分。我们在各种ASR数据集上进行了实验,结果显示了我们方法的有效性以及SSR作为一种减少ASR延迟的方法的可行性。

论文链接: https://arxiv.org/pdf/2407.04641

在测试时间学习:具有表达丰富隐藏状态的 RNNs

原标题: Learning to (Learn at Test Time): RNNs with Expressive Hidden States

作者: Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin

机构: 清华大学 谷歌

摘要: 自注意力在处理长上下文时表现良好,但具有二次复杂度。现有的 RNN 层具有线性复杂度,但由于其隐藏状态的表达能力受限,它们在长上下文中的表现也受到限制。我们提出了一种具有线性复杂度和表达丰富隐藏状态的新型序列建模层。关键思想是将隐藏状态本身作为一个机器学习模型,并将更新规则设定为自监督学习的一步。由于隐藏状态是通过对测试序列进行训练而更新的,我们的层被称为测试时训练(TTT)层。我们考虑了两种实例化:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是一个线性模型和一个两层 MLP。我们在 1.25 亿到 13 亿参数规模上评估了我们的实例化,与强大的 Transformer 和现代 RNN Mamba 进行了比较。TTT-Linear 和 TTT-MLP 都与基线相匹配或超过。类似于 Transformer,它们可以通过对更多标记进行调节来不断降低困惑度,而Mamba 在 16k 上下文后无法做到。通过初步系统优化,TTT-Linear 在 8k 上下文时已经比 Transformer 更快,并与 Mamba 在墙钟时间上相匹配。TTT-MLP 在内存 I/O 方面仍面临挑战,但在长上下文中显示出更大的潜力,为未来研究指明了一个有前途的方向。

论文链接: https://arxiv.org/pdf/2407.04620

Github: https://github.com/test-time-training/ttt-lm-jax

书面术语检测改善口语术语检测。

原标题: Written Term Detection Improves Spoken Term Detection

作者: Bolaji Yusuf, Murat Saraçlar

机构: IEEE Graduate Student Member Graduate Student Member 西北工业大学 西北工业大学

摘要: 端到端(E2E)方法对关键词搜索(KWS)来说在训练和索引复杂性方面要简单得多,与使用自动语音识别(ASR)系统输出的方法相比。然而,这种简化会因为失去模块化而带来一些缺点。特别是,基于ASR的KWS系统可以通过语言模型从外部非配对文本中受益,而当前的E2E KWS系统的表述却没有这样的机制。因此,在本文中,我们提出了一种多任务训练目标,允许将非配对文本整合到E2E KWS中,而不会使索引和搜索变得复杂。除了训练一个E2E KWS模型来从口头文档中检索文本查询外,我们还联合训练它从掩盖的书面文档中检索文本查询。我们通过实验证明,这种方法可以有效地利用非配对文本进行KWS,显著提高了跨多种语言的搜索性能。我们进行了分析,表明这些改进是因为所提出的方法改善了非配对文本中单词的文档表示。最后,我们展示了所提出的方法可以用于在领域自适应中,即在领域内配对数据稀缺或不存在的情况下。

论文链接: https://arxiv.org/pdf/2407.04601

Github: https://github.com/bolajiy/golden-retriever

控制低语音:通用声学对抗攻击以控制语音基础模型

原标题: Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

作者: Vyas Raina, Mark Gales

机构: 剑桥大学

摘要: 具有语音功能的基础模型,无论是以灵活的语音识别系统形式还是以音频提示的大语言模型(LLMs)形式,正变得越来越受欢迎。这些模型的一个有趣之处在于它们能够利用适当的提示执行除自动语音识别(ASR)之外的任务。例如,OpenAI Whisper 模型可以执行语音转录和语音翻译两种任务。随着音频提示的LLMs的发展,控制选项的潜力变得更大。在这项工作中,我们展示了随着这种更大灵活性,系统可能会容易受到模型控制的对抗性攻击。在没有访问模型提示的情况下,通过适当改变音频输入,可以修改系统的行为。为了说明这种风险,我们展示了可以在任何输入语音信号前添加一个短的通用对抗性声学片段,以覆盖ASR基础模型的提示设置。具体来说,我们成功地使用了一个通用对抗性声学片段来控制Whisper始终执行语音翻译,尽管它被设置为执行语音转录。总的来说,这项工作展示了一种新形式的对多任务语音功能基础模型的对抗性攻击,需要在部署这种模型之前考虑。

论文链接: https://arxiv.org/pdf/2407.04482

VRSD:重新思考大语言模型中的相似性和多样性检索

原标题: VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models

作者: Hang Gao, Yongfeng Zhang

机构: 罗格斯大学

摘要: 向量检索算法对于在不断发展的大语言模型(LLMs)领域中进行语义查询至关重要。检索同时满足相似性和多样性标准的向量显著增强了基于LLM的智能体的能力。尽管在具有相关性和多样性要求的检索场景中广泛使用最大边际相关性(MMR),但由于MMR中参数$ \lambda 的变化引起的波动使得在向量空间中确定优化轨迹变得复杂,从而模糊了增强方向。此外,在检索过程中缺乏对相似性和多样性约束的稳健理论分析。本文通过总向量与查询向量之间的关系引入了一种表征这两种约束的新方法。这些向量的接近程度解决了相似性约束,同时要求总向量中的各个向量与查询向量发散地对齐以满足多样性约束。我们还制定了一个新的组合优化挑战,从候选集中选择 的变化引起的波动使得在向量空间中确定优化轨迹变得复杂,从而模糊了增强方向。此外,在检索过程中缺乏对相似性和多样性约束的稳健理论分析。本文通过总向量与查询向量之间的关系引入了一种表征这两种约束的新方法。这些向量的接近程度解决了相似性约束,同时要求总向量中的各个向量与查询向量发散地对齐以满足多样性约束。我们还制定了一个新的组合优化挑战,从候选集中选择 的变化引起的波动使得在向量空间中确定优化轨迹变得复杂,从而模糊了增强方向。此外,在检索过程中缺乏对相似性和多样性约束的稳健理论分析。本文通过总向量与查询向量之间的关系引入了一种表征这两种约束的新方法。这些向量的接近程度解决了相似性约束,同时要求总向量中的各个向量与查询向量发散地对齐以满足多样性约束。我们还制定了一个新的组合优化挑战,从候选集中选择k$个向量,使它们的总向量与查询向量最大地对齐,我们证明这是一个NP完全问题。这确立了在向量检索中同时追求相似性和多样性的深刻困难,并为进一步研究奠定了理论基础。此外,我们提出了启发式算法Vectors Retrieval with Similarity and Diversity(VRSD),该算法不仅具有明确的优化目标,避免了预设参数的需求,而且与MMR相比在时间复杂度上也有适度降低。经验验证进一步证实,VRSD在各种数据集上明显优于MMR。

论文链接: https://arxiv.org/pdf/2407.04573

EventChat:在中小企业环境中实施和以用户为中心评估的大语言模型驱动的对话式推荐系统,用于探索休闲活动

原标题: EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

作者: Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim

机构: 苏黎世联邦理工学院 ETH Zurich Mobiliar Lab for Analytics

摘要: 大语言模型(LLMs)在对话式推荐系统(CRS)的战略潜力方面呈现了巨大的发展。然而,迄今为止,研究主要集中在实施基于LLM的CRS的技术框架,而不是端用户评估或对企业的战略影响,特别是从中小企业(SME)的角度来看,这些企业构成了全球经济的基石。在本文中,我们详细介绍了在中小企业环境中设计LLM驱动的CRS的过程,以及在领域中的表现,同时使用客观系统指标和主观用户评估。在此过程中,我们还概述了一个用于评估LLM驱动的CRS的简化修订版ResQue模型,从而实现在快速发展的领域中的可复制性。我们的结果显示,从用户体验的角度来看,系统表现良好(85.5%的推荐准确率),但突出了挑战业务可行性的延迟、成本和质量问题。值得注意的是,每次交互的中位成本为0.04美元,延迟为5.7秒,成本效益和响应时间成为在SME环境中实现更具用户友好性和经济可行性的LLM驱动CRS的关键领域。造成这些成本的一个主要因素是在检索增强生成(RAG)技术中使用先进的LLM作为排序器。我们的结果还表明,仅依靠Prompt-based learning等方法,以ChatGPT作为基础LLM,在生产环境中很难实现令人满意的质量。我们概述了部署LLM驱动CRS的SME的战略考虑,特别是考虑到当前技术环境中的权衡。

论文链接: https://arxiv.org/pdf/2407.04472

瀑布:用于文本水印的稳健和可扩展框架

原标题: Waterfall: Framework for Robust and Scalable Text Watermarking

作者: Gregory Kang Ruey Lau, Xinyuan Niu, Hieu Dao, Jiangwei Chen, Chuan-Sheng Foo, Bryan Kian Hsiang Low

机构: 新加坡国立大学 CNRS@CREATE 新加坡边疆人工智能研究中心 新加坡信息通信研究院 A*STAR

摘要: 保护文本的知识产权(IP)变得越来越重要,特别是随着复杂攻击的可能性增加,例如大型语言模型(LLMs)进行的改写或者未经授权在受版权保护的文本上训练LLMs以侵犯知识产权。然而,现有的文本水印方法对这些攻击不够强大,也无法扩展到数百万用户以实现实际应用。在本文中,我们提出了Waterfall,这是第一个无需训练的框架,用于强大且可扩展的文本水印,适用于多种文本类型(例如文章、代码)和LLMs支持的语言,用于一般文本和LLM数据来源的追溯。Waterfall包括几个关键创新,例如首次将LLM用作水印的改写器,以及一种新颖的技术组合,这些技术在实现强大的可验证性和可扩展性方面非常有效。我们经验性地证明,与SOTA文章文本水印方法相比,Waterfall在可扩展性、强大的可验证性和计算效率方面取得了显着进展,并展示了它如何直接应用于代码的水印化。

论文链接: https://arxiv.org/pdf/2407.04411

大语言模型是否是战略决策者?一项关于在双人非零和博弈中性能和偏见的研究

原标题: Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games

作者: Nathan Herr, Fernando Acero, Roberta Raileanu, María Pérez-Ortiz, Zhibin Li

机构: 伦敦大学学院 FAIR at Meta

摘要: 大语言模型(LLMs)在现实世界中的应用越来越广泛,但它们的战略能力仍然大多未被探索。博弈论为评估LLMs在与其他智能体互动中的决策能力提供了一个良好的框架。尽管先前的研究表明,LLMs可以通过精心策划的提示来解决这些任务,但当问题设置或提示发生变化时,它们会失败。在这项工作中,我们研究了LLMs在战略游戏Stag Hunt和Prisoner Dilemma中的行为,分析了在不同设置和提示下性能变化。我们的结果显示,经过测试的最先进的LLMs至少表现出以下一种系统性偏差:(1)位置偏差,(2)收益偏差,或(3)行为偏差。随后,我们观察到当游戏配置与影响偏差不一致时,LLMs的表现会下降。性能是基于选择正确的行动来评估的,即与提示的双方首选行为一致的行动。一致性指的是LLM的偏差是否与正确行动一致。例如,当不一致时,GPT-4o的平均性能下降了34%。此外,“越大越新越好”的当前趋势并不适用于上述情况,其中GPT-4o(当前表现最佳的LLM)遭受了最显著的性能下降。最后,我们注意到,虽然思维链提示确实减少了大多数模型上偏差的影响,但在根本层面上并未解决问题。

论文链接: https://arxiv.org/pdf/2407.04467

监狱攻击和对抗大语言模型的防御:一项调查

原标题: Jailbreak Attacks and Defenses Against Large Language Models: A Survey

作者: Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li

机构: 清华大学 香港科技大学(广州)

摘要: 大语言模型(LLMs)在各种文本生成任务中表现出色,包括问答、翻译、代码补全等。然而,LLMs 过度辅助的问题引发了“越狱”挑战,通过设计对抗性提示诱使模型生成违反使用政策和社会规范的恶意响应。随着利用LLMs中不同漏洞的越狱攻击方法的出现,相应的安全对齐措施也在不断发展。本文提出了对越狱攻击和防御方法进行全面详细分类的分类法。例如,攻击方法根据目标模型的透明度分为黑盒和白盒攻击。同时,我们将防御方法分为提示级和模型级防御。此外,我们进一步将这些攻击和防御方法细分为不同的子类,并呈现了一张连贯的图表,说明它们之间的关系。我们还对当前的评估方法进行了调查,并从不同角度进行了比较。我们的研究旨在激发未来在保护LLMs免受对抗性攻击方面的研究和实际实施。尽管越狱仍然是社区内的一个重要关注点,但我们相信我们的工作增进了对这一领域的理解,并为开发更安全的LLMs奠定了基础。

论文链接: https://arxiv.org/pdf/2407.04295

;