AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 1 Mar 2024
Totally 67 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling Authors Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum 问题将我们对语言的掌握与我们对不确定性进行推理的卓越能力结合起来。在认知资源有限的情况下,人们如何在广阔的假设空间中导航并提出信息丰富的问题?我们在基于棋盘游戏战舰的经典提问任务中研究了这些权衡。我们的语言知情程序采样 LIPS 模型使用大型语言模型 LLM 来生成自然语言问题,将其转换为符号程序,并评估其预期信息增益。我们发现,在资源预算出人意料地适度的情况下,这种简单的蒙特卡罗优化策略产生了反映人类在不同战舰棋盘场景中表现的信息丰富的问题。相比之下,LLM 仅基线很难解决董事会状态中的问题,值得注意的是,GPT 4V 与非视觉基线相比没有提供任何改进。 |
TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning Authors Kate Sanders, Nathaniel Weir, Benjamin Van Durme 对电视剪辑等复杂的多模式内容进行问答具有挑战性。部分原因是当前的视频语言模型依赖于单一模态推理,在长输入上的性能降低,并且缺乏互用性。我们提出了 TV TREES,这是第一个多模态蕴涵树生成器。 TV TREES 是一种视频理解方法,通过在视频直接蕴涵的简单前提和更高层次的结论之间生成蕴涵关系树,促进可解释的联合模态推理。然后,我们引入多模态蕴涵树生成的任务来评估此类方法的推理质量。 |
Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models Authors Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong Liu, Jing Shao 确保大型语言模型法学硕士的可信度至关重要。大多数研究集中于经过充分培训的法学硕士,以更好地理解和提高法学硕士的可信度。在本文中,为了揭示预训练尚未开发的潜力,我们率先探索了这一时期法学硕士的可信度,重点关注五个关键维度的可靠性、隐私性、毒性、公平性和鲁棒性。首先,我们将线性探测应用于法学硕士。高探测精度表明,textit LLM 在早期预训练中已经可以区分每个可信度维度中的概念。因此,为了进一步揭示预训练隐藏的可能性,我们从LLM的预训练检查点中提取引导向量,以增强LLM的可信度。最后,受 citet choi2023 了解互信息估计受线性探测精度限制的启发,我们还利用互信息探测 LLM,以研究预训练期间可信度的动态。我们是第一个观察到类似两相现象拟合和压缩的 citep shwartz2017opening 。这项研究对法学硕士预培训期间的可信度建模进行了初步探索,旨在揭示新的见解并促进该领域的进一步发展。 |
$\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation Authors Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo Piantanida 评估摘要者的质量提出了重大挑战。作为回应,我们提出了一种新颖的面向任务的评估方法,该方法根据摘要者生成对下游任务有用的摘要的能力进行评估,同时保留任务结果。从理论上讲,我们在这些任务的错误概率与源文本和生成的摘要之间的相互信息之间建立了直接关系。我们引入 texttt COSMIC 作为该指标的实际实现,证明其与基于人类判断的指标的强相关性及其在预测下游任务绩效方面的有效性。 |
On the Scaling Laws of Geographical Representation in Language Models Authors Nathan Godey, ric de la Clergerie, Beno t Sagot 长期以来,语言模型已被证明可以将地理信息嵌入到其隐藏表示中。最近,通过将此结果扩展到大型语言模型法学硕士,重新审视了这一领域的工作。在本文中,我们建议通过观察地理知识在扩展语言模型时如何演变来填补成熟文献和最新文献之间的空白。我们证明,即使对于微小的模型,地理知识也是可观察的,并且随着我们增加模型大小,它会持续扩展。 |
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models Authors Jenish Maharjan, Anurag Garikipati, Navan Preet Singh, Leo Cyrus, Mayank Sharma, Madalina Ciobanu, Gina Barnes, Rahul Thapa, Qingqing Mao, Ritankar Das 法学硕士完成一系列专业任务的能力越来越强,可以用来扩大医学知识的公平获取。大多数医学法学硕士都涉及广泛的微调,利用专门的医学数据和大量但昂贵的计算能力。许多表现最好的法学硕士都是专有的,只有极少数的研究小组才能访问它们。然而,开源操作系统模型代表了医学法学硕士的一个关键增长领域,因为其性能显着提高,并且具有提供医疗保健所需的透明度和合规性的固有能力。我们推出 OpenMedLM,这是一个提示平台,可为 OS LLM 在医学基准方面提供最先进的 SOTA 性能。我们根据四个医学基准 MedQA、MedMCQA、PubMedQA、MMLU 医学子集评估了一系列操作系统基础法学硕士 7B 70B。我们采用了一系列的提示策略,包括零样本、少样本、思想链随机选择和 kNN 选择以及集成自一致性投票。我们发现 OpenMedLM 在三个常见的医学 LLM 基准上提供了操作系统 SOTA 结果,超越了之前利用计算成本高昂的广泛微调的最佳性能操作系统模型。该模型在 MedQA 基准上的准确度为 72.6,比之前的 SOTA 高出 2.4,并在 MMLU 医学子集上达到 81.7 的准确度,成为第一个在此基准上超过 80 准确度的 OS LLM。 |
Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process Authors Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun 预先训练的语言模型 PLM 利用思想链 CoT 来模拟人类推理和推理过程,从而在多跳 QA 中实现熟练的性能。然而,在解决复杂问题时,PLM 的推理能力与人类之间仍然存在差距。心理学研究表明,段落中的明确信息与人类在阅读过程中的先验知识之间存在着重要的联系。然而,当前的研究从人类认知研究的角度对输入通道和 PLM 预训练知识的联系还没有给予足够的重视。在本研究中,我们引入了一个 textbf Prompting textbf E xplicit 和 textbf I mplicit Knowledge PEI 框架,该框架使用提示来连接显性和隐性知识,与多跳 QA 的人类阅读过程保持一致。我们将输入段落视为显性知识,利用它们通过统一的即时推理来引出隐性知识。此外,我们的模型通过提示(一种隐性知识的形式)结合了特定类型的推理。实验结果表明,PEI 在 HotpotQA 上的表现与现有技术相当。 |
Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge Authors Ansh Arora, Xuanli He, Maximilian Mozes, Srinibas Swain, Mark Dras, Qiongkai Xu 通过开源计划实现预训练语言模型的民主化迅速推进了创新并扩大了对尖端技术的获取。然而,这种开放性也带来了重大的安全风险,包括后门攻击,其中隐藏的恶意行为由特定输入触发,损害自然语言处理 NLP 系统的完整性和可靠性。本文建议,将后门模型与其他同类模型合并可以修复后门漏洞,即使这些模型并不完全安全。在我们的实验中,我们探索了各种模型 BERT Base、RoBERTa Large、Llama2 7B 和 Mistral 7B 以及数据集 SST 2、OLID、AG News 和 QNLI。与多种先进的防御方法相比,我们的方法提供了针对后门攻击的有效且高效的推理阶段防御,而无需额外的资源或特定知识。我们的方法始终优于其他先进基线,导致攻击成功率平均降低 75。 |
Compact Speech Translation Models via Discrete Speech Units Pretraining Authors Tsz Kin Lam, Alexandra Birch, Barry Haddow 使用自监督学习 SSL 作为模型初始化现在很常见,可以在语音翻译 ST 中获得出色的结果。然而,它们也占用了大量的内存,阻碍了设备部署。在本文中,我们通过在离散语音单元 DSU 上预训练较小的模型来利用 SSL 模型。我们在 1 个 Filterbank 到 DSU 和 2 个 DSU 到翻译数据上预训练编码器解码器模型,并使用 1 中的编码器和 2 中的解码器来初始化新模型,并在有限的语音翻译数据上对其进行微调。通过使用 DSU 预训练来提取 SSL 模型的知识,最终模型变得紧凑。与使用 DSU 作为模型输入相比,我们的方法有几个优点,例如更短的推理管道以及相对于 DSU 标记化的鲁棒性。与 ASR 预训练相比,它不需要转录本,因此适用于低资源设置。 |
WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset Authors Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Ruiliang Xu, Wei Li, Hang Yan, Conghui He 本文提出了 WanJuan CC,一个源自 Common Crawl 数据的安全且高质量的开源英语网络文本数据集。该研究解决了为语言模型构建大规模预训练数据集的挑战,这需要大量高质量的数据。设计了一套全面的流程来处理Common Crawl数据,包括提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。我们从约 680 亿份英文原始文档中,获得了 2.22T 安全数据 Token,并筛选出 1.0T 优质数据 Token 作为万卷 CC 的一部分。我们从这个数据集中开源了 300B 代币。论文还提供了与数据质量相关的统计信息,使用户能够根据自己的需要选择合适的数据。为了评估数据集的质量和实用性,我们使用 WanJuan CC 和另一个数据集RefinedWeb 训练了 1B 参数和 3B 参数模型。 |
PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval Authors He Zhu, Wenjia Zhang, Nuoxian Huang, Boyang Li, Luyao Niu, Zipei Fan, Tianle Lun, Yicheng Tao, Junyou Su, Zhaoya Gong, Chenyu Fang, Xing Liu 在城市规划领域,通用大型语言模型往往难以满足规划者的特定需求。生成城市规划文本、检索相关信息和评估规划文件等任务带来了独特的挑战。为了提高城市专业人员的效率并克服这些障碍,我们推出了 PlanGPT,这是第一个为城市和空间规划量身定制的专业大型语言模型。 PlanGPT 通过与中国城市规划研究院等机构合作开发,利用定制的本地数据库检索框架、基础模型的特定领域微调以及先进的工具功能。 |
Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation Authors Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon 使用广泛的数据集可以训练多语言机器翻译模型,但是这些模型通常无法准确翻译专业领域内的句子。尽管获取和翻译特定领域的数据会产生高昂的成本,但对于高质量的翻译来说这是不可避免的。因此,在无人监督的情况下寻找最有效的数据成为降低标签成本的实用策略。最近的研究表明,可以通过根据数据量适当选择困难数据来找到这些有效数据。这意味着数据不应过于具有挑战性或过于简单,特别是在数据量有限的情况下。然而,我们发现建立无监督数据选择的标准仍然具有挑战性,因为适当的难度可能会根据所训练的数据域的不同而有所不同。我们引入了一种新颖的无监督数据选择方法,即捕获令人困惑的命名实体,该方法采用翻译命名实体中的最大推理熵作为选择度量。动机是特定领域数据中的命名实体被认为是数据中最复杂的部分,并且应该以高置信度进行预测。 |
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers |