本文通过简读ACL2024中RAG和检索相关且在谷歌学术已公开的21篇论文,追踪RAG的研究热点
这里附上ACL2024论文列表链接:https://2024.aclweb.org/program/main_conference_papers/
1.Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation(中科院)
论文链接:https://arxiv.org/abs/2402.18150
开源地址:https://github.com/xsc1234/INFO-RAG
主要思想:本文提出将LLM作为文档信息优化器,从而能够利用完整的文档/不完整或不正确的文档/不包含正确答案的文档都能够输出正确答案。本文提出了一种无监督学习方法,让LLM利用经过一定变换的句子集合作为上下文,利用其中的一个句子的前缀来预测后缀。本文在常见问答/语言模型困惑度/代码生成任务上都取得了相较使用rag的llama2更好的效果。
2.An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation(哈工大)
论文链接:https://arxiv.org/abs/2406.01549
开源地址:https://github.com/zhukun1020/NoiseFilter_IB
主要思想:使用信息瓶颈理论来优化上下文压缩器,最大化压缩后上下文与答案的互信息,最小化压缩后上下文与原上下文的互信息。为SFT数据选择和强化学习奖励信号都提供了一种较好的方法。
3.Grounding Language Model with Chunking-Free In-Context Retrieval(人大)
论文链接:https://arxiv.org/abs/2402.09760
主要思想:为了解决长文本的分块不精确问题,提出不需要分块的上下文检索。将用户查询和长文档直接输入LLM,得到隐状态,再根据这些隐状态预测之后的token,利用预测token的概率,定位长文档中困惑度最低的topk个不一样的prefix,之后在解码时跳过prefix对应的句子内容,直到找到eos。
4.M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Multiple Partitions(华为)
论文链接:https://arxiv.org/abs/2405.16420
主要思想:数据库过大时会导致模型无法利用最关键的信息,本文提出RAG的多片范式。以文本摘要任务举例:1.先将一个用文档库构建而来的向量数据库分片;2.利用一个LLM作为Agent-S选择一个合适的分片进行文档检索得到memory;3.对于memory中每个文档利用Agent-R得到摘要,即组成Demonstrations,最后将这些示例和用户文档输入LLM得到最终的摘要。训练过程中使用多智能体协同强化学习对两个智能体进行训练优化。
5.ListT5: Listwise Reranking with Fusion-in-Decoder Improves Zero-shot Retrieval(首尔国立大学)
论文链接:https://arxiv.org/abs/2402.15838
开源地址:https://github.com/soyoung97/ListT5
主要思想:使用T5模型的Fusion-In-Decoder(FiD)技术对文档精排,将粗排的若干文档和标识符一起输入,解码出标识符列表,作为精排的文档顺序。本文还提出一种高效的多级排序策略,分多层对越来越少的文档利用ListT5进行排序
6.On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models(华东师大)
论文链接:Retrieve Anything To Augment Large Language Models
主要思想:由于LLM预训练阶段已经记住了常见的世界知识,长尾知识对于RAG格外重要。本文提出了一种 Generative Expected Calibration Error (GECE)指标对长尾知识进行评估,并只有出现长尾知识时才将文档输给LLM。这种方式提升了4倍的推理速度同时达到了和正常RAG流程相当的下游任务效果。
7.Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models(智源)
论文链接:http://arxiv.org/abs/2402.11573
开源地址:https://github.com/FlagOpen/FlagEmbedding
主要思想:分块方法一般是次优的,本文提出Landmark Embedding,实现不需要分块的表征编码。具体方法为:1.无需分块的架构设计:使用LLM作为编码器+滑动窗口机制,保持长上下文都能够输入,从而得到每句话在上下文中的语义表征(token得到这个span的编码)。2.位置感知的优化目标:使用e指数对位置进行建模,越往后的句子和查询对齐的对比学习损失梯度越大。3.多阶段训练(Figure3):(1)Distant supervision,直接使用MS MARCO的pair data进行训练,直接将文档和拼接;(2)Weak Supervision,从不同的查询中随机抽取文档答案,并将它们合并为一个伪长文进行训练。(3)Fine-Tuning,利用LLM对真实的长文档合成数据,每个span对应一个相应的问题。
8.A Multi-Task Embedder For Retrieval Augmented LLM(智源,未找到同名公开论文,推测是以下这篇)
论文链接:https://arxiv.org/abs/2310.07554
开源地址:https://github.com/FlagOpen/FlagEmbedding
主要思想:基于bge,面向LLM的偏好,面向基于文档的知识增强,长上下文的文本块检索,上下文学习中的示例,工具选择等多个任务都进行了指令表征微调。由于任务种类多,本文还专门设计了一种同质难负采样策略,让每个batch内的数据都是同种任务的数据。
9.DAPR: A Benchmark on Document-Aware Passage Retrieval(UKP Lab)
论文链接:https://arxiv.org/abs/2305.13915
开源地址:https://github.com/UKPLab/acl2024-dapr
主要思想:区别于传统的短文本检索任务,用户经常要从大的语料库中检索长文档,比如维基百科、研究论文等,本文将这种任务命名为文档感知的段落检索,本文提出了两种思路来改进常见段落检索器在这个新任务上的效果:1.结合BM25的混合检索。2.上下文段落表征。这两种方法虽然取得了一定的提升,但是总的来说效果还是比较差。
10.Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering(中科院)
论文链接:https://arxiv.org/abs/2404.10496
开源地址:https://github.com/VerdureChen/SOS-Retrieval-Loop
主要思想:本文发现如果将AI生成的内容加入数据库,RAG系统将存在沉默的螺旋现象,即AIGC的检索排序将高于HGC。本文以开放领域问答任务为例,证明了AI生成的不准确内容可能会逐步让准确的真实信息在网络上边缘化。
11.Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval(CMU)
论文链接:https://arxiv.org/abs/2404.04163
主要思想:探讨了基于transformer的文本表示学习模型中位置偏差的存在。本文先基于之前的研究,证明了因果语言模型的输入序列中间信息的丢失,并将其扩展到表示学习领域,研究了编码器-解码器模型的不同训练阶段的位置偏差,包括语言模型预训练、对比预训练和对比微调。对MS-MARCO文档集合的实验表明,经过对比预训练后,模型已经生成了能够更好地捕获输入的靠前内容的表征,而微调进一步加剧了这种影响。
12.Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering(山东大学)
论文链接:https://arxiv.org/abs/2406.14891
主要思想:多跳问答中,由于检索得到文档的噪声,简单的Retrieve-then-Read流程效果一般,本文提出了一种新的Generate-then-Ground流程。GenGround使LLM交替使用两个步骤,直到得到最终答案: (1)生成一个更简单的单跳问题并直接生成答案;(2)在检索到的文档中追溯问答对,修改答案中的错误。新的流程在四个任务上都超过了Retrieve-then-Read流程。
13.Dataflow-Guided Retrieval Augmentation for Repository-Level Code Completion(南京大学)
论文链接:Dataflow-Guided Retrieval Augmentation for Repository-Level Code Completion
开源地址:https://github.com/nju-websoft/DraCo
主要思想:对于预训练LM来说,在私人仓库中完成正确的代码补全是一项挑战。以往的研究基于导入关系或文本相似性检索跨文件上下文,这与代码补全的相关性并不高。在本文中,我们提出了一种数据流引导的检索增强方法DRACO,用于仓库级的代码补全。DRACO将私有仓库解析为代码实体,并通过扩展的数据流分析建立它们的关系,形成一个特定于仓库的上下文图。每当触发代码补全时,DRACO就会精确地从仓库特定的上下文图中检索相关的背景知识,并生成形式良好的提示词来询问代码LM。此外,本文还构建了一个大型Python数据集ReccEval,具有更多样化的代码补全目标。DRACO在代码Exact Match和标识符F1分数两个指标上都相较sota方法都提升了至少3%。
14.Understanding Retrieval Robustness for Retrieval-augmented Image Captioning(哥本哈根大学)
论文链接:Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning
开源地址:https://github.com/lyan62/RobustCap
主要思想:检索增强的图像标题生成任务中,模型很容易被检索到的标题中出现较多的token误导,并将这些错误的token简单复制到输出中,根据这个发现,本文提出从更多样化的标题集合中采样,从而防止模型简单复制出现多的token。
15.Synergistic Interplay between Search and Large Language Models for Information Retrieval(北大)
论文链接:https://arxiv.org/abs/2305.07402
开源地址:https://github.com/Cyril-JZ/InteR
主要思想:本文通过检索模型(Retrieval Model RM)和LLM之间的协同作用来促进信息优化,从而提升检索性能。InteR允许RM使用LLM生成的知识集合来扩展查询,并使LLM能够使用检索到的文档来增强提示。这种迭代的细化过程增强了RM和LLM的输入,从而带来更准确的检索。在大规模检索基准上的实验表明,InteR实现了最好的效果。
16.Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training(中科大)
论文链接:https://arxiv.org/abs/2405.20978
开源地址:https://github.com/calubkk/RAAT
主要思想:本文首先研究了检索噪声,并将它们分为三种不同的类型(相关但无用,不相关,反事实),并分析了这些不同的检索噪声对LLM的鲁棒性的影响,发现不相关好于相关但无用好于反事实。随后,本文提出了一种新的RAG方法,称为检索增强自适应对抗训练(RAAT),利用自适应对抗性训练来动态调整模型的训练过程,在各种类型的文档下都利用交叉熵损失进行优化,并加上正则项让这四种损失梯度相差较小,从而能够处理检索噪声。同时,本文设计了一种噪声分类损失,通过多任务学习来确保模型内在的识别噪声上下文的能力。大量的实验表明,使用RAAT训练的LLaMA-2 7B模型在不同的噪声条件下,F1和EM评分有显著的改善。
17.Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments(UIUC)
论文链接:https://arxiv.org/abs/2406.09815
主要思想:在本文中,我们提出了通过综合对比论证来检索增强事实核查(RAFTS)。在输入声明后,RAFTS从证据检索开始,本文设计了一个检索流程来从可验证的来源中粗排和重排相关文档。然后,RAFTS以检索到的证据为条件,形成相反的论点(即支持或反驳)。此外,RAFTS利用一个embedding模型来筛选有意义的示例,然后通过上下文学习来生成预测和解释。RAFTS仅使用一个7B LLM就超过了GPT系列模型在事实核查任务的效果。
18.RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models(NewsBreak)
论文链接:https://arxiv.org/pdf/2401.00396
主要思想:本文提出了一个语料库,用于对LLM应用程序的标准RAG框架中,各种领域和任务中的词语级别幻觉的分析。RAGTruth包含了使用RAG的来自不同LLM的近18,000个自然语言回复。这些回复在案例和词语层面上都经历了细致的人工标注,并结合了对幻觉强度的评估。同时,本文发现使用RAGTruth,可以训练一个堪比使用基于提示词的GPT-4的幻觉检测效果的小型LLM。
19.DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models(清华)
论文链接:https://arxiv.org/abs/2403.10081
开源地址:https://github.com/oneal2000/DRAGIN
主要思想:为了解决RAG中什么时候检索(when)和检索什么(what)的问题,先提出了一种结合生成token的不确定性分数,token影响力分数,和停用词属性的实时信息需求检测(RIND)方法,根据计算出的分数和阈值判断当前是否需要检索。如果需要检索,则再利用自注意力分数过滤出最重要的token作为改写后的查询词进行检索。DRAGIN在几个问答任务上取得了好于FLARE的性能。
20.RAM-EHR: Retrieval Augmentation Meets Clinical Predictions on Electronic Health Records(埃默里大学)
论文链接:https://arxiv.org/abs/2403.00815
开源地址:https://github.com/ritaranx/RAM-EHR
主要思想:本文旨在解决基于电子健康记录的临床预测。RAM-EHR首先收集多个知识来源,将其转换为文本格式,并使用密集检索来获取与医学概念相关的信息。该策略解决了与概念的复杂名称关联难的问题。然后,RAM-EHR增强了局部EHR预测模型。局部EHR预测模型使用一致性正则化训练,以从患者访问关系和LLM总结的知识中获取互补信息。
21.Search-Adaptor: Embedding Customization for Information Retrieval(谷歌)
论文链接:https://arxiv.org/abs/2310.08750
主要思想:由预训练LLM提取的表征(LLM Embedding,比如openai embedding服务)在改进信息检索和搜索方面具有重要的潜力。除了传统使用的零样本设置之外,我们还能够利用来自查询-语料库配对数据的信息进一步提高这些黑盒LLM Embedding的能力。在本文中,我们提出了一种新的方法,搜索适配器,以一种有效和鲁棒的方式定制LLM的信息检索。搜索适配器修改由黑盒LLM生成的表征,并可以与任何LLM集成,包括那些仅通过api调用的表征接口。在多个英语、多语言和多模态检索数据集上,我们展示了搜索适配器的一致和显著的性能优势——例如,在14个BEIR数据集中,谷歌表征api nDCG@10数值平均提高了5%以上。
大家好,我是NLP研究者BrownSearch,如果你觉得本文对你有帮助的话,不妨点赞或收藏支持我的创作,您的正反馈是我持续更新的动力!如果想了解更多LLM/检索的知识,记得关注我!