本文是LLM系列文章,针对《DIFFERENTIAL TRANSFORMER》的翻译。
差分Transformer
摘要
Transformer倾向于将注意力过度分配到无关的上下文中。在这项工作中,我们引入了DIFF Transformer,它在消除噪声的同时增强了对相关上下文的关注。具体而言,差分注意力机制将注意力得分计算为两个单独的softmax注意力图之间的差值。减法消除了噪声,促进了稀疏注意力模式的出现。语言建模的实验结果表明,DIFF-Transformer在各种扩大模型大小和训练token的设置下都优于Transformer。更有趣的是,它在实际应用中具有显著的优势,如长上下文建模、关键信息检索、幻觉缓解、上下文学习和减少激活异常值。通过减少无关上下文的干扰,DIFF Transformer可以减轻问答和文本摘要中的幻觉。对于上下文学习,DIFF Transformer不仅提高了准确性,而且对顺序置换更具鲁棒性,这被认为是一个长期的鲁棒性问题。结果表明,DIFF Transformer是一种高效且有前景的架构,可以推进大型语言模型。
1 引言
2 差分Transformer
3 实验
4 结论
在这项工作中,我们引入了差分Tr