LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

Arxiv日期：2024.2.14
机构：Google DeepMind / University of Toronto

1. 实验结论：十进制加法任务上的长度泛化最佳组合：

2. 在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加法）

3. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序，导致不同试验之间的性能差异显著

4. 增大模型规模对长度泛化的提升有限，且有时可能导致性能下降

主要探讨Transformer模型在长度泛化（length generalization）上的表现，特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码（position encoding）和数据格式，证明了Transformer在长度泛化上的潜力，但同时指出了其鲁棒性较差的问题。

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文