LLM论文笔记 13: What Algorithms can Transformers Learn? A Study in Length Generalization

Arxiv日期：2023.10.24
机构：Apple / Mila, Université de Montréal / Tel Aviv University

1. Transformer可以在简单的、易于学习的算法表示上呈现长度泛化

2. 提出假说 RASP-Generalization Conjecture，认为 Transformer 能够在以下条件下泛化：

3. （实验结论验证假说）符合假说的任务（例如计数和排序）展示了强大的长度泛化能力，而不符合的任务（例如奇偶性检查和加法）泛化性能较差

4. 通过调整任务的输入和输出格式（例如为加法任务添加索引提示和反向顺序），可以显著降低任务的复杂性并提高泛化能力

5. 增加训练数据的多样性有助于提高 Transformer 对复杂任务的泛化性能

6. （隐式偏差）Transformer 倾向于学习简单的、易于表示的算法。RASP-L 提供了一种衡量这种简单性的框架

研究内容：探讨 Transformer 模型在算法任务上的长度泛化能力，即模型在训练集长度范围之外的任务表现

引入了一种面向 Transformer 的编程语言（RASP），用于描述 Transformer 能轻松表达的算法。将 RASP 进一步限制为 RASP-L，用以定义简单的、易于学习的算法表示。

可以参考讲解视频：https://www.youtube.com/watch?v=koo5Bo0k9Wc

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文