Bootstrap

LLM论文笔记 13: What Algorithms can Transformers Learn? A Study in Length Generalization

  • Arxiv日期:2023.10.24
  • 机构:Apple / Mila, Université de Montréal / Tel Aviv University

关键词

  • 长度泛化
  • 任务区分

核心结论

1. Transformer可以在简单的、易于学习的算法表示上呈现长度泛化

2. 提出假说 RASP-Generalization Conjecture,认为 Transformer 能够在以下条件下泛化:

  • Simplicity:该表示在 RASP-L 中是简单的

  • diversity:训练数据多样化 -> 避免学习到只适用于训练分布的更短程序

3. (实验结论验证假说)符合假说的任务(例如计数和排序)展示了强大的长度泛化能力,而不符合的任务(例如奇偶性检查和加法)泛化性能较差

4. 通过调整任务的输入和输出格式(例如为加法任务添加索引提示和反向顺序),可以显著降低任务的复杂性并提高泛化能力

5. 增加训练数据的多样性有助于提高 Transformer 对复杂任务的泛化性能

6. (隐式偏差Transformer 倾向于学习简单的、易于表示的算法。RASP-L 提供了一种衡量这种简单性的框架

主要方法

研究内容:探讨 Transformer 模型在算法任务上的长度泛化能力,即模型在训练集长度范围之外的任务表现

引入了一种面向 Transformer 的编程语言(RASP),用于描述 Transformer 能轻松表达的算法。将 RASP 进一步限制为 RASP-L,用以定义简单的、易于学习的算法表示。

可以参考讲解视频:https://www.youtube.com/watch?v=koo5Bo0k9Wc

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

;