LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers - 悦读

LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers

Arxiv日期：2023.12.15
机构：McGill University / IBM / Facebook / ServiceNow

关键词

长度泛化
位置编码
CoT

核心结论

1. decoder-only 中不显式使用位置编码（NoPE）可以提高长度泛化性能

2. （证明了）decoder-only transformer 如果NoPE同时具备绝对APE和RPE的能力

3. 暂存器（cot）对于长度泛化和任务相关，同时关注短期和长期信息效益更显著

主要方法

主要关注decoder-only transformer中的长度泛化能力

NoPE效果最佳

第一个注意力子层可以实现绝对位置编码的能力
后面的注意力子层可以实现相对位置编码的能力（f_con+f_ref）

提出推测NoPE模型可以自行选择相对/绝对

观察到在所有 PE 中，无论格式如何，暂存器仅对加法任务有益。且关注位置双峰分布的PE（同时关注短期和长期信息）可以显著提高增益

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

藏头诗 (15分)

手把手教你安装Dev-C++：零基础编程入门神器

CI/CD,Devops,平台工程概述与应用

【Git学习笔记】Git结构原理及其分支管理模型分析

嵌入式软件工程师经典面试题127道

Android面经分享：快手、字节跳动、百度、美团Offer之旅

Docker系列08—搭建使用私有docker registry

掌握Rabbitmq几个重要概念，从一条消息说起

;