原生稀疏注意力机制(NSA)的基本定义和背景
原生稀疏注意力机制(Native Sparse Attention, NSA)是一种专为超快速长文本训练与推理设计的稀疏注意力机制,旨在优化现代硬件,加速推理过程,降低预训练成本,同时保持或超越全注意力模型的性能。NSA通过动态分层稀疏策略,结合粗粒度的Token压缩和细粒度的Token选择,确保模型对全局上下文的感知和局部信息的精确性。此外,NSA支持端到端训练,不仅在推理阶段高效,还能减少预训练的计算量,不牺牲模型性能。
NSA的核心创新包括:
- 动态分层稀疏策略:将输入序列按时间维度划分为连续的块,并通过三条并行的注意力分支处理输入序列:压缩注意力(Compressed Attention)、选择注意力(Selected Attention)和滑动窗口注意力(Sliding Window Attention)。这种架构允许模型在保持计算复杂度较低的同时,捕捉到全局和局部的信息。
- 硬件友好设计:NSA针对现代硬件进行了优化,显著提升了推理速度,同时降低了预训练成本。在通用基准测试、长上下文任务和指令推理方面,NSA的表现与全注意力模型相当甚至更优秀。
- 端到端可训练性:NSA实现了端到端的可训练稀疏注意力机制,不仅在推理阶段高效,还能减少预训练的计算量,不牺牲模型性能。
NSA的发布标志着AI模型在处理长文本时的一个重要里程碑,有望加速下一代大语言模型在长文本处理领域的应用。
算术强度平衡设计的具体技术原理
算术强度平衡设计的具体技术原理主要涉及以下几个方面:
1. 算术强度的定义:
算术强度(Arithmetic Intensity)是衡量核函数运算与数据传输比例的指标,通常以浮点运算每秒(flops/GB)为单位。高算术强度意味着处理器的缓存能有效过滤大部分内存请求,从而提高效率。
2. 算术强度与机器平衡的关系:
机器平衡(Machine Balance)是指峰值浮点性能与峰值带宽的比例。当算术强度超过机器平衡时,表明处理器更多时间用于通信而非计算,这可能导致计算密集型问题。
3. 算术强度的计算方法:
- 对于向量模长计算,算术强度为0.125 flops/GB。
- 对于二维偏微分方程(PDE)的网格遍历,算术强度为1 flops/GB。
- 对于稠密矩阵乘法,算术强度为1 flops/GB。