PaperInfive:五分钟了解一篇前沿论文
全文总结:本文提出iTransformer,无需修改任何模块,倒置建模多变量时间序列,将变量的整条序列独立地映射为词(Variate Token)。以变量为主体,通过注意力机制自然地挖掘以词为单位的多变量关联。此外,Transformer的前馈网络和层归一化互相配合,消弭变量测量单位之间的范围差异,学习适合于时序预测的序列特征。
题目:iTransformer:Inverted Transformers Are effective for Time Series Forecasting
作者:Yong Liu
期刊/会议:ICLR
时间:2024
链接:https://doi.org/10.48550/arXiv.2310.06625
源码:https://github.com/thuml/iTransformer
问题背景
在时序分析领域,受益于其强大的序列建模能力与可扩展性,Transformer广泛应用于时序预测,派生出了许多模型改进。然而,研究人员最近开始质疑基于transformer的预测器的有效性,这些预测器通常将同一时间戳的多个变量嵌入到不可区分的通道中,并将注意力集中在这些时间标记上,以捕获时间依赖性。近期涌现的线性预测模型,比起相对更复杂的Transformer及其变体,能够取得相当甚至更好的效果。由此,针对Transformer是否适合时序预测,引发了热烈讨论。
与此同时,最近的研究更加强调了确保变量的独立性和利用互信息,现有的研究大多以颠覆普通的Transformer架构来显式地建模多元相关性,否则则难以实现准确的预测。
针对上述问题,作者认为在多变量时间序列上,Transformer的建模能力没有得到充分发挥,主要基于以下几个原因:
- 现有的基于Transformer的预测器结构可能不适合多变量时间序列预测。现有的Transformer模型将同一个时刻的多个变量作为一个Token(Temporal Token),然而相同时间步长的点基本上表示完全不同的物理含义,这些点嵌入到一个Token中,消除了多元相关性;
- 由于过度的局部感受野和由相同时间点表示的时间非对齐事件,单个时间步长的token可能很难揭示有益信息;
- 序列变化会受到序列顺序的很大影响,但在时间维度上采用置换不变注意力机制并不恰当。
因此,Transformer在捕捉基本序列表示和描绘多元相关性方面被削弱,限制了其在不同时间序列数据上的能力和泛化能力。
基于此,作者提出Inverted Transformer,无需修改任何模块,倒置建模多变量时间序列。将变量的整条序列独立地映射为词(Variate Token)。以变量为主体,通过注意力机制自然地挖掘以词为单位的多变量关联。此外,Transformer的前馈网络和层归一化互相配合,消弭变量测量单位之间的范围差异,学习适合于时序预测的序列特征。
阅读全文请移步:【PaperInFive-时间序列预测】iTransformer:转置Transformer刷新时间序列预测SOTA(清华)