1 文章信息
文章题为“Autoreservoir computing for multistep ahead prediction based on the spatiotemporal information transformation”,该文于2020年发表至“Nature Communications”。该文章提出了一种新的储备池计算,该方法将观测到的高维动态直接转换为其储层,基于时空信息(STI)转换将高维/空间数据映射为目标变量的未来时间值。
2 摘要
本文提出了一个储备池计算框架,自动储备池神经网络(ARNN),以有效和准确地进行基于短期高维时间序列的多步预测。与传统储备池计算将储层作为与目标系统无关的外部动力系统不同,ARNN将观测到的高维动态直接转换为其储层,基于时空信息(STI)转换将高维/空间数据映射为目标变量的未来时间值。因此,以精确和计算效率高的方式实现了目标变量的多步预测。该方法成功地应用于代表性模型和实际数据集,即使在数据受噪声干扰和系统时变的情况下,也显示出令人满意的多步预测性能。实际上,这种ARNN变换等效地扩展了样本量,因此在人工智能和机器学习的实际应用中具有很大的潜力。
3 引言
由于非线性系统的非线性复杂且信息不足,仅基于短期时间序列对其进行多步预测是一项具有挑战性的任务。大多数现有方法需要足够的训练样本或数据,例如多个短时间序列或长时间序列,因此仅从短期时间序列无法可靠地预测未来的演变。另一方面,包括RNN和LSTM在内的神经网络理论上可以从观测数据中学习非线性动态演化。然而,当只有一个短期时间序列可用于训练网络时,这些方法通常由于缺乏足够多的样本而造成过拟合问题。此外,训练神经网络有时需要花费大量的时间和计算资源,这也阻碍了传统神经网络在许多现实世界系统中的应用。
储备池计算(RC)是最近在RNN框架下发展起来的神经网络的扩展,适用于时间/序列信息处理。在RC中,储层的作用是将序列输入非线性地转换为高维空间,以便通过简单的学习算法有效地捕捉输入的特征。一般来说,RC的架构可以由两个组成部分组成:一个储层,它是一个由循环互联节点组成的隐藏神经网络(例如,RNN本身),以及一个输出或读出层。由于网络中的循环连接(如随机)是预先固定的,而不是经过训练的,因此RC具有动态特性和易于扩展的特点而备受关注。换句话说,由于有固定/随机的储层,训练只在读出阶段进行,从而大大减少了训练参数和计算成本。
与已有的许多基于长期时间序列数据的预测研究相比,针对短期高维数据进行预测的研究很少。然而,由于许多现实世界动力系统的时变非平稳性质,最近的短期时间序列通常比遥远的过去时间序列包含更多关于其近期演变的信息。因此,即使测量了长期数据,预测的有效性主要取决于最近的短期数据。另一方面,由于高维变量的动态相互交织,短期高维数据具有丰富的信息,因此可以用于预测。因此,在短期高维序列的基础上预测未来状态是很自然和重要的,这在现实世界中也是广泛可用的。实际上,通过假设稳定状态包含在低维流形中,即使是对于耗散的现实世界系统通常满足的高维系统,时空信息(STI)变换在理论上已经从延迟嵌入理论推导出来。该方法可以将高维数据的空间信息转化为任意目标变量的时间动态。基于STI变换,随机分布嵌入(RDE)框架通过使用原始原始STI方程或线性化STI方程分别构建多个映射,对短期时间序列进行一步超前预测。此外,还采用多层神经网络作为STI变换进行了多步超前预测。然而,该预测有两个问题尚未解决:一个是计算成本,另一个是鲁棒性。
4 ARNN框架
对于每个观测到的带有D个变量高维状态,其中t = 1,2,…,m,我们构造一个相应的延迟向量,这个延迟向量可以对应于任何要预测的目标变量y(其中),通过L > 1作为嵌入维数的延迟嵌入策略。显然,是在一个时间点t观测到的具有多个变量的空间向量,而是在多个时间点t、t + 1、…、t + L−1观测到的只有一个变量y的时间向量。根据Takens嵌入理论及其推广版本,当L > 2d > 0时,这种延迟嵌入方案可以重构原系统的拓扑等效动力学,其中d为吸引子的盒数维数。时空转换方程为:
然而,找到这样的非线性函数Φ或Ψ通常是一项困难的任务。它们可以线性化如下:
结合RC结构和STI变换,本文开发了基于STI方程的初级和共轭形式,将非线性函数F作为储备池结构进行多步超前预测的ARNN,从而大大提高了预测的鲁棒性、准确性和计算效率。具体来说,储备池计算采用多层前馈神经网络F,神经元之间的权值是事先随机给定的。在本研究中,神经网络包含四层,以双曲正切tanh作为激活函数,但也可以采用其他适当的层设计形式。通过神经网络F的处理,原方程可以转换为:
由于是所有观察到的变量中的一个,和。令,然后,因为包含,上式可以变换为:
其中,W表示连接和的合适矩阵,例如。显然,上式与传统的RC形式相似,输出层中的权重矩阵为。在ARNN中,是随机给定且固定的,只有和为未知变量,根据观测到的Xt (t = 1,2,…,m)进行求解。
将上式的初等方程和共轭方程结合起来,可以得到类似于图1d所示的自编码器的形式。实际上,具有F的矩阵A将空间信息映射/编码为主要STI方程中的时间信息,而具有F的矩阵B将编码的时间信息映射/解码为共轭STI方程中的原始空间信息。应该指出的是,在ARNN方案中没有单独的训练过程。实际上,ARNN方法通过求解共轭STI方程同时进行训练和预测。
5 实验
1.洛伦兹模型:首先,对于时不变和无噪声情况,当已知长度为m = 50,预测长度为L−1 = 18时,ARNN的平均归一化RMSE为0.397,优于RMSE∈[0.608,1.46]的其他预测方法。当已知长度变得更短(m = 15)时,ARNN (RMSE = 0.168)的性能仍然优于其他方法,RMSE∈[0.291,0.796];与其他方法相比,ARNN的准确率至少提高42%,比传统神经网络方法的速度至少提高31%。特别是当已知长度仅为15时,LSTM的结果较差(RMSE = 0.538),但其运行成本仍然是ARNN的3倍(补充表1)。在计算复杂度方面,ARNN和LSTM的比较也在补充注5中得到了说明。其次,对于σ = 1的时不变和噪声情况,ARNN的性能优于其他方法;即在m = 50和L−1 = 18的情况下,其他方法的ARNN的RMSE为0.884,RMSE∈[1.08,1.61]。对于m = 15和L−1 = 6的情况,ARNN的RMSE为0.483,其他方法的RMSE∈[0.678,1.062],即基于这一特殊的短期时间序列,ARNN的准确率至少比其他方法高29%。第三,对于时变无噪声情况,对于m = 50和L−1 = 18的情况,其他方法的ARNN的RMSE为0.513,RMSE∈[0.863,2.91],对于m = 15和L−1 = 6的情况,其他方法的ARNN的RMSE为0.284,RMSE∈[0.470,0.845]。也就是说,ARNN的准确率比其他方法至少高出40%。
2.风速预测:为了验证ARNN对多步前风速预测的鲁棒性,我们展示了不同步长对整个时间序列(时间点1 - 13860,间隔10 min,共96天)的预测结果。当预测步数为L−1 = 50时,实际风速数据与预测点之间的整体PCC为0.59。如果将预测步长设置为L−1 = 30和10,相关性分别增加到0.82和0.95。不同预测方法的稳健性检验结果也见补充图7。可见,无论选择何种时间段,不同预测跨度的神经网络都具有较好的鲁棒性和准确性。因此,考虑到风速的多步超前预测通常是一项困难的任务,该结果显示了ARNN在高鲁棒性方面的显著优势,因为它在138,600 min内几乎在任何地方都能很好地工作,并且具有不同的预测跨度。
3.其他真实世界数据集:为了验证ARNN的鲁棒性,下表展示了AENN在不同真实世界数据集的预测性能。
6 结论
在这项研究中,我们提出了基于短期高维数据的ARNN框架,以准确、高效和鲁棒的方式进行多步超前预测。延迟嵌入定理确保两个向量(空间向量Xt和时间向量Yt)通过光滑映射相互对应,因此我们得到了主要和共轭STI方程,即通过Φ从Xt映射到Yt,通过Ψ从Yt映射到Xt。ARNN方法通过使用基于初级和共轭ARNN的STI方程(Eq.(3)),将高维变量的空间信息转换为目标变量的时间信息。直观地看,如补充图1所示,基于arnn的初级STI方程是一个编码器,它将高维变量F(Xt)的空间信息转换为目标变量Yt的时间信息,而共轭方程将(编码的)时间信息Yt解码/恢复为高维变量F(Xt),即,与自编码器方程同时使预测具有很强的鲁棒性,如风速预测。
ARNN结合了STI变换和RC结构,计算效率高,精度高。一方面,通过STI变换,ARNN将高维数据的空间信息转化为任意目标变量的时间信息,从而等效地扩大了样本量,缓解了小样本量问题。另一方面,通过RC结构,ARNN需要更少的参数来训练,从而避免了过拟合问题。此外,与传统RC中使用的外部动力学不同,ARNN将高维数据本身的内在动力学作为储层。
ATTENTION
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!