“TLOB: A Novel Transformer Model with Dual Attention for Stock Price Trend Prediction with Limit Order Book Data”
论文地址:https://arxiv.org/pdf/2502.15757
摘要
利用限价订单簿(LOB)数据进行股票价格趋势预测是金融领域的一项重要课题。然而,当前深度学习模型在面对不同市场环境时往往表现出泛化能力不足的问题,尤其是在短期趋势预测方面效果不尽如人意。研究发现,即使采用相对简单的多层感知器(MLP)架构,也能够超越现有的先进方法,从而对复杂模型的必要性提出了质疑。
本文介绍了一种名为TLOB的新模型,该模型通过引入双重注意机制来捕捉LOB数据中的空间和时间依赖关系,使其不仅适合长时间跨度的预测任务,还能有效应对波动较大的市场条件。此外,TLOB还提出了一种新的标记方法,旨在消除预测过程中可能出现的时间偏差问题。实验结果表明,在FI-2010基准测试中,TLOB模型取得了高达92.8%的F1分数;而在特斯拉和英特尔两只股票上的应用中,其F1分数分别提升了2.67%和14.16%。进一步的研究显示,随着时间推移,股票价格的可预测性逐渐降低(F1分数下降了6.68个百分点),这一现象反映了市场效率的逐步提升。值得注意的是,当考虑实际交易成本并将趋势分类转化为具体的交易策略时,可以发现其中存在的复杂性和挑战性。例如,通过平均价差重新定义趋势后,需要更加精细地调整模型参数以适应实际操作需求。
简介
全球金融市场已经从早期的手动交易模式演进到了如今高度电子化的交易平台,这一转变在过去的几十年间尤为显著。例如,在美国市场中,电子交易的比例从2000年的15%飙升至2020年的99%,几乎所有的股票交易都通过电子方式进行。电子限价订单簿(LOB)作为现代金融市场的核心组件,能够实时反映市场的供需动态平衡。然而,LOB数据的多维度特性和非平稳性增加了理解市场行为、预测股票价格趋势以及模拟市场条件的复杂度。传统的统计方法由于其固有的局限性,在捕捉LOB数据中的复杂模式时显得力不从心,尤其是在短期价格趋势预测方面表现不佳。
近年来,深度学习技术的发展为建模LOB数据中的非线性关系和时间依赖性提供了新的解决方案。股票价格趋势预测(SPTP)是金融市场中一个至关重要且极具挑战性的课题,特别是在高频交易场景下利用LOB数据进行预测时更是如此。由于市场的复杂性、非平稳性和波动性,准确预测市场动向变得异常困难。然而,深度学习的进步为提升预测准确性开辟了新的道路。尽管如此,现有的模型在面对不同市场条件时往往缺乏足够的鲁棒性和泛化能力。
针对上述挑战,本文提出了TLOB模型,该模型基于变换器架构设计,旨在超越现有模型的表现,提供更精确的预测结果。同时,研究还展示了即使采用相对简单的多层感知器(MLP)架构构建的MLPLOB模型,也能够在某些情况下超越当前最先进的模型。此外,本文不仅提出了新的架构设计,还进行了全面的性能评估,使用了FI-2010和NASDAQ等多个数据集进行测试。为了进一步提高预测效果,研究引入了一种新的标记方法,并对历史数据进行了比较分析,同时探索了替代阈值定义的可能性,从而为股票价格趋势预测提供了更为全面和深入的理解. 这些努力共同推动了金融AI技术的发展,为未来的研究奠定了坚实的基础。
01背景
电子限价订单簿(LOB)构成了现代金融市场记录与管理交易的核心机制。在LOB中,主要存在三种订单类型:市场订单,这种订单会即时按照当前最优价格完成交易;限价订单,允许交易者设定具体的买入或卖出价格及数量;以及取消订单,用于撤回尚未成交的限价订单。LOB结构不断更新,对所有市场参与者开放且透明,并严格遵循既定规则进行操作。连续双向拍卖(CDA)作为最普遍采用的订单匹配机制,当最佳买价与卖价出现重叠时,相应的订单便会得到执行。通常情况下,证券的价格被定义为最佳买价与卖价之间的中间值,而两者之间的差距则构成了买卖差价。
LOB的时间演变过程是一个复杂的多维时间序列问题。对于LOB数据的研究可以归纳为四大类别:一是对LOB动态特性的实证分析,旨在揭示实际市场行为;二是价格和波动性的预测研究,探索未来市场趋势的可能性;三是LOB动态的随机建模,尝试通过数学模型来模拟LOB的行为特征;四是LOB市场的模拟研究,致力于构建仿真环境以测试不同的市场假设和策略效果. 这些研究方向共同推动了我们对金融市场微观结构的理解和技术进步。
02相关工作
由于限价订单簿(LOB)数据的复杂特性,深度学习算法被广泛应用于股票价格趋势预测(SPTP),特别是高频交易中的中价运动预测。Tsantekis等人在2017年首次提出了基于长短期记忆网络(LSTM)的循环神经网络(RNN)和卷积神经网络(CNN)模型,随后进一步发展为结合两者优势的CNNLSTM架构。Tran等人在2018年则提出了TABL模型,通过双线性变换来捕捉特征之间的依赖关系,并进一步扩展为BINCTABL模型以应对数据的非平稳性问题。
Passalis等人在2019年引入了DAIN模型,该模型通过自适应归一化技术处理LOB数据,显著提升了多种网络架构的性能。Zhang等人在2019年提出了DEEPLOB模型,这一模型将卷积层与LSTM相结合,而在2021年又将其扩展为DEEPLOBATT模型,通过加入注意力机制改进了对长序列数据的处理能力。Kiesel等人在2022年提出了Axial-LOB模型,利用轴向注意力机制分解二维注意力计算,从而降低计算复杂度。
然而,Prata等人在2022年的研究评估了15种不同的深度学习模型,发现这些模型在面对新数据集时表现不佳,特别是在NASDAQ股票数据上,这主要是因为模型对超参数的选择和具体上下文环境高度敏感,导致预测结果不够稳定可靠。此外,还有研究探索了元学习Transformer模型TabPFN的应用,这种模型特别适用于小型表格数据,但在大规模LOB数据上的计算成本过高,限制了其实际应用价值。因此,未来的研究需要更加关注开发更为可扩展且高效的深度学习架构,以更好地应对LOB数据带来的挑战.
03任务定义
限价订单簿(LOB)中的记录可以表示为时间序列 L(t),该序列由四个关键元素构成:买入价格、卖出价格以及各自对应的交易量。
在分析股票价格趋势时,通常采用一种三分类系统来定义价格走势,即 U(上升)、D(下降)和 S(稳定)。中间价格作为衡量股票价格的一个可靠指标,尽管如此,由于市场波动的影响,基于此生成的标签可能包含较大的噪声。为了减少这种噪声,常见的做法是对中间价格进行平滑处理。然而,如果仅仅平滑未来的价格数据,可能会导致交易信号变得不稳定。因此,有研究提出了一种同时对过去和未来的价格数据进行平滑的方法。不过,当平滑窗口的长度与预测视野相同时,这种方法可能会引入标签偏差的问题。
为了解决上述问题,新的标签生成策略提出了将平滑窗口的长度与预测视野分离,并重新定义了平滑和趋势分类的方法。在这种新方法中,趋势分类是基于与阈值 θ 的比较来进行的。为了使该阈值更贴近实际交易环境,建议将其设定为平均买卖价差的一定百分比,这样可以更好地与交易成本保持一致。
在实验部分,研究者对比了传统的原始标签方法与所提出的新型标签策略。结果表明,在面对不同预测视野的情况下,新策略展现出了更为优异的表现,尤其是在提高预测准确性和稳定性方面,这一发现对于改进基于LOB数据的金融预测模型具有重要意义。
04模型
在本文中,我们提出了两种用于股票价格趋势预测的深度学习模型:MLPLOB 和 TLOB。其中,MLPLOB 是一种基于多层感知器(MLP)的简单模型,而 TLOB 则是一种基于双重注意力机制的 Transformer 模型。这两种模型均以最近 个限价订单簿(LOB)快照的时间序列数据作为输入,这些数据覆盖了 LOB 的 10 个层级信息。
通过利用这样的输入结构,两种模型能够有效地捕捉到股票市场的动态变化特征,从而为价格趋势预测提供支持。MLPLOB 依靠其全连接层来学习输入数据中的非线性关系,而 TLOB 则借助双重注意力机制,不仅关注时间维度上的依赖关系,还强调了不同 LOB 层级之间的相互作用,以此提升预测精度. 这两种模型的设计旨在探索不同架构在处理复杂金融时间序列数据时的表现差异。
MLPLOB
Prata等人在其基准研究中指出,尽管专为短期价格预测(SPTP)任务设计的深度学习架构数量不断增加,但这些模型在处理复杂数据集时的表现通常不尽如人意。受到Tolstikhin和Zeng等人研究工作的启发,研究人员开发了一种基于多层感知器(MLP)的SPTP架构——MLPLOB,目标是实现与当前最先进的方法相匹敌的性能。
MLPLOB由若干个模块构成,每个模块包含两种类型的MLP:特征混合MLP和时间混合MLP。这两种MLP分别用于捕捉限价订单簿(LOB)数据中的空间和时间关系。具体而言,特征混合MLP以逐行的方式应用于输入序列,而时间混合MLP则对转置后的结果以逐列的方式进行操作。这种架构设计简洁明了,仅依赖于矩阵乘法、数据布局变换(如重塑操作)以及标量非线性激活函数,并采用了各向同性的设计理念,即每个模块内部保持维度不变。
为了生成最终的预测结果,MLPLOB通过降维技术将特征整合成一个单一的向量,随后该向量经过一个全连接层,输出对应于最后一个时间步的价格趋势(上升、下降或稳定)。这一过程确保了模型能够有效地从LOB数据中提取关键信息,并作出准确的趋势预测。
MLPLOB旨在 demonstrate 那些经过精心设计的MLP模型,能够在短期价格预测(SPTP)任务中,达到与更为复杂的模型架构相媲美甚至超越的效果。这一目标强调了即使是没有采用复杂结构的MLP模型,只要设计得当,同样可以在专门的任务中展现出卓越的性能。通过这种方式,MLPLOB试图重新定义对于模型复杂度与性能之间关系的传统认知,证明简单并不等同于低效。
TLOB
Transformer架构在深度学习领域,尤其是在自然语言处理和时间序列建模方面取得了显著的成就,这使其成为处理大规模金融数据的理想选择。本文提出了TLOB架构,这是专门为限价订单簿(LOB)数据设计的一种模型,其主要组成部分包括:
- 时间轴自注意力机制,用于识别连续LOB快照之间的时间依赖关系;
- 空间轴自注意力机制,旨在捕捉不同价格-成交量特征之间的空间关联;
- MLPLOB模块,用以加强空间与时间信号的融合能力。
TLOB利用双重注意力机制来分析LOB数据中的时间和空间依赖性,并通过消融实验评估各类注意力层的重要性。为了应对金融时间序列中存在的非平稳性和幅度差异问题,TLOB采用了双线性归一化层,从而更好地适应批次特定的统计特性。此外,还引入了正弦位置编码,以保持LOB窗口内的时间顺序,确保模型能够尊重快照的时间演变过程。
通过结合双重自注意力机制和MLPLOB模块,TLOB致力于揭示LOB数据中复杂的市场微观结构特征,同时具备在大数据集上高效扩展的能力,这使得TLOB在处理复杂金融数据时表现出色。
05实验
对MLPLOB和TLOB模型在FI-2010与TSLA-INTC数据集上的训练及测试进行了详尽的评估。结果表明,无论是在哪个数据集或是预测时间段上,TLOB和MLPLOB的表现均超越了当前的最佳水平。具体而言,TLOB在较长的预测时间段上展现了最优的性能,而MLPLOB则在较短的时间段内表现更为突出。
本研究的主要目标是验证这两个模型的预测能力,并进一步深化对深度学习技术在金融预测领域应用的理解。为此,研究提出了几个关键问题以探讨模型的设计与效果:
- 股票价格预测是否随着市场复杂性的增加而变得更加困难?
- 选择平均价差作为参数 会对模型性能产生怎样的影响?
- 时间和空间注意力机制在模型中的必要性如何,它们是否显著提升了模型捕捉LOB数据内在模式的能力?
这些问题的解答有助于更全面地理解TLOB和MLPLOB的工作原理及其在金融领域的潜在价值。
TSLA-INTC数据集
在2015年1月2日至30日这20个交易日内,选取了特斯拉和英特尔这两只在NASDAQ上市的股票的限价订单簿(LOB)数据进行研究,整个数据集包含了大约2400万个样本点。每个样本由价格和相应的交易量组成,形成一个元组。为了便于分析,将这些数据分成了三个部分:前17天的数据用于训练模型,第18天的数据作为验证集,而最后两天的数据则被用作测试集。考虑到市场微观结构特征与个股行为之间可能存在相互独立的关系,在分析过程中假设特定股票本身的特性并不重要。为了兼顾时间一致性和样本变异性,采用了基于交易量的采样方法,即每当有500股完成交易时,就记录一次LOB的状态快照。
FI-2010基准数据集
模型的评估将基于FI-2010基准数据集,这一数据集在深度学习应用于限价单簿(LOB)领域中被广泛采纳为标准。FI-2010数据集涵盖了五家芬兰上市公司(Kesko Oyj、Outokumpu Oyj、Sampo、Rautaruukki、Wärtsilä Oyj)的LOB数据,时间跨度为2010年6月1日至14日的十个交易日,包含大约400万个限价单快照。这些数据按照每十个事件一次的频率进行采样,最终形成了394,337个样本。每个数据点的标签是依据当前中价与未来的中价之间的百分比变化通过特定公式计算得出。该数据集提供了五个不同的预测时间窗口(h ∈ H = {10, 20, 30, 50, 100}),并为每个窗口配备了相应的类别标签。为了确保分类的平衡性,在所有的时间窗口中均采用了相同的阈值 = 2 × 10^−3,特别是针对h = 50的情况进行了调整。
实验设置
针对不同的预测时间范围(10, 20, 50, 100),我们进行了模型的训练与测试,并利用RTX 3090显卡完成了实验。在FI-2010数据集中,通过纳入104个手工特征,F1-Score得到了大约1%的提升。而对于特斯拉和英特尔的数据集,通过整合订单流信息来丰富限价订单簿(LOB)快照,F1-Score进一步提升了约1.5%。
我们的基线模型涵盖了三种传统机器学习方法(支持向量机SVM、随机森林Random Forest、XGBoost)以及八种深度学习架构(例如多层感知机MLP、长短期记忆网络LSTM、DeepLOB等)。然而,由于计算资源的限制,我们仅选取了在FI-2010数据集上表现最优的两个模型——DeepLOB和BiN-CTABL,在特斯拉和英特尔(TSLA-INTC)数据集上实施训练与测试。
为了确保分类任务中的类别分布均衡,我们设定了趋势分类阈值 为平均百分比变化;而在FI-2010数据集上,则保留了原有的标签体系不变。考虑到F1-score这一指标能够有效地处理类别不平衡问题,并且在相关研究文献中被广泛采用,因此我们将其作为主要的性能评估标准。
06结果
FI-2010
MLPLOB和TLOB不仅在高召回率的情况下展现出高精确度,而且在整个召回率范围内都超越了其他模型。基线结果源自Prata等人开展的基准研究,该研究使用的设置与FI-2010数据集一致。MLPLOB和TLOB的表现超过了[33]中所分析的所有其他模型,体现了当前最先进的性能水平。具体而言,MLPLOB在前三个预测时间段内表现出最优性能,而MLPLOB与TLOB之间的性能差距非常小,这主要是因为FI-2010数据集本身的复杂性相对较低。
特斯拉和英特尔
针对英特尔的数据,所开发的模型在低召回率条件下展现出了优异的表现,能够精准地识别出那些具有高度置信度的正实例。在短期预测(如10天和20天)中,MLPLOB模型相较于其他模型展现出更强的优势;而在长期预测(例如50天和100天)中,TLOB模型则因其擅长处理长时间跨度内的依赖关系而表现得更为出色。尽管MLPLOB与TLOB在短期预测中的性能差异较小,大约仅为0.5%,但随着预测时间范围的扩展至长期,两者的性能差距显著扩大至约7%。这表明,随着预测时间的增加,预测任务的难度也随之提升。此外,相较于FI-2010数据集,对于NASDAQ股票的预测性能普遍较低,这一现象可能归因于NASDAQ市场的流动性和效率相对较低。值得注意的是,所有模型均被训练至完全收敛,其中TLOB和MLPLOB的收敛速度明显快于BiNCTABL和DeepLOB。
股市比过去更难预测了吗?
市场预测遭遇诸多挑战,其中一种现象是预测模式会随着时间的推移而自行失效。学术研究显示,在某些特定时期有效的预测模型可能会逐渐失去其效用。例如,Dimson和Marsh的研究发现,英国小盘股溢价的可预测性在一段时间后消失了。同样地,Bossaerts和Hillion也指出,自1990年起国际股票回报的可预测性有所下降;Aiolfi和Favero则在美国股票市场上报告了类似的发现,特别是在1990年代期间。这些现象表明,随着市场的不断发展,市场效率逐步提高,从而使得预测变得更加困难。
通过对TLOB模型进行测试的结果进一步验证了这一假设:该模型在2012年的表现明显优于2015年,这表明随着时间推移,即使是最先进的预测模型也可能面临有效性减弱的问题。这种趋势反映了金融市场环境的动态变化以及对更复杂、更适应性强的预测工具的需求不断增加。
使用平均价差的可选阈值定义
预测性必须与交易成本相结合进行考量,因此提出将趋势分类参数 设定为中价的平均价差百分比。这一方法特别针对特斯拉的数据设计,因为对于像英特尔这样的股票,其交易量较高且波动性较低,结果导致99.99%的趋势被归类为平稳状态。鉴于此,设定的时间跨度选择了50、100和200,因为在较短的时间范围内,几乎99%的中价变动都被视为平稳。然而,实验结果表明性能有所下降,这可能是因为类别不平衡所引发的问题。在实际应用中追求盈利时,强调了趋势定义以及方法复杂性的进一步优化是必要的,以提高模型的有效性和适用性。
消融分析
在FI-2010数据集上开展的消融研究,旨在评估TLOB架构中不同注意力机制的具体贡献。研究中对比了完整的TLOB模型与两个简化版本:一个是去除了空间注意力机制的模型(TLOB w/o SA),另一个则是去除了时间注意力机制的模型(TLOB w/o TA)。为了确保比较的公平性,所有模型的总层数均保持为8层不变。
如表7所示,在四个不同的预测时间点(h = 10, 20, 50, 100)下,各模型的F1分数被详细记录下来。结果表明,完整的TLOB模型在每一个预测时间点上的表现都优于其两个消融版本。这一结果突显了同时捕捉空间关系和时间依赖性的关键作用,证明了双重注意力机制能够有效地学习互补信息,从而显著提高预测的准确性。
07总结
本文提出了两种新深度学习模型:MLPLOB(简化的MLP架构)和TLOB(基于Transformer的方法),用于基于限价单簿数据的股票价格趋势预测。两种模型在性能上优于现有的最先进方法,TLOB在处理高频市场数据方面表现尤为突出。预测NASDAQ股票(如特斯拉、英特尔)比芬兰股票(FI-2010)更具挑战性,且预测准确性随预测时间跨度增加而下降。实际应用中,基于平均价差定义趋势阈值对模型评估和潜在盈利能力有显著影响,反映了学术性能指标与实际交易适用性之间的差距。
未来研究方向包括金融深度学习模型的规模法则、应对市场效率和复杂性的方法,以及更符合实际交易约束的趋势定义方法。提出的方法尚不成熟,存在显著风险,包括模型的可解释性不足和自动化AI模型可能加剧金融市场的系统性脆弱性。