“CryptoMamba: Leveraging State Space Models for Accurate Bitcoin Price Prediction”
论文地址:https://arxiv.org/pdf/2501.01010
Github地址:https://github.com/MShahabSepehri/CryptoMamba
摘要
预测比特币价格由于市场的高波动性和复杂的非线性特征而变得困难。传统的时序分析工具,例如ARIMA和GARCH模型,以及LSTM在识别数据中的状态变化和长程依赖方面表现不佳。本文介绍了一种名为CryptoMamba的新方法,它基于Mamba的状态空间模型(SSM),能够有效捕捉金融时间序列里的长期依赖关系。通过实验发现,无论市场环境如何,CryptoMamba都能提供更为精准的预测,并展现出优秀的泛化能力。将其与交易策略结合使用,可以在实践中把准确的预测转变为实际的经济收益。研究结果强调了状态空间模型在股票及加密货币价格预测方面的显著优势。
简介
比特币价格预测由于市场高波动性和复杂性而极具挑战,且随着市场需求的增长而变得更加关键。价格变动受到诸如市场情绪、法规变化及宏观经济趋势等多种因素的影响,导致数据的非平稳特性。传统的统计模型如ARIMA和GARCH在处理复杂的非线性关系和突发波动方面存在局限,即使是深度学习方法例如LSTM和Transformer,在扩展性和泛化能力上也面临限制。状态空间模型(SSMs)通过结合潜在状态变量与观测变量,非常适合处理金融时间序列数据的特点。
CryptoMamba是首个采用基于Mamba的状态空间模型框架进行比特币价格预测的解决方案,特别强调捕捉长期依赖性。此外,还探讨了交易量对预测准确性的作用,并设计和评估了两种交易策略:Vanilla和Smart。实验结果表明,相比于多种基准模型,CryptoMamba不仅提高了预测准确度,还在财务收益和计算效率方面展现了卓越性能。
01相关工作
早期的比特币价格预测依赖于ARIMA和GARCH模型,前者适用于线性关系分析,后者则擅长于波动聚集的捕捉。然而,这两种方法在应对加密货币市场特有的非线性和突发变化时显得力不从心。
近年来,研究重点转向了机器学习技术,尤其是LSTM和GRU,因为它们能够有效地建模序列依赖性。研究表明,深度学习模型在处理复杂的时间依赖性方面超越了传统统计方法。特别是Bi-LSTM,在对比特币、以太坊和莱特币的价格预测中表现尤为突出。但深度学习模型存在过拟合的风险,并且需要大量数据支持,这限制了它们在高波动性市场中的应用。
除此之外,其他机器学习算法如SVM、ANN、NB和RF也被引入到比特币价格预测中,这些方法显示出了提升预测准确性的潜力。尽管取得了一些进展,现有技术在捕捉加密货币市场的长程依赖性和状态转换方面仍然面临挑战。状态空间模型(SSMs)由于其灵活性和计算效率,被视为一种有前景的解决方案。特别是Mamba及其变体S-Mamba,通过选择机制和双向编码技术,大幅提升了时间序列预测的精确度和计算效率,非常适合应用于金融领域,如比特币价格预测。
02预备知识
状态空间模型(SSMs)融合了递归神经网络(RNNs)和卷积神经网络(CNNs)的优势,特别适用于捕捉时间序列数据中的长程依赖关系。这类模型通过低维隐藏状态来处理一维输入序列,并将其视为连续时间系统的离散版本进行描述。传统的SSMs通常被视为线性时不变(LTI)系统,其动态特性不随输入变化。
Mamba模型则引入了输入依赖机制,使系统变为时变系统,同时保持了高计算效率,其计算成本与序列长度呈线性关系。在语言、音频以及基因组数据分析等任务中,Mamba的表现超越了标准的SSMs和Transform/XMLSchema。本文介绍了一种基于Mamba的定制架构,专门针对时间序列预测进行了优化。
03方法
CryptoMamba采用基于Mamba的状态空间模型(SSM)来应对比特币价格预测中的难题。这种方法能够有效地捕捉高度波动的金融数据中的长程依赖关系。
数据集
比特币价格预测的研究常常因数据集的不一致性而影响模型的泛化能力。本研究利用2018年9月17日至2024年9月17日期间的一个最新公开数据集,来评估CryptoMamba与其它基准模型的有效性。此数据集涵盖了五个关键特征:开盘价、收盘价、最高价、最低价以及交易量,这些特征能够体现市场活动和价格波动情况。实验过程中,数据被划分为测试集和验证集,以检验模型在新数据上的表现。此外,我们分别分析了包含和不包含交易量数据的情况下对预测准确性的影响,考虑到交易量可能揭示市场需求和投资者情绪。
CryptoMamba架构
CryptoMamba是一种基于Mamba架构设计的金融时间序列预测模型,它通过Mamba模块处理序列数据中的长程依赖问题。该模型由多个C-Block和一个Merge块构成,接受固定天数的特征作为输入,并输出下一个交易日的预测收盘价。每个C-Block包含若干个CMBlock以及一个多层感知机(MLP),其中CMBlock由一个归一化层和一个Mamba模块组成,其设计目的是逐层传递输出以提炼特征。Merge块则使用线性层将所有C-Block的输出进行整合,形成最终的预测结果。CryptoMamba的这种分层结构能够有效地逐步提取并提炼特征,同时捕捉到短期与长期的时间依赖关系。由于Mamba模块具有输入依赖的动态特性,使得CryptoMamba对金融市场数据具备良好的适应能力。
指标
模型预测准确性的评估依赖于三种标准指标:RMSE、MAPE和MAE。
- RMSE对大误差给予更重的惩罚,适用于那些大误差可能导致较高成本的场景。
- MAPE以百分比形式表示误差大小,便于在不同规模的数据集间进行比较,但当实际数值较小时,可能会导致误差显得过大。
- MAE作为平均绝对误差,它对所有偏差一视同仁,提供了较为稳健的准确性度量。
总体而言,这三个指标的值越低,表明模型的表现越优秀。其中,RMSE和MAE用于衡量绝对误差,而MAPE则用于衡量相对误差。
04实验
本文旨在评估CryptoMamba在比特币价格预测方面的有效性,并将其与LSTM、Bi-LSTM、GRU和S-Mamba等基线模型进行对比。评价标准包括预测准确性(通过RMSE、MAPE和MAE衡量)以及模型效率(依据参数数量)。此外,研究还探讨了交易量作为特征的影响,通过对比有无交易量数据的实验来分析其效果。结果显示,相较于其他传统及先进的基线模型,CryptoMamba在预测准确性和模型效率方面均展现出显著优势。
实验设置
对比模型:CryptoMamba与LSTM、Bi-LSTM、GRU和S-Mamba这四个基线模型在性能上进行了比较评估。
模型配置:
- LSTM:3层,隐藏层大小100,适合捕捉长时间的依赖关系。
- Bi-LSTM:3层,隐藏层大小100,能够学习时间序列中前后方向的时间依赖性。
- GRU:3层,隐藏层大小100,由于其参数较少,被视为一种轻量化的选择。
- S-Mamba:2层,设定为d_model 128, d_state 32, d_ff 128,不过之前并未应用于比特币价格预测任务。
- CryptoMamba:则由3个C-Blocks组成,每个C-Block内含4个CMBlocks,状态维度设为64。
实验设置:
利用前14天的数据来预测次日的收盘价,采用Adam优化器和RMSE作为损失函数,批量大小设定为32。实验中应用了学习率调度及权重衰减策略,并通过早停法选取验证集上表现最佳的模型。
数据处理:
所有数据被统一划分为训练集、验证集和测试集,确保从每个分割期的第15天开始进行预测,以此避免数据泄露问题。
特征分析:
通过在包含和不包含交易量作为特征的情况下分别进行实验,考察了交易量对预测准确性的影响。
超参数:
所有基线模型均使用经过验证的最佳实践超参数值,并设置了固定的随机种子以保证实验结果的可重复性。
结果
实验结果表明,CryptoMamba在所有评估指标上均超越了LSTM、Bi-LSTM、GRU和S-Mamba,显示出其对比特币价格动态的卓越捕捉能力。特别是包含交易量数据的CryptoMamba版本(CryptoMamba-v),其RMSE达到了1598.1,MAPE为0.02034,MAE为1120.7,表现最为突出。即便不考虑交易量因素,CryptoMamba依旧超越其他基线模型,体现了其强大的鲁棒性。在含有交易量数据的情况下,S-Mamba也表现出了一定的竞争优势,其RMSE值为1651.6,这反映了先进状态空间模型在捕捉长程依赖方面的优势。此外,研究发现Bi-LSTM和LSTM在纳入交易量信息后性能显著提升,而GRU的改进则较为有限,这揭示了交易量对不同模型架构的影响差异。
总体而言,实验结果证实了CryptoMamba无论是在包含还是不包含交易量数据的情况下的有效性,且加入交易量数据通常能够提高预测准确性,突显了其在比特币价格预测中的关键作用。图2和图3展示了各模型在训练集、验证集和测试集上的预测效果,从中可以看出非Mamba基线模型在市场波动期间的表现有所下降,而CryptoMamba能够持续追踪实际的价格趋势,展现了更好的泛化能力和鲁棒性。
效率
CryptoMamba仅拥有136k个参数,是所有模型中参数量最少的,明显少于Bi-LSTM的569k和S-Mamba的330k参数。与此同时,LSTM和GRU分别有204k和153k个参数,也都高于CryptoMamba。尽管参数数量较少,CryptoMamba依然能够高效捕捉数据中的关键模式,展示了其卓越性能。较低的参数量意味着计算资源需求减少,使得CryptoMamba非常适合资源受限的环境,并且降低了过拟合的风险,增强了对未见过的数据的泛化能力。与S-Mamba相比,CryptoMamba以不到一半的复杂度实现了更高的准确性,这进一步证实了其在金融时间序列预测方面的架构优势。
05在实际交易中的应用
本文评估了CryptoMamba在真实交易场景中的实用性,采用100美元的初始资金进行模拟交易实验。
实验中使用了两种交易算法:
- Vanilla(基于简单的买卖决策):Vanilla算法依据预测价格与实际价格的变化比率(d)来操作,设定了0.01的阈值,低于此值则不进行交易。
- Smart(考虑风险意识的决策):相比之下,Smart算法引入了预测价格的一个上下限区间(定义2%的风险水平),并根据当前价格与这个区间的相对位置来制定买卖策略。
测试期间的结果显示,CryptoMamba在Vanilla和Smart两种设置下均实现了最高的回报,分别达到了246.58美元和213.20美元。同样,在验证阶段,CryptoMamba也表现出色,分别在Vanilla和Smart设置中获得了124.09美元和127.12美元的回报。值得注意的是,验证期的价格变化较为平稳,而测试期则经历了较大的波动,这导致传统基线模型在测试期内表现欠佳。尽管S-Mamba在测试期也有不错的表现,但其在验证期的成绩却不理想,这表明它对市场条件的变化适应性较差。相反,CryptoMamba无论是在价格稳定还是波动较大的市场条件下,都展现了出色的泛化能力和盈利能力。
06总结
CryptoMamba是一款基于Mamba的金融时间序列预测架构,特别针对比特币价格预测进行了优化。通过采用状态空间模型(SSMs)并结合Mamba增强功能,CryptoMamba能够有效捕捉长程依赖关系,其表现超越了传统的LSTM、BiLSTM、GRU和S-Mamba等模型。特别是包含交易量数据的版本在实际交易模拟中实现了最高的投资回报,这凸显了交易量信息的重要性。实验使用Vanilla和Smart两种交易算法来模拟真实交易场景,证明了CryptoMamba不仅在理论指标上领先,在实际应用中同样具有显著优势。除了加密货币市场,CryptoMamba也可应用于股票和商品等其他领域的时间序列预测。
未来的研究可以将CryptoMamba的应用范围扩展到其他类型的金融资产,并测试它在多元化投资组合管理中的适应性。此外,还可以改进现有的交易算法,以便更好地利用预测区间,并整合外部因素如市场情绪分析和宏观经济指标。进一步的研究方向包括在现有架构中融入风险管理策略,以提升系统在高波动性市场环境下的稳定性和可靠性。