Bootstrap

2025-arXiv-FinSphere: 一个配备有基于实时数据库的定量工具的对话式股票分析智能体

arXiv | https://arxiv.org/abs/2501.12399

50 对 Stocksis 数据集 | https://anonymous.4open.science/r/Stocksis-BD25

摘要:

当前的大语言模型(LLMs)在股票分析方面面临两个关键限制:缺乏深度分析能力,这阻碍了它们生成专业级洞察的能力,以及缺乏客观评估指标来评估股票分析报告的质量。为应对这些挑战,本文引入了FinSphere 这一对话型股票分析智能体,并提出了三项主要贡献:Stocksis,由行业专家策划的数据集,旨在提升 LLMs 的股票分析能力;AnalyScore,一种系统性的评估框架,用于评估股票分析报告的质量;FinSphere,一种能够根据用户查询生成高质量股票分析报告的人工智能智能体。实验结果表明,即使在增强实时数据访问和少量示例指导的情况下,FinSphere 的表现也优于通用型和领域特定型的LLMs,以及现有的基于智能体的系统。

一、引言

大语言模型(LLMs)在理解和处理自然语言方面展现了卓越的能力,并且其影响力已扩展至金融领域。通过利用其语言理解能力,这些模型在各种金融应用中表现出色,包括情感分析从非结构化金融文本中提取信息。金融特定的LLMs,如 FinBERTBloombergGPTPIXIU的出现,进一步增强了有效处理金融数据的能力。随着 LLM 技术的不断演进,人们对其处理更复杂金融任务(特别是在股票分析方面)的期望越来越高,导致了工具增强型智能体的出现,这些代理结合了 LLMs 的语言能力与专门的金融工具,标志着自动化金融分析的一个重要飞跃。

然而,LLMs 继续面临挑战,即难以利用这些工具的输出生成高质量的分析结果。两个主要挑战是缺乏专门的数据集来微调 LLMs 的分析能力,以及缺乏系统性的评估方法来量化其在股票分析中的性能。此外,当前的研究受到 LLMs 依赖历史数据的限制。这种限制限制了它们获取实时金融数据和特定领域信息的能力,从而限制了它们对金融市场的动态性质的全面捕捉。

二、Stocksis 和 AnalyScore

股市分析日益复杂,需要整合多种数据源和高级分析方法。尽管大型语言模型(LLMs)在金融分析方面展现出潜力,但当前的景观中存在两个关键缺口:

  • 缺乏高质量的训练数据以提升LLMs的股票分析能力 → Stocksis
  • 缺乏标准化的评估框架以评估AI生成的股票分析质量 → AnalyScore

2.1 Stocksis:提升LLMs股票分析能力的高质量数据集

Stocksis 由 5,000 个精心挑选的训练对组成,其中 50 个训练对在开源发布中可用,供研究和开发使用。每个训练样本包含两个关键组成部分:

  • **背景信息提示(输入):**包含多个定量分析工具(每个样本汇总六个独立工具的结果)综合输出的完整分析提示,作为背景信息。背景信息涵盖成交量价分析、技术指标和其他市场指标。每个提示都严格设计,旨在引导模型执行特定的分析任务,同时利用提供的背景信息。平均长度为4000字。
  • **专家编辑分析(标签):**深入的分析报告,针对提示的要求,有效地利用了背景信息,每份报告平均3000字。这些由专家精心编写的分析报告不仅提供总体市场评估,还详细阐述了如何有效解读各种定量指标的理由。

image-20250217110729041

数据集通过结构化的流程精心编制,利用本公司在股票市场分析方面的专业经验。用于数据收集的定量工具是本公司专为提供个人投资者股票分析建议而开发的成熟产品。数据收集过程包括两个关键阶段:

  • **提示和背景信息生成:**专家分析师根据具体的股票分析需求,精心选择合适的分析工具,生成定量分析作为背景信息。随后,这些分析师会根据这些背景信息编写有针对性的提示,以指导分析过程。
  • **全面分析创建:**由10名经验丰富的股票分析师组成的小组,针对这些提示编写详细的分析报告。每位分析师利用其专业知识,将背景信息综合成连贯的见解,直接回应提示的要求。这一严谨的过程大约持续三个月,确保所有分析的严格审查和质量控制。

2.2 AnalyScore:股票分析报告全面评估框架

AnalyScore 是一种创新的评估框架,旨在评估股票分析报告的质量,由行业专家开发,结合了传统的股票分析评估原则与与大语言模型(LLM)相关的知识。该框架实施两层评估系统,以确保既满足基本的质量标准,又具备详细的分析卓越性。

  • **先验资格检查:**一项强制性的初步评估,包含六项必不可少的标准,必须100%符合这些标准,才能进行详细评估。这些标准确保遵守基本的质量标准,包括:
    • 结论结构
    • 逻辑一致性
    • 事实支持
    • 数据时效性
    • 分析维度
    • 中立语言

image-20250217111436700

  • **详细评估:**一个涵盖四个关键维度的全面评分系统,总分为100分:
    • 结论(20分):评估投资建议的清晰度和个人化程度
    • 内容(45分):评估专业分析质量及逻辑一致性
    • 表达(15分):检查结构组织和语言清晰度
    • 数据(20分):衡量数据利用的广度和深度

image-20250217111505474

这种结构化的方法确保对股票分析报告进行全面而系统的评估,结合定性标准和定量指标,提供对报告质量的综合评价。目前,AnalyScore 仅由股票分析领域的专家使用,但未来我们计划设计详细的提示,使大语言模型(LLM)能够使用 AnalyScore 替代人类专家评估分析报告。

三、FinSphere 智能体

3.1 基于实时数据库的强大定量工具

FinSphere 的核心优势在于其与公司成熟的一系列量化分析工具的无缝集成,这些工具已在生产环境中广泛部署并经过验证,访问全面的实时金融数据库,包括结构化数据(价格变动、交易量、财务指标)和非结构化数据(公司公告、分析师报告、市场新闻)。

当 FinSphere 识别出需要特定的量化分析时,它会触发生产套件中的相应工具。这些工具随后自动查询我们的实时数据库,提取最相关的最新数据,执行复杂的计算,并生成专门的分析,如技术指标、基本面估值或市场情绪评估。每个工具都设计为根据用户查询提供特定的背景信息,利用我们不断更新的数据库确保所有分析准确反映当前市场状况。

3.2 指令调优

使用 Stocksis 数据集对 Qwen2-72B 进行了指令微调,以增强模型的财务分析能力。微调过程采用 **LoRA(低秩适应)**方法,使得参数更新更加高效,同时保持了模型的一般能力。通过这种方法,我们训练模型能够解读多种定量工具的输出、整合多样的分析视角,并按照专业分析模式生成结构化的报告。

3.3 总体工作流

image-20250217111636032

FinSphere 通过系统化的多阶段过程生成全面的财务分析。

  • 接收到用户查询后,FinSphere 首先采用思维链(CoT)推理,将分析请求分解为结构化的子任务,并识别出适用于每个组成部分的适当定量工具。

  • 在任务分解之后,选定的定量工具独立访问我们的实时金融数据库。每种工具都会检索其分析领域中最新的市场数据和相关信息,生成反映最新市场状况的专业化分析。这些分析涵盖了从技术指标到基本面指标等多个维度,提供了一个多维度的全面分析视角。

  • 经过 Stocksis 调优的模型充当专家分析师的角色,接收所有专业分析作为输入,并综合生成一个连贯且高质量的回应。通过在 Stocksis 数据集上进行指令微调,模型已经发展出解读定量输出和生成专业级财务分析的复杂能力。

四、评估

基线模型:

  • **大语言模型(LLM):**闭源模型(GPT-4o、GPT3.5)、开源模型(Qwen2-72B)、领域特定模型(InvestLM、FinGPT),所有模型均采用带有少量示例和相关背景信息的链式思考提示(详见附录D)。
  • **基于智能体的系统:**FinMem、FinRobot,这些系统采用了简化提示和少量示例及背景信息,类似于 Stocksis 的输入方式。
  • **FinSphere:**通过直接用户查询评估,利用其集成的实时数据库和定量工具。

4.1 生成对比

image-20250217113307092

4.2 消融实验

使用**不同比例(20%、50%、80% 和 100%)**的 Stocksis 数据集进行了消融研究,对Qwen2-72B进行微调,同时保持 FinSphere 框架不变。

image-20250217113542900

研究结果表明,训练数据规模与模型性能之间存在明显的正相关关系,整体得分从使用 20% 数据时的 58.90 上升到使用 100% 数据时的 70.88。值得注意的是,性能提升呈现出非线性模式,在高数据量下观察到更大的增量提升。
性能之间存在明显的正相关关系,整体得分从使用 20% 数据时的 58.90 上升到使用 100% 数据时的 70.88。值得注意的是,性能提升呈现出非线性模式,在高数据量下观察到更大的增量提升。

;