CancerGPT ：基于大语言模型的罕见癌症药物对协同作用少样本预测研究

今天我们一起来剖析一篇发表于《npj Digital Medicine》的论文——《CancerGPT for few shot drug pair synergy prediction using large pretrained language models》。该研究聚焦于一个极具挑战性的前沿领域：如何利用大语言模型（LLMs）在数据极为稀缺的罕见癌症组织中，实现对药物对协同作用的精准预测。（欢迎关注“赛文AI药学”，获取更多AI与药学的内容）

一、引言：罕见癌症药物对协同作用预测的挑战与机遇

罕见癌症因其发病率低，患者群体小，导致药物研发长期面临实验数据匮乏的严峻挑战。传统的药物对协同作用预测方法，通常依赖于大量的实验数据进行模型训练，在罕见癌症领域难以有效应用。现有研究主要集中于常见癌症类型，或需要高维度的基因组和化学特征数据，这些数据在罕见癌症组织中获取困难且成本高昂。因此，开发针对罕见癌症的低数据依赖型药物对协同作用预测方法，具有重要的临床意义和科学价值。近年来，大语言模型（Large Language Models, LLMs）在自然语言处理领域展现出强大的少样本学习能力，为解决这一难题提供了新的思路。

二、方法：基于 LLMs 的 CancerGPT 预测模型构建

本研究提出了一种新颖的基于 LLMs 的少样本药物对协同作用预测模型——CancerGPT。该模型的核心创新在于将药物对协同作用预测问题转化为自然语言处理任务，利用 LLMs 从海量生物医学文献中学习到的先验知识，弥补结构化数据的不足。CancerGPT 的构建流程主要包括以下几个关键步骤：

表格数据自然语言化： 将药物对、细胞系、组织类型及药物敏感性等表格数据转换为规范化的自然语言文本描述。
任务导向型提示工程： 设计针对药物对协同作用预测任务的特定提示语（Prompt），引导 LLMs 输出二元分类结果（即协同或非协同）。
模型预训练与微调： 选取 GPT-2、GPT-3 及 SciFive 等多个 LLMs 作为基础模型，并利用常见癌症药物对协同作用数据集对 GPT-2 进行预训练，得到 CancerGPT 模型。
少样本微调策略： 针对七种罕见癌症组织类型，分别采用少量样本（k-shot，k 值范围为 0-128）对预训练模型进行微调，以评估模型在数据稀缺条件下的预测性能。

三、实验：模型性能评估与对比分析

在七种罕见癌症组织数据集上，对 CancerGPT 模型及其他基线模型（包括 XGBoost、TabTransformer 及 Collaborative Filtering）进行了系统性的性能评估。实验结果重点关注以下几个方面：

数据分布依赖性分析： 实验结果表明，当存在与目标组织分布一致的充足外部数据时，传统数据驱动模型表现更佳；而在外部数据缺乏或分布不一致时，CancerGPT 表现出显著优势。
不同 LLMs 模型性能比较： 经过针对性微调的 CancerGPT 模型准确率最高；GPT-3 模型展现出较大的性能提升潜力；针对生物医学文献预训练的 SciFive 模型并未在所有数据集上超越 GPT-2。这表明针对特定下游任务进行微调对于提升 LLMs 性能至关重要。
模型参数规模与性能关系： 参数量较小的 CancerGPT (124M) 性能优于参数量更大的 GPT-3 (175B)，表明在特定任务中，模型性能并非单纯依赖于参数规模，精细化的微调策略可能更为关键。
微调策略对比： 全模型参数微调通常优于仅微调最后一层参数，但性能提升幅度有限。这表明 LLMs 的最后一层已经编码了丰富的先验知识，仅通过微调最后一层也能获得较好的性能。

四、讨论：研究结果的意义与启示

本研究提出的 CancerGPT 模型，为罕见癌症药物对协同作用预测提供了一种有效的解决方案。更重要的是，本研究为深入理解 LLMs 在生物医学领域的应用提供了重要的 insights：

归纳推理与演绎推理的结合： 本研究成功地将基于数据的归纳推理（少样本微调）与基于知识的演绎推理（LLMs 预训练知识）相结合，为解决数据稀缺问题提供了新的范式。
LLMs 作为通用学习器的潜力： 实验结果表明，经过适当微调的 LLMs 能够展现出强大的迁移学习能力，有望成为生物医学领域通用的智能学习模型。
轻量级迁移学习的可行性： 仅对 LLMs 的最后一层进行微调即可取得与全模型微调相当的性能，这为高效利用预训练 LLMs 解决下游任务提供了新的途径。

五、未来的研究方向与挑战

尽管本研究取得了积极的成果，但仍存在一些局限性和未来值得探索的方向：