Bootstrap

ChemBench—— 探索大语言模型在化学领域的新基准框架是否胜过化学专家

概述

大规模语言模型是一种机器学习模型,通过学习大量文本来生成文本。这些模型的能力正在迅速提高,现在已经可以通过美国国家医学考试。它们还可以与网络搜索和合成规划器等工具结合使用,自主设计化学反应和进行实验。

一些人认为这些模型是 “人工通用智能(AGI)的标志”,而另一些人则认为它们是 “随机鹦鹉”。换句话说,它们被认为是简单的系统,只是重复它们所学到的东西。然而,大规模语言模型已显示出解决各种未明确学习任务的能力,而且经济利益和投资正在迅速增长:到 2032 年,该领域的市场价值预计将超过 1.3 万亿美元。

化学家和材料科学家对大规模语言模型的兴趣也与日俱增。这是因为大规模语言模型正被用于预测分子和材料的性质、优化反应、生成新材料和提取信息。此外,还开发了根据自然语言指令自主执行物理反应的原型系统。

由于大部分化学信息现在都存储在文本中,大规模语言建模仍有许多潜力尚未开发。例如,许多化学研究见解并非来自数据库,而是来自化学家解读数据的能力。这些见解以文本形式存在于科学论文中,通过处理文本可以获得新的见解。这将为化学家带来一个协同驾驶系统,使他们能够根据人类无法阅读的大量信息回答问题并提出新的实验建议。

然而,机器学习模型在化学领域日益增强的能力引发了人们对该技术双重用途潜力的担忧。例如,设计无毒分子的技术可能反过来用于预测有毒分子。意识到这些风险并制定适当的评估框架非常重要。不过,目前大规模语言模型是通过 BigBench 和 LM Eval Harness 等标准化基准进行评估的,但这些基准很少包括与化学相关的任务。

本文提出了一个新的基准测试框架–ChemBench,并强调了当前最先进模型的局限性。ChemBench由7059个从不同来源收集的问答题对组成,涵盖了美国大部分本科生和研究生化学课程。ChemBench包括从不同来源收集的7059个问答题对,涵盖了大多数本科生和研究生的化学课程。此外,还对 41 位化学专业人士进行了调查,以比较当前模型与人类化学家的表现。

结果表明,虽然目前的模型在某些方面展示了超越人类的能力,但在安全性方面可能会产生很大的误导。精心制定的广泛基准将是这一领域取得进展的重要一步。

方法

数据集中的问题来自现有的考试和练习题,以及程序生成的新问题。问题通过拉取请求添加到 GitHub 存储库中,只有在通过人工审核和自动检查后才会合并到语料库中。

为确保训练数据集中不包含问题,与 BigBench 项目中使用的金丝雀字符串相同。这就要求大型语言模型的开发人员从训练数据集中过滤掉这个金丝雀字符串。手动策划的问题来自各种来源,包括大学考试、练习和问题集。下表概述了人工编辑问题的来源。

此外,除了人工策划的问题外,还包括程序生成的问题。下表概述了半自动生成问题的来源。

为了保持一致性,完成和指导协调模型使用了不同的提示模板。在模板内对模型施加了限制,以接收特定格式的回复,从而确保分析的稳健性、公平性和一致性。针对文本中的科学符号、化学反应和符号,使用特殊注释和 LATEX 符号对特定模型进行训练。例如,在 Galactica 中,所有 SMILES 表达式都用 [START SMILES][\END SMILES] 表示。提示策略会逐一反映这些细节,并对 LATEX 符号、化学符号、化学方程式和物理单位进行后处理(添加或删除封装)。这一步骤可在代码库中轻松定制。

解析工作流程也包括几个步骤,主要基于正则表达式。对于指令协调模型,第一步是识别指示模型报告其响应的 [ANSWER][\ANSWER] 环境。对于完成模型,则跳过这一步。然后,我们尝试提取相关的枚举字母(用于多选题)或数字。对于数字,我们设计的正则表达式可以适应不同形式的科学符号。在最初的测试中,我们发现模型有时会以单词形式返回数字(例如 "1 "而不是 “1”),因此我们还使用正则表达式实现了单词到数字的转换。当这些硬编码解析步骤失败时,我们就使用大型语言模型(如 Claude 2)来解析补全。

自定义正则表达式用于解释输出中的差异。在所有模型报告中,每个题目都选取了大量不同的子集(10 个问题),并对解析输出与模型预期实际答案不一致的情况进行了人工调查:99.76% 的 MCQ 问题和 99.17% 的浮点运算问题的解析输出与模型预期实际答案不一致。结果发现解析结果是准确的。产生错误最多的模型是 pplx-7b-chat 和 Mixtral-8x7b。

试验

基准语料库的创建采用了广泛的资料来源,包括从大学考试中半自动生成的试题和从化学数据库中精选的数据集。为确保质量,所有试题除由原始策展人和自动检查人员审查外,还至少由一名化学家审查。这些广泛的试题库涵盖了各种化学主题。例如,下图比较了化学各领域的试题数量。

下图还利用主成分分析法(PCA)将问题嵌入二维空间进行了可视化展示。在该图中,语义相似的问题被放在一起,并且根据 11 个主题对点进行了颜色编码,清楚地说明了 ChemBench 对安全相关方面的关注。

现有的许多基准都集中在单项选择题(MCQ)上,而单项选择题并不能反映化学教育和研究的实际情况。因此,ChemBench同时采样了MCQ和开放式问题(6202道MCQ问题和857道开放式问题)。

对于常规评估,从整个语料库中抽取一小部分可能比较实用。例如,Liang 等人报告说,对广泛使用的 HELM 基准进行一次评估的 API 调用成本超过 10 000 美元。为了解决这个问题,我们还提供了整个语料库中具有代表性的多样化子集(209 个问题)。该子集经过精心策划,因此主题比整个语料库更加均衡,也可用于为人类基线研究的网络应用程序播种。

由于化学中使用的文本不同于普通的自然语言,人们开发了许多模型来专门处理此类文本。例如,Galactica 模型对分子和方程式使用了特殊的标记化和编码方法。然而,当前的基准套件并没有解决科学信息的特殊处理问题。为了解决这个问题,ChemBench 对问题或答案的不同部分进行了编码。例如,以简化分子输入行输入系统(SMILES)表示的分子被括入[START SMILES][END SMILES]标签中。这样,模型就能以不同于其他文本的方式处理 SMILES 字符串。

ChemBench 设计用于处理文本补全,因为许多广泛使用的系统只能访问文本补全。这一点尤为重要,因为越来越多的工具扩展系统使用搜索 API 和代码执行器等外部工具来增强大型语言模型的能力。在这种情况下,返回各种词块概率的大型语言模型只是整个系统的一部分,其概率是否应在整个系统的背景下进行解释并不明确。不过,由于文本补全是实际应用中使用的系统的最终输出,因此将其用于评估。

为了了解当前大规模语言模型的能力,正在对 ChemBench 语料库中的主要模型进行评估。其中包括与外部工具结合使用的系统。下图为评估结果摘要,显示了模型正确回答问题的百分比。

同时还显示了专家的最差、最佳和平均成绩。值得注意的是,最先进的大规模语言模型克劳德 3 在这一总体指标上优于人类,是专家平均成绩的两倍多。许多其他模型的表现也优于人类平均水平。特别是专门针对化学应用训练的 Galactica 模型,与许多先进的商业和开源模型相比,表现差强人意,仅略高于随机基线。

在工具增强型系统日益受到关注的背景下,值得注意的是,这些系统(GPT-3.5 和工具增强型 Claude 2)的评估结果一般。性能不佳的原因在于系统最多只能调用 10 个大型语言模型。在默认的工具增强设置(所谓的 ReAct 方法)下,系统无法确定正确的解决方案,因为它反复搜索网络,在 10 次调用内没有找到解决方案。这一观察结果凸显了工具扩展系统的计算成本(以 API 调用为单位)以及预测性能的重要性�

为了更详细地了解该模型的性能,我们还分析了它在不同化学领域的表现。我们为这项分析定义了几个主题,并通过创建规则对 ChemBench 语料库中的所有问题进行了人工分类。然后计算模型和人工对每个主题回答正确的百分比。在蜘蛛图中,每个维度的最差得分是零(没有正确答案),最佳得分是一(所有问题都回答正确)。颜色区域越大,表示性能越好。可以看出,不同模型和不同主题的表现差异很大。

虽然许多模型在高分子化学和生物化学方面得分相对较高,但在化学安全和分析化学等题目中表现不佳。例如,预测核磁共振(NMR)图谱中观察到的信号数量对模型来说是个难题,GPT-4 的正确率仅为 10%。相比之下,具有所学专业知识的人类对同一问题的正确回答率为 25%。这可能是因为人类得到了化合物的示意图,而模型只得到了 SMILES 字符串,必须用它来推理化合物的对称性�

能够估计模型是否能正确回答问题非常重要。如果能够做到这一点,问题就会减少,因为如果答案不正确,它就能发现错误。为了研究这个问题,我们要求高层次模型对其正确回答问题的能力进行估计。图 6 显示,对于某些模型来说,估计难度与模型是否正确回答问题之间没有明显的相关性。

在人类可能依赖模型答案的应用中,这是一个令人担忧的观察结果,它强调了在解释模型输出时进行批判性推理的必要性。例如,对于有关化合物安全性概况的问题,GPT-4 报告其正确回答的 120 个问题的平均置信度为 3.97(1 到 5 分),而其错误回答的 667 个问题的平均置信度为 3.57。尽管它们看起来校准得很好,但在某些情况下仍会产生误导。例如,对于有关《全球化学品统一分类和标签制度》(GHS)的问题,Claude 3 的正确答案平均得分为 2.39,错误答案平均得分为 2.34。

总结

本文揭示了大规模语言模型在化学领域展现出的非凡能力。最先进的模型表明,它们在化学领域的许多专题问题上的表现优于专家。然而,仍然存在许多局限性。特别是在一些重要的课题上,模型的答案往往是不正确的,而且许多模型未能准确识别自身的局限性。

在本文的评估中看到的模型的高性能也可能表明了用于评估模型和化学家的测试的局限性,而不是模型本身的局限性。例如,模型在教科书问题上表现出色,但在需要更复杂推理的问题上却举步维艰。有鉴于此,有必要重新思考化学教学和评估的方式。批判性思维能力将变得越来越重要,而大规模语言模型将继续在单纯的问题解决和事实记忆方面胜过人类。

本文还强调了评价框架的广度和深度之间的微妙平衡。对不同主题的模型性能分析表明,不同学科的模型结果差异很大。即使在同一主题中,模型的表现也会因问题的类型和回答问题所需的推理而大相径庭。

目前针对大规模化学语言模型的评估框架旨在衡量模型在特定性质预测任务中的性能,但这些框架不足以评估为推理和科学应用而构建的系统。因此,我们对大规模化学语言模型能力的了解一直很有限。本文表明,精心设计的基准可以为更好地了解大规模语言模型在化学中的能力提供一种途径。特别是考虑到模型无法准确识别自身的局限性,我们需要更加关注人机交互框架的开发。

论文表明,在许多领域需要进一步改进基于大规模语言模型的系统,同时也表明,在机器学习的许多领域,明确定义的衡量标准非常重要。目前的系统远不能像化学家那样进行推理,但 ChemBench 框架是实现这一目标的重要一步。

注:
源码代码:https://github.com/lamalab-org/chem-bench
论文地址:https://arxiv.org/abs/2404.01475

;