Bootstrap

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

论文信息:
在这里插入图片描述
用于医疗领域摘要任务的大型语言模型评估:一篇叙述性综述, 文章是由
Emma Croxford , Yanjun Gao 博士 , Nicholas Pellegrino , Karen K. Wong 等人近期合作发表。


目录


1. 摘要

大型语言模型已经推动了临床自然语言生成的发展,为管理大量医疗文本创造了机会。 但是,医疗的重大利益性质需要可靠的评估,而这仍然是一个挑战。 在这篇叙述性综述中,我们评估了当前针对临床摘要任务的评估状况,并提出了未来方向,以解决专家人工评估的资源限制问题。

2. 引言

大型语言模型(LLM)的快速发展,导致了自然语言生成(NLG)领域的重大进展。 在医疗领域,LLM 在减轻医疗保健提供者基于文档的认知负担方面表现出了潜力,特别是在摘要和问答等 NLG 任务中。 随着电子健康记录(EHR)中医疗文本数量的不断增长,对临床文档进行摘要已成为一项关键的 NLG 任务 [1]。

最近的进展,例如在 LLM 中引入了更大的上下文窗口(例如,谷歌的 Gemini 1.5 Pro,其容量为 100 万个符元 [2]),允许处理大量的文本数据,从而能够在一个输入中对整个病历进行摘要。 但是,将 LLM 应用于医疗等高风险环境中的一个主要挑战是确保其性能的可靠评估。 与传统方法不同,生成式人工智能(GenAI)通过生成使用语言动态地完成任务的自然语言叙述,提供了更大的灵活性。 然而,这种灵活性在评估生成的输出的准确性、可靠性和质量方面引入了额外的复杂性,其中所需的响应并非静态的。

对 LLM 进行的临床摘要评估必须解决复杂医疗文本的复杂性,并解决 LLM 特定的挑战,例如相关性、幻觉、遗漏以及确保事实准确性 [3]。 医疗保健数据会进一步加剧 LLM 特定的挑战,因为它们可能包含冲突或不正确的信息。 目前用于摘要任务的指标,例如 n 元组重叠和语义得分,不足以满足医疗领域的细致需求 [4]。 虽然这些指标可能在简单的提取式摘要中表现良好,但它们在应用于抽象式摘要 [5] 时却力不从心,因为抽象式摘要需要复杂的推理和深入的医学知识。 它们也无法区分不同用户的需求,并提供考虑生成相关性的评估。

在 GenAI 时代,自动化偏差进一步加剧了 LLM 带来的潜在风险,尤其是在临床环境中,错误的后果可能非常严重。 因此,高效且自动化的评估方法至关重要。 本综述考察了 LLM 在摘要任务中的评估现状,重点介绍了其在医疗领域的应用和局限性。 我们还提出了一个未来方向,以克服专家人工评估的劳动密集型过程,该过程耗时、成本高,且需要专门的培训。

3. 电子健康记录文档中的人工评估

目前用于人工编写的临床笔记的人工评估框架主要基于 GenAI 前的评分标准,这些评分标准评估临床文档质量。 这些框架根据评估者类型、内容以及生成评估分数所需的分析而有所不同。 这种灵活性允许定制评估方法,捕捉确保高质量生成的特定任务方面。 专家评估者凭借其领域特定的知识,在维护高标准的评估中发挥着至关重要的作用。

一些常用的 GenAI 前评分标准包括 SaferDx [6]、医师文档质量工具 (PDQI-9) [7] 和修订版 IDEA [8] 评分标准。 SaferDx 评分标准侧重于通过一项针对 12 个问题的回顾性调查,识别 EHR 文档中的诊断错误和分析错失的机会,旨在改善诊断决策和患者安全。 PDQI-9 评估医师笔记质量,涵盖九个标准问题,确保临床文档和患者护理持续改进。 Revised-IDEA 工具通过 4 项评估提供对临床推理文档的反馈。 这三个评分标准都强调了在整个鉴别诊断过程中省略相关诊断以及与这些诊断相关的相关客观数据、过程和结论。 它们还要求临床文档中不包含错误、不恰当或不完整的信息,强调了临床文档中存在的证据和推理质量的重要性。 每个评分标准都包含基于特定临床文档的来源和用途的额外问题——例如 PDQI-9 对组织的评估,以确保读者能够理解患者的临床病程。 这三个评分标准也使用不同的评估方式,基于问题的粒度和评估背后的意图。 例如,Revised-IDEA 工具对 4 个项目中的 3 个使用计数式评估,以保证包含最少数量的客观数据点,并包含高质量诊断推理文档所需的特征。 在最近的出版物中,SaferDx 工具已被用作对 GenAI 在临床实践中使用的回顾性分析 [9],而 PDQI-9 和 Revised-IDEA 工具已被用于比较临床医生和 GenAI 方法编写的临床文档的质量 [10, 11, 12]。 尽管这些评分标准最初并非旨在评估 LLM 生成的内容,但它们为评估在医疗领域生成的文本提供了宝贵的见解。

人工评估仍然是 LLM 输出的黄金标准 [13]。 但是,由于这些评分标准最初是为评估临床医生生成的笔记而开发的,因此可能需要针对评估 LLM 生成的输出的特定目的进行调整。 为了应对 LLM 生成的内容带来的独特挑战,包括评估生成的文本的一致性和事实准确性(即幻觉),已经出现了一些新的和修改后的评估评分标准。 这些调整后的评分标准的共同主题包括安全性 [14]、模态 [15, 16] 和正确性 [17, 18]。

3.1 人工评估标准

一般来说,用于构成 LLM 输出评估评分标准的标准可以分为七个广泛的标准:(1) 幻觉 [4, 17, 18, 19, 20, 21, 22],(2) 省略 [14, 19],(3) 修改 [23],(4) 忠实度/置信度 [15, 16, 23],(5) 偏见/危害 [14, 16, 22],(6) 扎根性 [14, 15],(7) 流畅性 [15, 17, 20, 23]。 幻觉包括任何旨在捕捉生成的文本中的信息是否遵循源材料的评估性问题。 无依据的声明、无意义的陈述、不可能的场景以及错误或矛盾的事实将在这些标准中的问题中被标记出来。 基于遗漏的问题用于识别生成的文本中缺失的信息。 如果医疗专业人员会在生成的文本中包含这些项目,则医疗事实、重要信息和关键诊断决策都可被视为在未包含在生成的文本中时被遗漏。 当要求评估人员对生成的文本进行修订或估计所需的修订次数时,评估性问题将属于“修订”类别。 生成的文本将被修订,直到它们满足研究人员、医院系统或更大的政府机构制定的标准。 忠实度/置信度通常以捕捉生成文本是否保留了源文本的内容以及呈现反映源文本中置信度和特异性的结论的问题为特征。 关于偏见/伤害的问题评估生成的文本是否正在对患者造成潜在伤害或反映对答复的偏见。 不准确、不适用或应用不当的信息将被属于此标准的问题捕获。 扎根性是指评估生成文本的源基础证据质量的评估性问题。 任何包含阅读理解能力差、知识回忆、推理步骤或与科学共识相悖的证据都将导致扎根性评分较低。 除了生成文本的内容外,生成的文本的流畅性也包含在评估中。 连贯性、可读性、语法正确性和词汇正确性都属于此标准。 在许多情况下,为了专注于基于内容的评估标准,假设流畅性是足够的。

3.2 人工评估分析

评估指标的分析方法也会根据环境和任务而有所不同。 评估分数可以使用二元/李克特分类[14, 15]、预先指定的实例的计数/比例[22]、编辑距离[23]或类似于医疗考试中使用的惩罚/奖励方案[24]来计算。 二元分类使用真/假或是/否的响应模式来回答评估性问题。 这种设置允许将复杂的评估分解为更简单、更可能客观性的决定。 二元分类通过将响应推到可接受或不可接受来对较小的错误进行更多处罚。 Likert 量表分类通过提供一个序数量表,允许评分有更高的特异性。 这些量表可以包含任意数量的级别,在许多情况下,包括一个中立选项来处理不清楚的响应,它们有 3 到 9 个级别。 级别较多的量表会带来更多问题,这些问题会导致分析中满足正态分布的假设,以及审阅者之间复杂性和意见不一致。 基于计数/比例的评估要求评估者识别与特定评估标准相关的正确或不正确关键短语的预先指定实例。 然后,可以根据评估者的标注计算精确率、召回率、F1 分数或比率,以建立生成的文本的数值分数。 编辑距离评估也要求评估者对正在评估的生成文本进行标注。 在这些情况下,评估者会对生成的文本进行编辑,直到它令人满意或不再包含严重错误。 这些编辑可能是对事实错误的更正、对遗漏内容的补充或对不相关内容的删除。 评估分数是根据需要编辑的字符、单词等数量计算的,从原始生成的文本到编辑版本的距离。 Levenshtein 距离 [25] 是用于计算生成的文本与其编辑版本之间的距离的算法示例。 该距离计算为将原始文本更改为编辑版本的所需最小替换、插入和删除单个字符的数量。 最后,计算评估分数的一种更复杂的方法是使用惩罚/奖励模式。 这些模式对评估问题的正面结果进行奖励,对负面结果进行惩罚。 此模式类似于国家考试中所见模式,该模式考虑正分和负分,并使用与不同问题相关的权重和难度。 例如,用于评估 Med-HALT 数据集上的 LLMs 的模式是正确和错误答案的平均值,分别分配 和 -0.25 分 [24]。 此评估模式为分配代表假阳性和假阴性之间权衡的权重提供了高度的特殊性。

3.3 人工评估的缺点

虽然人工评估提供了细致入微的评估,但它们资源密集且严重依赖于招募具有临床领域知识的评估人员。 评估人员的经验和背景会显著影响他们如何解释和评估生成的文本。 此外,评估说明中指导和具体性的程度决定了评估中多大程度上受评估人员对任务的个人解释和信念的影响。 虽然增加评估人员的数量可以减轻一些这些偏差,但资源(时间和财务)通常限制了人工评估的规模。 这些评估还需要大量的体力劳动,如果没有明确的指导和培训,评判者之间的一致性可能会受到影响。 确保人工评估人员符合评估标准的意图需要培训,就像 NLP 共享任务的标注指南一样 [26, 27, 28]。 在临床领域,医疗专业人员通常被用作专家评估人员,但他们的时间限制限制了他们参与大规模评估的可用性。 招募更多医疗专业人员的难度,加上彻底评估所需的时间,使得频繁、快速评估变得不切实际。

另一个问题是评估标准本身的有效性。 一个健全的人工评估框架必须具有强大的心理测量特性,包括结构效度、效标效度、内容效度和评分者之间信度,以确保可重复性和普遍适用性。 不幸的是,许多用于临床评估的框架没有提供关于其创建的足够细节,这使得难以评估其有效性 [15, 24]。 通常,人工评估框架是针对特定项目开发的,只有一个评估人员,虽然评分者之间信度等指标对于建立有效性至关重要,但它们并不总是被报道 [18, 23]。 此外,与临床相关的评估标准尚未专门设计用于评估 LLM 生成的摘要。 大多数现有的评估指标侧重于评估人类撰写的笔记质量,它们不包含评估 LLM 生成的输出的独特方面所需的所有元素 [6, 7, 8]。

4. 前 LLM 自动化评估

自动化指标为人类评估的资源限制提供了一个实用的解决方案,尤其是在自然语言处理 (NLP) 等领域,其中问答、翻译和摘要等任务长期以来一直依赖于这些方法。 自动化评估采用算法、模型或启发式技术来评估生成文本的质量,无需持续的人工干预,这使得它们在时间和人力方面效率更高。 然而,这些指标在很大程度上取决于高质量参考文本的可用性,这些文本通常被称为“黄金标准”。将生成的文本与这些黄金标准参考文本进行比较,以评估其准确性以及它在多大程度上满足了任务的要求。 尽管自动化指标效率很高,但它们可能难以捕捉到更复杂领域(如临床诊断)中所需的细微差别和上下文理解,在这些领域,措辞或推理的细微差别会导致重大影响。 因此,虽然自动化评估在可扩展性方面很有价值,但它们的有效性与评估中使用的参考文本的质量和相关性密切相关。

4.1 自动化评估类别

临床领域中的自动化评估可以分为五种主要类型(图 1),每种类型都针对特定的评估目标,并取决于为生成文本提供的参考和源材料的可用性:(1) 基于词语/字符的,(2) 基于嵌入的,(3) 学习指标,(4) 基于概率的,(5) 预定义知识库。

基于词语/字符的评估依赖于参考文本和生成文本之间的比较来计算评估分数。 这些评估可以基于字符、词语或子序列重叠,具体取决于评估的需要以及文本中可能存在的细微差别。 用于摘要评估的回忆导向型学习者 (ROUGE) [29] 是基于词语/字符的指标的典型例子。 ROUGE 的许多变体——N 元共现 (N)、最长公共子序列 (L)、加权最长公共子序列 (W)、跳过二元共现 (S)——代表了参考文本和生成文本之间的比较级别。 ROUGE-L 是目前自动评估的黄金标准,尤其是在摘要中,它依赖于参考文本和生成文本之间的最长公共子序列。 评估分数计算为文本中属于最长公共子序列的词语的比例。 编辑距离指标 [25] 也属于这一类,因为它们基于需要改变的词语或字符数量,以使参考文本和生成文本匹配。 编辑可以被分类为在生成的文本中插入、删除、替换或转置词语/字符。

基于嵌入的评估为参考文本和生成文本创建上下文化或静态嵌入,用于比较,而不是依赖于词语或字符之间的精确匹配。 这些基于嵌入的指标能够捕获两个文本之间的语义相似性,因为词语或短语的嵌入将基于其周围的文本以及自身。 BERTScore [30] 是一个常用的指标,属于此类。 对于此指标,使用来自 Transformer 的双向编码器表示 (BERT) 模型 [31] 在计算基于这些嵌入的贪婪余弦相似度得分之前生成上下文化嵌入。
在这里插入图片描述
图 1:预 LLM 自动评估指标分类 根据其基础和对地面实况参考的需求对预 LLM 自动评估指标进行结构化组织。 那些为临床领域构建或已应用于临床领域的指标以粗体显示。

基于学习指标的评估依赖于训练模型来计算评估。 这些指标可以根据示例评估分数或直接根据参考文本和生成的文本对进行训练。 回归模型和神经网络模型是这些指标的基础,为可学习参数提供了不同程度的复杂性。 用于翻译评估的跨语言优化指标 (COMET) [51] 是一个属于此类的指标,因为它是一个经过评估训练的神经模型。 它最初是为机器翻译评估而创建的,但后来被应用于其他生成任务。 COMET 使用一个神经网络,以生成的文本作为输入来产生评估分数。 此指标可以应用于无参考数据集以及具有参考文本的数据集。

概率评估依赖于根据领域知识、参考文本或源材料计算生成的文本的可能性。 这些指标将高质量的生成与那些具有高概率与参考文本或源文本一致或相关的生成等同起来。 它们还对包含主题外或不相关信息的文本进行惩罚。 一个例子是 BARTScore [74],它根据参考文本计算生成输出的日志概率之和。 在这种情况下,日志概率是使用双向和自回归 Transformer (BART) 模型计算的,该模型评估了生成的文本与预期内容的匹配程度 [78]。

预定义知识库指标依赖于已建立的特定领域知识数据库来为生成的文本评估提供信息。 这些指标在医疗保健等专业领域特别有价值,因为通用语言模型可能缺乏必要的知识深度。 通过结合特定领域的知识库,例如美国国家医学图书馆的统一医疗语言系统 (UMLS) [79],这些指标提供了更准确、更符合语境的评估。 预定义的知识库可以通过将上下文嵌入、机器学习或基于概率的指标与特定领域独有的专业术语和关系相结合,来增强其他评估方法。 这种组合确保评估既能考虑语言准确性,又能考虑临床医学等领域所需的专业知识。 BERTScore 有一种在 UMLS 上训练的变体,称为 SapBERTScore [80]。 该评分函数与通用领域 BERTScore 相似,但利用使用 UMLS 数据微调的 BERT 模型来生成更特定于领域的嵌入。 其他基于 UMLS 的指标包括 CUI F-Score [50] 和 UMLS Scorer [73]。 UMLS Scorer 利用基于 UMLS 的知识图嵌入来评估文本的语义质量 [19],为评估临床内容提供了一种更结构化的方法。 同时,CUI F-Score 使用来自 UMLS 的概念唯一标识符 (CUI) 来表示文本,计算反映生成的文本与关键医学概念匹配程度的 F-score。 这使得能够更细致地评估生成的文本中医学术语的相关性和准确性。

4.2 自动化指标的弊端

在大型语言模型出现之前,自动化指标会生成一个单一分数,表示生成的文本的质量,而不管其长度或复杂性。 此单一评分方法难以准确定位文本中的特定问题,对于大型语言模型(LLM),几乎无法理解导致特定评分的精确因素[13]。 虽然自动化指标具有速度优势,但这是以依赖于表面层面的启发式方法为代价的,例如词汇和结构度量,这些方法无法捕捉医疗文本中更抽象的摘要挑战,例如需要应用临床推理和知识来适当地优先排序和综合医疗信息。

5. 未来方向:大型语言模型(LLM)作为评估器来补充人类专家评估器:提示工程大型语言模型(LLM)作为评委

在这里插入图片描述
图 2:提示工程大型语言模型(LLM)作为评委的阶段 第 5 节中扩展的提示工程的三个不同方面。 这三个部分——零样本和上下文学习 (ICL)、参数高效微调 (PEFT) 以及带有人类感知损失函数 (HALO) 的 PEFT——组合成一个更大的模式,用于训练和提示大型语言模型 (LLM) 作为评估器来补充人类专家评估器。

大型语言模型 (LLM) 是通用的工具,能够执行各种任务,包括评估其他大型语言模型 (LLM) 的输出。 这种大型语言模型 (LLM) 作为人类专家评估器模型的概念随着指令调优和人类反馈强化学习 (RLHF) [81] 的出现而得到了发展。 这些进步极大地提高了大型语言模型 (LLM) 将其输出与人类偏好对齐的能力,如从 GPT-3 到 GPT-4 的转变,标志着大型语言模型 (LLM) 准确性和性能的范式转变 [82]。

一个有效的大型语言模型 (LLM) 评估器将能够以与人类专家相当的精度和准确性回答评估性问题,遵循人类评估指标中使用的框架。 基于大型语言模型 (LLM) 的评估可以提供与传统自动化指标相同的许多优势,例如速度和一致性,同时有可能克服对高质量参考文本的依赖。 此外,大型语言模型 (LLM) 可以通过直接与内容互动来评估复杂任务,绕过对简单启发式方法的需要,并提供更多关于事实准确性、幻觉和遗漏的信息。

虽然将大型语言模型 (LLM) 用作评估器在研究中仍处于起步阶段,但早期研究表明了它们作为人类评估的替代方案的实用性,为手动评估的局限性提供了一种可扩展的解决方案 [83]。 随着方法的不断发展,基于大型语言模型 (LLM) 的评估有望解决传统自动化指标和人工评估的不足,特别是在临床文本生成等复杂、上下文丰富的领域。

5.1 零样本和上下文学习

设计大型语言模型 (LLM) 以进行评估的一种方法是使用手动策划的提示(图 3)。 提示包括提供给大型语言模型 (LLM) 以指导其响应的任务描述和说明。在这种情况下,采用了两种主要的提示策略:零样本和少样本 [3]。在零样本提示中,在要求 LLM 进行评估之前,只会提供任务描述,而没有任何示例。少样本提示提供任务描述以及一些示例,以帮助指导 LLM 生成输出。示例的数量因 LLM 的架构、输入窗口限制以及模型最佳性能点而异。通常,使用 1 到 5 个少样本示例。通过零样本和少样本(“情境学习”)方法(统称为“硬提示”)的提示工程,使 LLM 能够执行未经明确训练的任务。但是,性能可能会因模型的预训练及其与新任务的相关性而有很大差异。

在这里插入图片描述
除了这些手动方法之外,一种更具适应性的策略涉及“软提示”,也称为机器学习提示,其中包括提示调整和 p 调整等技术 [84]。软提示是可学习的参数,作为虚拟标记添加到模型的输入中,以发出特定于任务的指令。与硬提示不同,软提示经过训练并纳入模型的输入层,使模型能够处理更广泛的专门任务。事实证明,软提示的表现优于 FewShot 提示,尤其是在大型模型中,因为它可以在不改变核心权重的情况下微调模型的行为。当单靠提示无法达到预期的性能时,可能需要微调整个 LLM 才能实现最佳任务执行。

5.2 参数高效微调

即使 LLM 可能在庞大的语料库上进行了预训练,但它在需要领域特定知识或处理细微输入的任务中仍会遇到困难。为了应对这些挑战,可以采用使用量化和低秩适配器的参数高效微调 (PEFT) 和监督微调 (SFT) 方法,其中模型在针对当前任务量身定制的提示/响应对的专门数据集上进行训练。微调 LLM 中的每个权重可能需要大量的时间和计算资源。在这些情况下,量化和低秩适配器被添加到 PEFT 的微调过程中。量化通过对 LLM 权重使用较低精度的数据类型(通常为 4 位和 8 位)来减少训练的时间和内存成本 [85]。低秩适配器 (LoRA) 冻结 LLM 的权重并将其分解为更少数量的可训练参数,最终也降低了 SFT 的成本 [86]。 PEFT 通过嵌入特定于任务的知识来帮助完善 LLM,确保模型能够在特定环境中做出准确响应。这些数据集的创建至关重要——性能改进与用于微调的提示/响应对的质量和相关性直接相关。目标是通过 PEFT 将重点缩小到特定于任务的行为,调整 LLM 以在特定用例(例如医疗诊断或法律推理)中表现更好。

5.3 利用人感知的损失函数进行参数高效微调(Parameter Efficient Fine-Tuning with Human-Aware Loss Function)

在某些应用中,微调的重点是使 LLM 与人类的价值观和偏好保持一致,尤其是当模型有可能生成有偏见、不正确或有害的内容时。这种对齐称为人类对齐训练,由集成到训练过程中的高质量人类反馈驱动。该领域一种广受认可的方法是带人类反馈的强化学习 (RLHF) [87]。RLHF 用于更新 LLM,引导其输出在奖励量表上得分更高的输出。在奖励模型阶段,使用带有人类反馈注释的数据集来确定特定响应的奖励(通常为标量)。然后,通过称为近端策略优化 (PPO) [88] 的过程训练 LLM 以产生将获得更高奖励的响应。这个迭代过程可确保模型符合人类的期望,但它可能耗费大量资源,需要大量内存、时间和计算能力。

为了应对这些计算挑战,出现了新的范式,通过直接优化基于人类偏好的 LLM,无需使用直接偏好优化 (DPO) [89] 的奖励模型,从而简化了人类对齐训练。DPO 将对齐过程重新表述为人类感知损失函数 (HALO),该函数在人类偏好数据集上进行了优化,其中提示与偏好和不喜欢的响应配对(图 4)。这种方法对于将 LLM 与人类偏好对齐特别有前景,并且可以应用于序数响应,例如人类评估标准中常见的李克特量表。虽然 PPO 通过将输出与人类偏好对齐来提高 LLM 性能,但它通常样本效率低下,并且可能受到奖励黑客攻击的影响 [90]。相比之下,DPO 直接根据人类偏好优化模型输出,而无需明确的奖励模型,使其更具样本效率,并且与人类价值观更加一致。DPO 通过直接关注期望的结果来简化训练过程,从而实现更稳定和可解释的对齐。虽然这些方法已成功应用于其他领域 [91, 92, 93],但它们在医学领域的应用尚未得到充分探索。为了克服劳动力限制,可以将来自人类评估标准的小规模训练数据纳入使用 DPO 为人体对齐设计的损失函数中。

在过去的一年里,出现了许多用于对齐训练方法的 DPO 变体,这些方法可以通过修改底层模型和损失函数来防止过度拟合和规避 DPO 的建模假设(图 5)。联合偏好优化(JPO)[94] 和简单偏好优化(SimPO)[95] 等替代方法都是从 DPO 衍生而来的。这些方法引入了正则化项并修改了损失函数,以防止过早收敛并确保在更广泛的输入范围内实现更稳健的对齐。其他替代方法,如卡尼曼-特沃斯基优化(KTO)[96] 和多元对齐框架(PAL)[97],使用了 DPO 所依赖的 Bradley-Terry 偏好模型的替代方案。这些方法中使用的替代建模假设可以防止在没有直接偏好数据和异构人类偏好的情况下 DPO 的对齐失效。
在这里插入图片描述

LLM 有望实现自动化评估,但与其他自动化评估方法一样,它也面临着重大挑战。一个主要问题是 LLM 及其相关培训策略的快速发展。这种快速发展往往超过了在实践中使用之前彻底验证基于 LLM 的评估器的能力。在某些情况下,新的优化技术在其前身尚未经过同行评审之前就被引入,而这些进步可能缺乏足够的数学依据。LLM 的发展速度可能使得分配时间和资源进行适当的验证变得困难,这可能会损害其可靠性。

此外,尽管 LLM 取得了进步,但它仍然对收到的提示和输入很敏感。随着 LLM 不断更新和更改其内部知识表示,并且其提示也发生变化,输出可能会有很大差异。所使用的确切 LLM 或模型版本也可能增加另一层可变性。根据 LLM 的内部结构和预训练模式,相同的提示和输入可能会产生不同的结果。LLM 还因自我中心偏见而受到关注,这可能会影响评估,因为越来越多的 LLM 生成的文本出现在源文本中 [112]。因此,使用 LLM 作为评估器必须进行严格的测试和安全检查以降低风险。确保其回应的公平性也至关重要,特别是在医疗保健等敏感领域,偏见或污名化的语言可能会造成严重后果。这些挑战凸显了持续评估、测试和改进的必要性,以使基于 LLM 的评估器既可靠又安全,可用于医疗评估。

在这里插入图片描述

随着 GenAI 的创新速度超过这些技术验证的速度,开发可靠的评估策略变得越来越重要。在医疗保健领域,对临床安全的关注还必须应对医疗专业人员的时间限制。虽然人工评估标准具有高度的可靠性和准确性,但它们受到担任评估员的医疗专业人员所需的时间投入的严重限制。具有讽刺意味的是,被评估的技术通常旨在减轻这些专业人员的认知负担,但他们需要进一步投入时间来进行绩效评估。

如果针对临床领域进行了适当的设计,自动化评估将为人工评估提供一种有希望的替代方案。然而,传统的非 LLM 自动化评估迄今为止还不够,未能始终如一地达到人工评估标准的严格性 [5, 13]。这些指标经常忽略幻觉,无法评估推理质量,并且难以确定生成文本的相关性。随着 LLM 作为人工评估者的潜在替代方案被引入,考虑临床领域的独特要求至关重要。精心设计的 LLM 评估器(即“LLM 法官”)可以将人工评估的高可靠性与自动化方法的效率相结合,同时避免现有自动化指标所存在的缺陷。如果有效执行,这种基于 LLM 的评估可以兼具两者的优点,既能确保临床安全,又不会牺牲评估质量。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

参考文献

[1] Patterson BW, Hekman DJ, Liao FJ, Hamedani AG, Shah MN, Afshar M. Call me Dr Ishmael: trends in electronic health record notes available at emergency department visits and admissions. JAMIA Open. 2024 Apr;7(2):ooae039.

[2] Team G, Georgiev P, Lei VI, Burnell R, Bai L, Gulati A, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. 2024 Aug. ArXiv:2403.05530 [cs]. Available from: arxiv.org/abs/2403.0… .

[3] Zhao WX, Zhou K, Li J, Tang T, Wang X, Hou Y, et al. A Survey of Large Language Models. 2023 Jun. ArXiv:2303.18223 [cs]. Available from: arxiv.org/abs/2303.1… .

[4] Moramarco F, Papadopoulos Korfiatis A, Perera M, Juric D, Flann J, Reiter E, et al. Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation. In: Muresan S, Nakov P, Villavicencio A, editors. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 5739–5754. Available from: aclanthology.org/202… .

[5] Croxford E, Gao Y, Patterson B, To D, Tesch S, Dligach D, et al. Development of a Human Evaluation Framework and Correlation with Automated Metrics for Natural Language Generation of Medical Diagnoses. 2024 Apr:2024.03.20.24304620. Available from: www.medrxiv.org/cont… 1101/2024.03.20.24304620v2 .

[6] Singh H, Khanna A, Spitzmueller C, Meyer AND. Recommendations for using the Revised Safer Dx Instrument to help measure and improve diagnostic safety. Diagnosis. 2019 Nov;6:315–323.

[7] Stetson PD, Bakken S, Wrenn JO, Siegler EL. Assessing Electronic Note Quality Using the Physician Documentation Quality Instrument (PDQI-9). Applied Clinical Informatics. 2012 Apr;3(2):164–174.

[8] Schaye V, Miller L, Kudlowitz D, Chun J, Burk-Rafel J, Cocks P, et al. Development of a Clinical Reasoning Documentation Assessment Tool for Resident and Fellow Admission Notes: a Shared Mental Model for Feedback. Journal of General Internal Medicine. 2022 Feb;37(3):507–512.

[9] Kawamura R, Harada Y, Sugimoto S, Nagase Y, Katsukura S, Shimizu T. Incidence of Diagnostic Errors Among Unexpectedly Hospitalized Patients Using an Automated Medical History–Taking System With a Differential Diagnosis Generator: Retrospective Observational Study. JMIR Medical Informatics. 2022 Jan;10(1):e35225. Company: JMIR Medical Informatics Distributor: JMIR Medical Informatics Institution: JMIR Medical Informatics Label: JMIR Medical Informatics publisher: JMIR Publications Inc., Toronto, Canada.

[10] Tierney AA, Gayre G, Hoberman B, Mattern B, Ballesca M, Kipnis P, et al. Ambient Artificial Intelligence Scribes to Alleviate the Burden of Clinical Documentation. NEJM Catalyst. 2024 [11] Eshel R, Bellolio F, Boggust A, Shapiro NI, Mullan AF, Heaton HA, et al. Comparison of clinical note quality between an automated digital intake tool and the standard note in the emergency department. The American Journal of Emergency Medicine. 2023;63:79–85.

[12] Cabral S, Restrepo D, Kanjee Z, Wilson P, Crowe B, Abdulnour RE, et al. Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Internal Medicine. 2024 May;184(5):581–583.

[13] Sai AB, Mohankumar AK, Khapra MM. A Survey of Evaluation Metrics Used for NLG Systems. ACM Computing Surveys. 2023;55(2).

[14] Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, et al. Large language models encode clinical knowledge. Nature. 2023 Jul:1–9.

[15] Otmakhova Y, Verspoor K, Baldwin T, Lau JH. The patient is more dead than alive: exploring the current state of the multi-document summarisation of the biomedical literature. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 5098–5111. Available from: aclanthology.org/202… .

[16] Adams G, Zucker J, Elhadad N. A Meta-Evaluation of Faithfulness Metrics for Long-Form HospitalCourse Summarization. 2023 Mar. ArXiv:2303.03948 [cs]. Available from: arxiv.org/abs/ 2303.03948 .

[17] Guo Y, Qiu W, Wang Y, Cohen T. Automated Lay Language Summarization of Biomedical Scientific Reviews. 2022 Jan. ArXiv:2012.12573 [cs]. Available from: arxiv.org/abs/2012.1… .

[18] Wallace BC, Saha S, Soboczenski F, Marshall IJ. Generating (Factual?) Narrative Summaries of RCTs: Experiments with Neural Multi-Document Summarization; 2020. Available from: https: //arxiv.org/abs/2008.11293v2 .

[19] Abacha AB, Yim Ww, Michalopoulos G, Lin T. An Investigation of Evaluation Metrics for Automated Medical Note Generation. 2023 May. ArXiv:2305.17364 [cs]. Available from: arxiv.org/abs/ 2305.17364 .

[20] Yadav S, Gupta D, Abacha AB, Demner-Fushman D. Reinforcement Learning for Abstractive Question Summarization with Question-aware Semantic Rewards. 2021 Jun. ArXiv:2107.00176 [cs]. Available from: arxiv.org/abs/2107.0… .

[21] Moor M, Huang Q, Wu S, Yasunaga M, Zakka C, Dalmia Y, et al. Med-Flamingo: a Multimodal Medical Few-shot Learner. 2023 Jul. ArXiv:2307.15189 [cs]. Available from: arxiv.org/abs/ 2307.15189 .

[22] Dalla Serra F, Clackett W, MacKinnon H, Wang C, Deligianni F, Dalton J, et al. Multimodal Generation of Radiology Reports using Knowledge-Grounded Extraction of Entities and Relations. In: Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online only: Association for Computational Linguistics; 2022. p. 615–624. Available from: aclanthology.org/202… .

[23] Cai P, Liu F, Bajracharya A, Sills J, Kapoor A, Liu W, et al. Generation of Patient After-Visit Summaries to Support Physicians. In: Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics; 2022. p. 6234–6247. Available from: aclanthology.org/202… .

[24] Umapathi LK, Pal A, Sankarasubbu M. Med-HALT: Medical Domain Hallucination Test for Large Language Models. 2023 Jul. ArXiv:2307.15343 [cs, stat]. Available from: arxiv.org/abs/ 2307.15343 .

[25] Levenshtein VI. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady. 1966 Feb;10:707.

[26] Gao Y, Dligach D, Miller T, Tesch S, Laffin R, Churpek MM, et al. Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding. In: Calzolari N, B´ echet F, Blache P, Choukri K, Cieri C, Declerck T, et al., editors. Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association; 2022. p. 5484–5493. Available from: aclanthology.org/202… .

[27] Goldsack T, Scarton C, Shardlow M, Lin C. Overview of the BioLaySumm 2024 Shared Task on the Lay Summarization of Biomedical Research Articles. In: Demner-Fushman D, Ananiadou S, Miwa M, Roberts K, Tsujii J, editors. Proceedings of the 23rd Workshop on Biomedical Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics; 2024. p. 122–131. Available from: aclanthology.org/202… .

[28] Gupta D, Demner-Fushman D. Overview of the MedVidQA 2022 Shared Task on Medical Video Question-Answering. In: Demner-Fushman D, Cohen KB, Ananiadou S, Tsujii J, editors. Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin, Ireland: Association for Computational Linguistics; 2022. p. 264–274. Available from: aclanthology.org/202… .

[29] Lin CY. ROUGE: A Package for Automatic Evaluation of Summaries. In: Text Summarization Branches Out. Barcelona, Spain: Association for Computational Linguistics; 2004. p. 74-81. Available from: aclanthology.org/W04… .

[30] Zhang T, Kishore V, Wu F, Weinberger KQ, Artzi Y. BERTScore: Evaluating Text Generation with BERT. 2020 Feb. ArXiv:1904.09675 [cs]. Available from: arxiv.org/abs/1904.0… .

[31] Devlin J, Chang MW, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019 May. ArXiv:1810.04805 [cs]. Available from: arxiv.org/ abs/1810.04805 .

[32] Banerjee S, Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In: Goldstein J, Lavie A, Lin CY, Voss C, editors. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor, Michigan: Association for Computational Linguistics; 2005. p. 65–72. Available from: aclanthology.org/W05… .

[33] Louis A, Nenkova A. Automatically Assessing Machine Summary Content Without a Gold Standard. Computational Linguistics. 2013 Jun;39(2):267–300.

[34] Vedantam R, Zitnick CL, Parikh D. CIDEr: Consensus-based image description evaluation. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE; 2015. p. 4566–4575. Available from: ieeexplore.ieee.org/… .

[35] Gao Y, Sun C, Passonneau RJ. Automated Pyramid Summarization Evaluation. 2019.

[36] Papineni K, Roukos S, Ward T, Zhu WJ. BLEU: a method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. ACL ’02. USA: Association for Computational Linguistics; 2002. p. 311–318. Available from: https: //doi.org/10.3115/1073083.1073135 .

[37] Cohan A, Goharian N. Revisiting Summarization Evaluation for Scientific Articles. 2016.

[38] Lin J, Demner-Fushman D. Automatically Evaluating Answers to Definition Questions. In: Mooney R, Brew C, Chien LF, Kirchhoff K, editors. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Vancouver, British Columbia, Canada: Association for Computational Linguistics; 2005. p. 931–938. Available from: https:// aclanthology.org/H05-1117 .

[39] Hovy E, Lin CY, Zhou L, Fukumoto J. Automated Summarization Evaluation with Basic Elements. In: Calzolari N, Choukri K, Gangemi A, Maegaard B, Mariani J, Odijk J, et al., editors. Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06). Genoa, Italy: European Language Resources Association (ELRA); 2006. Available from: www.lrec-conf. org/proceedings/lrec2006/pdf/438_pdf.pdf .

[40] Turian JP, Shen L, Melamed ID. Evaluation of machine translation and its evaluation. In: Proceedings of Machine Translation Summit IX: Papers. New Orleans, USA; 2003. Available from: https:// aclanthology.org/2003.mtsummit-papers.51 .

[41] Su KY, Wu MW, Chang JS. A New Quantitative Quality Measure for Machine Translation Systems. In: COLING 1992 Volume 2: The 14th International Conference on Computational Linguistics; 1992. Available from: aclanthology.org/C92… .

[42] Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J. A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers. Cambridge, Massachusetts, USA: Association for Machine Translation in the Americas; 2006. p. 223–231. Available from: aclanthology.org/ 2006.amta-papers.25 .

[43] Panja J, Naskar SK. ITER: Improving Translation Edit Rate through Optimizable Edit Costs. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels: Association for Computational Linguistics; 2018. p. 746–750. Available from: aclanthology.org/W18… .

[44] Leusch G, Ueffing N, Ney H. CDER: Efficient MT Evaluation Using Block Movements. In: McCarthy D, Wintner S, editors. 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: Association for Computational Linguistics; 2006. p. 241–248. Available from: aclanthology.org/E06… .

[45] Popovi´ c M. chrF: character n-gram F-score for automatic MT evaluation. In: Bojar O, Chatterjee R, Federmann C, Haddow B, Hokamp C, Huck M, et al., editors. Proceedings of the Tenth Workshop on Statistical Machine Translation. Lisbon, Portugal: Association for Computational Linguistics; 2015. p. 392–395. Available from: aclanthology.org/W15… .

[46] Wang W, Peter JT, Rosendahl H, Ney H. CharacTer: Translation Edit Rate on Character Level. In: Bojar O, Buck C, Chatterjee R, Federmann C, Guillou L, Haddow B, et al., editors. Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers. Berlin, Germany: Association for Computational Linguistics; 2016. p. 505–510. Available from: https://aclanthology. org/W16-2342 .

[47] Stanchev P, Wang W, Ney H. EED: Extended Edit Distance Measure for Machine Translation. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics; 2019. p. 514–520. Available from: https://aclanthology. org/W19-5359 .

[48] Lo Ck. YiSi - a Unified Semantic MT Quality Evaluation and Estimation Metric for Languages with Different Levels of Available Resources. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics; 2019. p. 507–513. Available from: aclanthology.org/W19… .

[49] Nema P, Khapra MM. Towards a Better Metric for Evaluating Question Generation Systems. In: Riloff E, Chiang D, Hockenmaier J, Tsujii J, editors. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics; 2018. p. 3950–3959. Available from: aclanthology.org/D18… .

[50] Gao Y, Dligach D, Miller T, Xu D, Churpek MM, Afshar M. Summarizing Patients Problems from Hospital Progress Notes Using Pre-trained Sequence-to-Sequence Models. 2022 Sep. ArXiv:2208.08408 [cs]. Available from: arxiv.org/abs/2208.0… .

[51] Rei R, Stewart C, Farinha AC, Lavie A. COMET: A Neural Framework for MT Evaluation. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics; 2020. p. 2685–2702. Available from: https:// aclanthology.org/2020.emnlp-main.213 .

[52] Sellam T, Das D, Parikh AP. BLEURT: Learning Robust Metrics for Text Generation. 2020 May. ArXiv:2004.04696 [cs]. Available from: arxiv.org/abs/2004.0… .

[53] Lin Z, Liu C, Ng HT, Kan MY. Combining Coherence Models and Machine Translation Evaluation Metrics for Summarization Evaluation. In: Li H, Lin CY, Osborne M, Lee GG, Park JC, editors. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Jeju Island, Korea: Association for Computational Linguistics; 2012. p. 1006–1014. Available from: aclanthology.org/P12… .

[54] Stanojevi´ c M, Sima’an K. Fitting Sentence Level Translation Evaluation with Many Dense Features. In: Moschitti A, Pang B, Daelemans W, editors. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics; 2014. p. 202–206. Available from: aclanthology.org/D14… .

[55] Ma Q, Graham Y, Wang S, Liu Q. Blend: a Novel Combined MT Metric Based on Direct Assessment — CASICT-DCU submission to WMT17 Metrics Task. In: Bojar O, Buck C, Chatterjee R, Federmann C, Graham Y, Haddow B, et al., editors. Proceedings of the Second Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics; 2017. p. 598–603. Available from: aclanthology.org/W17… .

[56] Sharif N, White L, Bennamoun M, Ali Shah SA. Learning-based Composite Metrics for Improved Caption Evaluation. In: Shwartz V, Tabassum J, Voigt R, Che W, de Marneffe MC, Nissim M, editors. Proceedings of ACL 2018, Student Research Workshop. Melbourne, Australia: Association for Computational Linguistics; 2018. p. 14–20. Available from: aclanthology.org/P18… .

[57] Chen Q, Zhu X, Ling ZH, Wei S, Jiang H, Inkpen D. Enhanced LSTM for Natural Language Inference. In: Barzilay R, Kan MY, editors. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics; 2017. p. 1657–1668. Available from: aclanthology.org/P17… .

[58] Shimanaka H, Kajiwara T, Komachi M. RUSE: Regressor Using Sentence Embeddings for Automatic Machine Translation Evaluation. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels: Association for Computational Linguistics; 2018. p. 751–758. Available from: aclanthology.org/W18… .

[59] Shimanaka H, Kajiwara T, Komachi M. Machine Translation Evaluation with BERT Regressor. 2019 Jul. ArXiv:1907.12679 [cs]. Available from: arxiv.org/abs/1907.1… .

[60] Zhang S, Liu Y, Meng F, Chen Y, Xu J, Liu J, et al. Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation. In: Muresan S, Nakov P, Villavicencio A, editors. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 2377–2389. Available from: aclanthology.org/202… .

[61] Doddington G. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. In: Proceedings of the second international conference on Human Language Technology Research -. San Diego, California: Association for Computational Linguistics; 2002. p. 138. Available from: portal.acm.org/citat… .

[62] Zhao W, Peyrard M, Liu F, Gao Y, Meyer CM, Eger S. MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance. In: Inui K, Jiang J, Ng V, Wan X, editors. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics; 2019. p. 563–578. Available from: https: //aclanthology.org/D19-1053 .

[63] Giannakopoulos G, Karkaletsis V. AutoSummENG and MeMoG in Evaluating Guided Summaries. 2011.

[64] Anderson P, Fernando B, Johnson M, Gould S. SPICE: Semantic Propositional Image Caption Evaluation. In: Leibe B, Matas J, Sebe N, Welling M, editors. Computer Vision – ECCV 2016. Cham: Springer International Publishing; 2016. p. 382–398.

[65] Mathur N, Baldwin T, Cohn T. Putting Evaluation in Context: Contextual Embeddings Improve Machine Translation Evaluation. In: Korhonen A, Traum D, M` arquez L, editors. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics; 2019. p. 2799–2808. Available from: aclanthology.org/ P19-1269 .

[66] Echizen’ya H, Araki K, Hovy E. Word Embedding-Based Automatic MT Evaluation Metric using Word Position Information. In: Burstein J, Doran C, Solorio T, editors. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics; 2019. p. 1874–1883. Available from: aclanthology.org/ N19-1186 .

[67] Kusner M, Sun Y, Kolkin N, Weinberger K. From Word Embeddings To Document Distances. In: Proceedings of the 32nd International Conference on Machine Learning. PMLR; 2015. p. 957–966. Available from: proceedings.mlr.pres… .

[68] Wieting J, Berg-Kirkpatrick T, Gimpel K, Neubig G. Beyond BLEU: Training Neural Machine Translation with Semantic Similarity. In: Korhonen A, Traum D, M` arquez L, editors. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics; 2019. p. 4344–4355. Available from: aclanthology.org/P19… .

[69] Kane H, Kocyigit MY, Abdalla A, Ajanoh P, Coulibali M. NUBIA: NeUral Based Interchange ability Assessor for Text Generation. 2020 May. ArXiv:2004.14667 [cs]. Available from: arxiv.org/ abs/2004.14667 .

[70] Liu F, Shareghi E, Meng Z, Basaldella M, Collier N. Self-Alignment Pretraining for Biomedical Entity Representations. In: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online: Association for Computational Linguistics; 2021. p. 4228-38. Available from: www.aclweb.org/antho… 2021.naacl-main.334 .

[71] Alsentzer E, Murphy JR, Boag W, Weng W, Jin D, Naumann T, et al. Publicly Available Clinical BERT Embeddings. CoRR. 2019;abs/1904.03323. Available from: arxiv.org/abs/1904.0… .

[72] Gu Y, Tinn R, Cheng H, Lucas M, Usuyama N, Liu X, et al… Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing; 2020.

[73] Delbrouck JB. UMLS Scorer; 2023. Available from: storage.googleapis.c… vilmedic{_}dataset/packages/medcon/UMLSScorer.zip .

[74] Yuan W, Neubig G, Liu P. BARTScore: Evaluating Generated Text as Text Generation. 2021 Oct. ArXiv:2106.11520 [cs]. Available from: arxiv.org/abs/2106.1… .

[75] Son S, Park J, Hwang Ji, Lee J, Noh H, Lee Y. HaRiM+: Evaluating Summary Quality with Hallucination Risk. 2022.

[76] Akter M, Bansal N, Karmaker SK. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? In: Findings of the Association for Computational Linguistics: ACL 2022. Dublin, Ireland: Association for Computational Linguistics; 2022. p. 1547–1560. Available from: aclanthology.org/202… .

[77] Aracena C, Villena F, Rojas M, Dunstan J. A Knowledge-Graph-Based Intrinsic Test for Benchmarking Medical Concept Embeddings and Pretrained Language Models. 2022.

[78] Lewis M, Liu Y, Goyal N, Ghazvininejad M, Mohamed A, Levy O, et al. BART: Denoising Sequenceto-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In: Jurafsky D, Chai J, Schluter N, Tetreault J, editors. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics; 2020. p. 7871–7880. Available from: aclanthology.org/202… .

[79] Lindberg DA MA Humphreys BL. The Unified Medical Language System. Yearb Med Inform. 1993;1(4):41-51.

[80] Liu F, Shareghi E, Meng Z, Basaldella M, Collier N. Self-Alignment Pretraining for Biomedical Entity Representations. In: Toutanova K, Rumshisky A, Zettlemoyer L, Hakkani-Tur D, Beltagy I, Bethard S, et al., editors. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online: Association for Computational Linguistics; 2021. p. 4228–4238. Available from: aclanthology.org/202… .

[81] Christiano P, Leike J, Brown TB, Martic M, Legg S, Amodei D. Deep reinforcement learning from human preferences; 2017. Available from: arxiv.org/abs/1706.0… .

[82] OpenAI, Achiam J, Adler S, Agarwal S, Ahmad L, Akkaya I, et al. GPT-4 Technical Report. 2024 Mar. ArXiv:2303.08774 [cs]. Available from: arxiv.org/abs/2303.0… .

[83] Zheng L, Chiang WL, Sheng Y, Zhuang S, Wu Z, Zhuang Y, et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. 2023 Dec. ArXiv:2306.05685 [cs]. Available from: http://arxiv. org/abs/2306.05685 .

[84] Lester B, Al-Rfou R, Constant N. The Power of Scale for Parameter-Efficient Prompt Tuning. In: Moens MF, Huang X, Specia L, Yih SWt, editors. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics; 2021. p. 3045–3059. Available from: aclanthology.org/ 2021.emnlp-main.243 .

[85] Dettmers T, Pagnoni A, Holtzman A, Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs. 2023 May. ArXiv:2305.14314 [cs]. Available from: arxiv.org/abs/2305.1… .

[86] Hu EJ, Shen Y, Wallis P, Allen-Zhu Z, Li Y, Wang S, et al. LoRA: Low-Rank Adaptation of Large Language Models. 2021 Oct. ArXiv:2106.09685 [cs]. Available from: arxiv.org/abs/2106. 09685 .

[87] Ziegler DM, Stiennon N, Wu J, Brown TB, Radford A, Amodei D, et al… Fine-Tuning Language Models from Human Preferences; 2019. Available from: arxiv.org/abs/1909.0… .

[88] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal Policy Optimization Algorithms. 2017 Aug. ArXiv:1707.06347 [cs]. Available from: arxiv.org/abs/1707.0… .

[89] Rafailov R, Sharma A, Mitchell E, Ermon S, Manning CD, Finn C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. 2023 May. ArXiv:2305.18290 [cs]. Available from: arxiv.org/abs/2305.1… .

[90] Wen J, Zhong R, Khan A, Perez E, Steinhardt J, Huang M, et al. Language Models Learn to Mislead Humans via RLHF. 2024 Sep. ArXiv:2409.12822 [cs]. Available from: arxiv.org/abs/2409. 12822 .

[91] Cao X, Xu W, Zhao J, Duan Y, Yang X. Research on Large Language Model for Coal Mine Equipment Maintenance Based on Multi-Source Text. APPLIED SCIENCES-BASEL. 2024 Apr;14(7).

[92] Iqbal S, Mehran K, IEEE. Reinforcement Learning Based Optimal Energy Management of A Microgrid; 2022. .

[93] Sun Z, Zhou Y, Hao J, Fan X, Lu Y, Ma C, et al. Improving Contextual Query Rewrite for Conversational AI Agents through User-preference Feedback Learning. In: Wang M, Zitouni I, editors. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track. Singapore: Association for Computational Linguistics; 2023. p. 432–439. Available from: aclanthology.org/202… .

[94] Bansal H, Suvarna A, Bhatt G, Peng N, Chang KW, Grover A. Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization. 2024 Mar. ArXiv:2404.00530 [cs]. Available from: arxiv.org/abs/2404.0… .

[95] Meng Y, Xia M, Chen D. SimPO: Simple Preference Optimization with a Reference-Free Reward. 2024 May. ArXiv:2405.14734 [cs]. Available from: arxiv.org/abs/2405.1… .

[96] Ethayarajh K, Xu W, Muennighoff N, Jurafsky D, Kiela D. KTO: Model Alignment as Prospect Theoretic Optimization. 2024 Jun. ArXiv:2402.01306. Available from: arxiv.org/abs/2402. 01306 .

[97] Rosset C, Cheng CA, Mitra A, Santacroce M, Awadallah A, Xie T. Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences. 2024 Apr. ArXiv:2404.03715 [cs]. Available from: arxiv.org/abs/2404.0… .

[98] Liu T, Zhao Y, Joshi R, Khalman M, Saleh M, Liu PJ, et al. Statistical Rejection Sampling Improves Preference Optimization. 2024 Jan. ArXiv:2309.06657 [cs]. Available from: arxiv.org/abs/ 2309.06657 .

[99] Azar MG, Rowland M, Piot B, Guo D, Calandriello D, Valko M, et al. A General Theoretical Paradigm to Understand Learning from Human Preferences. 2023 Nov. ArXiv:2310.12036 [cs, stat]. Available from: arxiv.org/abs/2310.1… .

[100] Mitchell E. A note on DPO with noisy preferences and relationship to IPO; 2023. V1.1.

[101] Hong J, Lee N, Thorne J. ORPO: Monolithic Preference Optimization without Reference Model. 2024 Mar. ArXiv:2403.07691 [cs]. Available from: arxiv.org/abs/2403.0… .

[102] Chowdhury SR, Kini A, Natarajan N. Provably Robust DPO: Aligning Language Models with Noisy Feedback. 2024 Apr. ArXiv:2403.00409 [cs]. Available from: arxiv.org/abs/2403.0… .

[103] Jung S, Han G, Nam DW, On KW. Binary Classifier Optimization for Large Language Model Alignment. 2024 Apr. ArXiv:2404.04656 [cs]. Available from: arxiv.org/abs/2404.0… .

[104] Gorbatovski A, Shaposhnikov B, Malakhov A, Surnachev N, Aksenov Y, Maksimov I, et al. Learn Your Reference Model for Real Good Alignment. 2024 May. ArXiv:2404.09656 [cs]. Available from: arxiv.org/abs/2404.0… .

[105] Xu H, Sharaf A, Chen Y, Tan W, Shen L, Van Durme B, et al. Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation. 2024 Jun. ArXiv:2401.08417 [cs]. Available from: arxiv.org/abs/2401.0… .

[106] Wu Y, Sun Z, Yuan H, Ji K, Yang Y, Gu Q. Self-Play Preference Optimization for Language Model Alignment. 2024 Jun. ArXiv:2405.00675 [cs, stat]. Available from: arxiv.org/abs/2405. 00675 .

[107] Ji H, Lu C, Niu Y, Ke P, Wang H, Zhu J, et al. Towards Efficient Exact Optimization of Language Model Alignment. 2024 Jun. ArXiv:2402.00856 [cs]. Available from: arxiv.org/abs/2402.0… .

[108] Melnyk I, Mroueh Y, Belgodere B, Rigotti M, Nitsure A, Yurochkin M, et al. Distributional Preference Alignment of LLMs via Optimal Transport. 2024 Jun. ArXiv:2406.05882 [cs, stat]. Available from: arxiv.org/abs/2406.0… .

[109] Pang RY, Yuan W, Cho K, He H, Sukhbaatar S, Weston J. Iterative Reasoning Preference Optimization. 2024 Jun. ArXiv:2404.19733 [cs]. Available from: arxiv.org/abs/2404.1… .

[110] Chen H, He G, Yuan L, Cui G, Su H, Zhu J. Noise Contrastive Alignment of Language Models with Explicit Rewards. 2024 Jul. ArXiv:2402.05369 [cs]. Available from: arxiv.org/abs/2402. 05369 .

[111] Zhong H, Feng G, Xiong W, Cheng X, Zhao L, He D, et al. DPO Meets PPO: Reinforced Token Optimization for RLHF. 2024 Jul. ArXiv:2404.18922 [cs, stat]. Available from: arxiv.org/ abs/2404.18922 .

[112] Koo R, Lee M, Raheja V, Park JI, Kim ZM, Kang D. Benchmarking Cognitive Biases in Large Language Models as Evaluators. 2024 Aug. ArXiv:2309.17012 [cs]. Available from: http://arxiv. org/abs/2309.17012 .

;