论文标题:
Capabilities of Gemini Models in Medicine
1. 引言
医疗保健无疑是当下亟待颠覆与革新的领域之一。
它平均占据了国内生产总值(GDP)的近10%的份额,而在一些特殊情境下,比如美国,这一比例甚至攀升至超过17%(基于2022年和2023年的数据)。然而,尽管投入巨大,公众对医疗保健系统的整体满意度却在逐年下滑。
长期以来,人工智能被视为缓解这一困局、优化医疗服务质量的重要突破口。遗憾的是,之前的种种尝试和期待,却鲜有实质性的成果来支撑这一观点。
如今,谷歌推出了Med-Gemini,一个专为医疗保健行业量身打造、经过精心微调的基础模型。这一创新技术在多项关键任务中屡创佳绩,不仅刷新了行业纪录,更为医疗保健的未来发展设定了极高的标杆。
然而,面对Med-Gemini这样的技术革新,我们不禁要问:它究竟是意图替代医生的专业技能,还是将成为医生手中不可或缺、能够拯救更多生命的强大武器?
接下来,让我们共同探索这一问题的答案。
2. 医疗行业的革命者:Med-Gemini
谷歌推出的Med-Gemini正是当下医疗+科技趋势的引领者。它采用谷歌最先进的基础模型——「Gemini」,并对其进行精心微调,使其能够胜任各种医学任务。Med-Gemini不仅增强了医疗系统的功能,还为其带来了许多关键性的附加价值。
具体来说,谷歌从三个方面对Med-Gemini进行了优化:先验知识、自我训练以及推理时间的不确定性管理。
■2.1 预训练的重要性
在人工智能的新纪元中,一个引人瞩目的反常事实便是预训练。
剑桥大学、Flatiron 研究所和普林斯顿大学的研究人员均已证实,对于ChatGPT或Gemini等先进模型而言,广泛的预训练是实现卓越性能的关键。
简单来说,相较于直接用一个随机初始化的模型去应对特定任务的数据训练,先使用全局数据进行预训练显得更为明智,即便这些数据与目标任务的关联性并不显著。
目前,模型训练的最佳实践是首先向模型提供海量的数据,无论其背景如何,随后再针对特定任务进行微调。这样做使得模型在面临实际学习任务之前,就已经构建了对世界的广泛理解,形成了一种先验知识。
以文本模型为例,如果想要构建一个机器翻译模型,应该先向模型展示海量的随机文本,让其先掌握语言的语法规则,再逐步深入到具体的翻译任务中。
为了验证预训练的重要性,该团队训练了一组科学模型,并将那些从头开始训练的模型与预训练模型进行了比较。出人意料的是,尽管模型背景与科学任务看似毫无关联,例如在猫视频上训练的模型(图中橙色),其表现却超越了专门为任务训练的模型(绿色)。所有预训练的模型,包括那些经过科学数据预训练的模型(显然效果更佳),均展现出了卓越的性能。
▲图1|分数越低越好©️【深蓝AI】编译
简而言之,不论预训练数据的具体性质如何,预训练这一步骤始终对模型性能有显著提升作用。它帮助模型学习并理解广泛的世界概念,从而能够更有效地应用于下游任务。
尽管研究人员尚无法确切指出预训练效果如此显著的主要原因,但他们认为,即使是看似无关的猫视频,也包含了对于任何特定科学领域都极为有价值的世界信息,如运动物理学、物体永恒性、形状以及时间等基本概念。
鉴于上述发现,尽管Gemini系列模型并非专为医学领域设计,但凭借其丰富的全球知识和提供的本地推理能力、多模态性以及长语境处理能力,选择Gemini这样的预训练模型无疑成为明智之举。
然而,在训练过程中,最吸引人的部分无疑是所采用的自我训练和不确定性管理启发式方法。这些创新的技术手段为模型的优化提供了全新的视角,使得模型能够在不断迭代中持续提升其性能。
■2.2 改进训练策略,提升Med-Gemini的准确性
要使模型保持其前沿地位并持续发挥作用,不断更新迭代是至关重要的。然而,对于LLM(大型语言模型)而言,一个固有的挑战是其存在知识截止点,因为模型在推理过程中并不具备实时学习的能力(至少不是通过数据压缩或权重更新来实现)。
「 终身学习能力的缺失是LLM最显著的局限性之一,这一点让许多人对其能否成为AGI的坚实基础持怀疑态度」
相比之下,贝叶斯人工智能作为深度学习的另一分支,其目标是创建具有“主动推理”能力的模型。这类模型基于贝叶斯推理框架,能够持续学习,并得到了如Karl Friston等杰出研究人员的支持。它们在很大程度上模拟了生物神经元网络,通过不断更新对世界的信念来适应新的观察结果(感官输入),从而实现“终身学习”。
幸运的是,对于LLM而言,我们可以通过训练模型使用搜索API来有效地更新其信息。在微调阶段,利用搜索进行自我训练已成为一种主要的启发式方法。通过集成如谷歌搜索API等工具,模型能够在需要时生成对问题的回复,无论这些问题是否在之前的训练数据中出现过。
这一策略赋予模型两项核心能力:
●高效利用API获取最新信息;
●判断何时实际使用API,例如学习识别问题是否涉及训练阶段之外的知识。
▲图2|自我训练及其工具使用过程©️【深蓝AI】编译
当模型意识到自身缺乏关键信息时,它会通过API浏览互联网,更新其上下文, 并据此提供更加相关且减少误解的答复。在医疗领域,这一点尤为重要,因为不准确的回答在关键时刻可能导致严重后果。
因此,在推理过程中(即运行时),模型会进入一个不确定性引导的搜索循环。 在这个循环中,模型会不断评估其当前回答的可信度,一旦信心不足,便会增加额外的搜索步骤以获取更多信息。
为了量化这种不确定性,研究人员采用了香农公式来测量响应概率分布的熵。直观地说,模型对某个回答赋予的概率越高,其熵值就越低(即不确定性越低),因此该回答的准确性也就越高。
值得注意的是,香农公式的变种——交叉熵,正是LLM训练方法的核心。它衡量的是模型预测与真实分布(即训练数据的真实分布)之间的差异程度,从而评估模型在预测时的“偏差”程度。简而言之,它反映了模型语言统计分布与真实分布之间的匹配程度,以及模型复制训练数据的能力。
「例如,如果您问模型法国的首都是哪里,输出分布如下:[{巴黎:0.30},{伦敦:0.25},{华盛顿:0.25},{马德里:0.20}],模型就会认为是 “巴黎”,但并不十分确定。换句话说,熵值很高」
换句话说,模型的语言统计分布(我们从中抽取序列中下一个单词的分布)与真实分布(训练数据的真实分布)的相似程度如何,这相当于说两个分布的匹配程度如何,因此,模型复制训练数据的能力如何。
总结而言,Med-Gemini模型并不会立即对问题做出回应,而是会对其答案进行多次评估和迭代,直到达到预设的“确定性阈值”。通过采用上述两种启发式方法,Med-Gemini在多个方面显著提升了其表现。
▲图3|自我训练和不确定性指导搜索对Med-Gemini-L 1.0在MedQA上准确性的影响。可以看出自我训练和每一轮搜索都对性能提升有显著贡献©️【深蓝AI】编译
然而,我们仍然需要探索的是,Med-Gemini如何在现有基础上进一步改善,以更好地适应不断变化的医疗领域需求。
3. 引领医疗服务的效率和准确性革命
随着科技的不断进步,我们见证了一个全新的医疗助手概念的诞生——一个能够随时更新、随时提供帮助的睿智医疗助手。这正是谷歌等公司致力于打造的,旨在改善医疗服务的方式。而Med-Gemini,正是这一愿景中的最新、最杰出的产品。
■3.1 医学领域的前沿模型
Med-Gemini模型系列,源自谷歌DeepMind的多模态大语言模型(MLLM)Gemini,经过精心微调,专注于医学领域。它采用了高级推理、多模态和长语境功能的基础模型,并针对与医疗保健相关的数据和用例进行了深度训练。
Med-Gemini的表现令人瞩目,在众多基于行业的基准测试中,均取得了领先的性能,显著超越了OpenAI/微软公司的GPT-4和GPT-4V等模型。
值得一提的是,由于ChatGPT的上下文窗口限制,使得在某些基准测试中无法进行直接比较,这无疑是对其竞争对手的一种优势展现:
但更为引人瞩目的是,在某些场景下,Med-Gemini的性能甚至超越了人类专家。例如,在NEJM CPC这一包含复杂诊断病例挑战的数据集上,它的表现就相当出色:
此外,在医学摘要、转诊生成或医学简化等多项任务中,Med-Gemini的响应始终优于人类专家:
面对Med-Gemini的卓越表现,一些热衷于科技的人可能会提出疑问:人工智能是否会取代医生?然而,这个问题远比表面看起来要复杂得多。
■3.2 医疗领域的得力助手
Med-Gemini并非旨在成为医生或护士,而是为医疗领域的专业人员精心打造的一款得力助手。
关于将Med-Gemini等AI模型与医护人员直接类比的说法,实则并不准确,因为这些模型并非有形的存在,它们无法直接为病人提供诊疗服务。然而,它们对医疗从业者的实用性却远非简单的数据图表所能衡量,特别是在处理长语境任务时。
Med-Gemini模型拥有长达一百万个标记的上下文能力,结合其多模态功能,能够轻松应对数十万字的内容或数小时的视频分析,为临床医生提供全方位的支持。这一特性使得Med-Gemini在视频分析方面尤为出色,能够为外科医生提供关键支持,助力他们做出更明智的决策,并实时评估复杂手术情况:
此外,Med-Gemini还能帮助医生查阅海量的患者电子健康记录(EHR),迅速找出症状、病症或手术背后的潜在原因,极大地提高了工作效率:
以上只是Med-Gemini即将为医疗界带来的众多变革中的冰山一角。它作为一款智能助手,旨在让医生和护士的工作更加轻松、高效,同时减轻他们的精神负担。
值得强调的是,谷歌明确地将Med-Gemini定位为医疗领域的有益补充,而非替代品。这一理念不仅体现了对医疗专业人员的尊重,也展示了人工智能在医疗领域的广阔前景。
然而,我们不应将人工智能的影响局限于医疗助手这一角色。事实上,人工智能在药物研发、工人培训等多个领域都展现出了巨大的潜力。尽管我们仍处于人工智能发展的初级阶段,但它已经成为解决社会重大问题的有力工具。
【参考】
https://research.google/blog/advancing-medical-ai-with-med-gemini/
https://arxiv.org/html/2404.18416v2
https://medium.com/@ignacio.de.gregorio.noblejas/med-gemini-googles-new-ai-powerhouse-for-medicine-2e789c2e81cb
https://newatlas.com/technology/google-med-gemini-ai/
编译|Sienna
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。