摘要:人类通过三个认知阶段获取知识:感知信息、理解知识以及运用知识解决新问题。视频作为这一学习过程的有效媒介,促进了这些认知阶段的逐步推进。然而,现有的视频基准测试未能系统地评估大型多模态模型(LMMs)的知识获取能力。为了填补这一空白,我们推出了Video-MMMU,这是一个多模态、多学科的基准测试,旨在评估LMMs从视频中获取和利用知识的能力。Video-MMMU包含了一个精心挑选的300个专家级视频集,以及跨越六个学科的900个人工标注问题,通过阶段对齐的问答对来评估知识获取:感知、理解和适应。我们提出了一个知识增益指标({\Delta}knowledge),用于量化观看视频后的性能提升。对LMMs的评估显示,随着认知需求的增加,其性能急剧下降,并凸显了人类与模型在知识获取方面的显著差距,这强调了需要开发方法来增强LMMs从视频中学习和适应的能力。Huggingface链接:Paper page,论文链接:2501.13826
- 引言与背景:
- 知识获取三阶段:人类通过感知信息、理解知识和运用知识解决新问题三个认知阶段来获取知识。这一过程在视频学习中尤为明显,视频作为媒介促进了从信息摄入到实践应用的自然过渡。
- 视频基准测试现状:尽管视频在知识获取中扮演重要角色,但现有的视频基准测试未能系统地评估大型多模态模型(LMMs)从视频中获取知识的能力。
- Video-MMMU提出:为了填补这一空白,本文提出了Video-MMMU,一个旨在评估LMMs从视频中获取和利用知识能力的多模态、多学科基准测试。
- Video-MMMU概述:
- 视频与问题集合:Video-MMMU包含300个专家级视频和900个人工标注问题,跨越艺术、商业、科学、医学、人文和工程六个学科。
- 评估维度:通过阶段对齐的问答对(感知、理解和适应)来评估知识获取能力。
- 知识增益指标:提出了{\Delta}knowledge指标,用于量化观看视频后的性能提升,从而量化评估LMMs的知识获取能力。
- 视频收集与标注:
- 视频收集过程:视频收集经历了主题选择、视频筛选和质量保证三个严格阶段。首先,由领域专家分析大学课程,确定评估主题;其次,利用GPT-4o生成搜索查询,通过YouTube Data API筛选候选视频;最后,实施三层审查协议,确保视频质量和技术深度。
- 视频类型:视频分为概念介绍视频和问题解决视频两类。概念介绍视频侧重于解释基础知识、基本概念和理论,而问题解决视频则演示了逐步解决问题的过程。
- 问题标注:问题标注遵循QA分类法,包括感知、理解和适应三个认知阶段的问题。感知问题评估从视频中提取关键信息的能力,理解问题评估对视频中所介绍概念的理解,适应问题则评估将视频知识应用于新情境的能力。
- 实验设置与结果:
- 基线模型:评估了包括LLaV A-OneVision、LLaV A-Video、LongV A、VILA-1.5、Qwen2-VL、InternVL2、Llama-3.2、MAmmoTH-VL、Aria、GPT-4o、Gemini 1.5Pro、Gemini 1.5Flash和Claude-3.5-Sonnet在内的多个开源和专有LMMs。
- 人类专家表现:招募了高年级本科生作为人类专家参与测试,结果显示人类专家在所有轨道上的表现均优于模型。
- 认知阶段表现差异:随着认知需求的增加,模型性能呈现下降趋势。感知阶段表现相对较好,理解阶段性能有所下降,适应阶段则面临更大挑战。
- 学科表现差异:模型在艺术和人文学科的表现优于科学、工程、商业和医学等需要定量推理和详细视觉分析的学科。
- 音频转录的影响:
- 性能提升:为研究音频转录的影响,向输入提示中添加了OpenAI Whisper生成的音频转录。结果显示,音频转录在所有评估轨道上均带来了整体性能提升,特别是在理解阶段最为显著。
- 适应阶段性能下降:然而,在适应阶段,音频转录反而导致性能下降,表明虽然音频有助于基本理解,但可能限制了模型将知识应用于新情境的能力。
- 适应轨道的知识获取:
- {\Delta}knowledge指标:{\Delta}knowledge指标揭示了人类与模型在学习能力上的巨大差距。人类在观看视频后实现了33.1%的知识增益,而表现最佳的GPT-4o模型仅为15.6%。
- 错误分析:对Claude-3.5-Sonnet在适应轨道上的错误进行了详细分析,发现主要错误类型包括方法选择错误、方法适应错误和问题误读错误。方法适应错误尤为突出,表明模型虽然能够回忆和理解视频中的方法,但在将其应用于新情境时面临挑战。
- Video-MMMU的特色与贡献:
- 多学科覆盖:Video-MMMU覆盖了六个学科,提供了跨学科的评估,有助于全面了解LMMs在不同领域的知识获取能力。
- 阶段对齐评估:通过阶段对齐的问答对来评估知识获取的三个认知阶段,为系统评估LMMs的知识获取能力提供了框架。
- 知识增益量化:提出了{\Delta}knowledge指标,为量化评估观看视频后的性能提升提供了工具。
- 对未来研究的启示:Video-MMMU的实验结果揭示了LMMs在知识获取方面的局限性,特别是在将知识应用于新情境时。这为未来研究提供了方向,即需要开发新的方法来增强LMMs从视频中学习和适应的能力。
- 与其他基准测试的比较:
- 现有基准测试不足:现有的视频基准测试主要关注视觉理解任务,如动作理解、时间推理和视频字幕等,未能系统地评估LMMs从视频中获取知识的能力。
- Video-MMMU的独特性:Video-MMMU独特地认识到视频作为教育媒介的价值,专注于评估LMMs从视频中获取和应用知识的能力。
- 未来研究方向:
- 增强模型能力:鉴于LMMs在知识获取方面的局限性,未来研究应致力于开发新的方法和技术来增强模型从视频中学习和适应的能力。
- 跨学科研究:进一步探索不同学科之间的知识获取差异和共性,为构建更具普适性的LMMs提供理论支持。
- 实际应用:将Video-MMMU的研究成果应用于实际场景中,如在线教育、智能辅导系统等,以验证其有效性和实用性。
- 结论:
- Video-MMMU的贡献:本文提出的Video-MMMU基准测试为系统评估LMMs从视频中获取和利用知识的能力提供了有力工具。
- 实验发现:实验结果表明,尽管LMMs在感知阶段表现出一定能力,但在理解和适应阶段仍面临巨大挑战。
- 未来展望:未来研究应继续探索如何增强LMMs的知识获取能力,以推动其在更多实际场景中的应用和发展。
综上所述,《Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos》一文通过引入Video-MMMU基准测试,系统地评估了LMMs从多学科专业视频中获取知识的能力,并揭示了模型在知识获取方面的局限性和未来研究方向。这一研究不仅为学术界提供了新的视角和工具来探索LMMs的知识获取机制,也为工业界在实际应用中提升LMMs的性能提供了有益的参考。