Bootstrap

HiLM-D: 为了自动驾驶达到在多模态大语言模型中的高分辨率场景理解

23年9月来自香港科技大学和人华为诺亚实验室的论文“HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving“。

自动驾驶系统通常为不同的任务设定单独的模型,从而导致复杂的设计。本文利用单一多模态大语言模型(MLLM)来整合视频中的多个自动驾驶任务,即风险目标的定位以及意图和建议预测(ROLISP)任务。ROLISP 用自然语言的方式同时识别和解释风险目标,理解自车意图并提供运动建议,从而消除为特定任务设计架构的必要性。然而,由于缺乏高分辨率(HR)信息,现有的MLLM应用于ROLISP时经常会错过小目标(例如交通锥),并过度关注突出目标(例如大型卡车)。本文提出HiLM-D(为了自动驾驶在MLLM中达到高分辨率场景理解),这是一种将HR信息整合到MLLM中执行ROLISP任务的有效方法。特别是,HiLM-D集成了两个分支:(i)低分辨率推理分支,可以是任何MLLM,处理低分辨率视频,为风险目标添加字幕并识别自车的意图/建议;(ii)高分辨率感知分支(HR-PB)在HiLM-D显得突出,它摄取HR图像,捕获特定于视觉的HR特征图,并将所有潜在风险优先于仅突出的目标,这样可增强检测性能。HR-PB 可作为即插即用模块,无缝集成到当前的 MLLM 中。 对 ROLISP 基准测试的实验表明,HiLM-D 比最好的 MLLM 有明显优势,在 BLEU-4 中,在字幕生成方面改进了 4.8%,在检测方面改进了 mIoU 17.2%。

如图所示是HiLM-D的整体流水线。HiLM-D由两部分组成:(a)低分辨率推理分支(LR-RB),用于接收LR视频(包括当前和历史帧),生成有关风险目标、推理和自车动作的字幕;(b)高分辨率感知分支(HR-PB)输入HR当前帧,以有效方式增强LR-RB的感知能力。

[外链图片转存中…(img-cIU9y9uh-1721061487397)]

LR-RB包括一个视觉编码器和一个大语言模型。视觉编码器将视频输入转换为视觉token,以便LLM理解。基于预训练的图像视觉Transformer (ViT) 和 Q-former 构建视觉编码器,其初始化来自 BLIP2 (Li 2023 ),并在训练期间冻结参数。为了解释冻结图像ViT所忽略的时域方面,采用时空适配器(ST- Adapter)(Pan2022)。给定视觉token,用预训练的LLM来生成字幕,包括风险目标的解释和对自车的意图和建议。

HR-PB经过调整,可将高分辨率图像中的视觉特定信息以及与潜在高风险目标相关的特征集成到LR-RB中,由四部分组成:HR空间提取器(HRSE),用于获取HR帧的HR特征;一个枚举模块,用于强调所有潜在的高风险目标,该模块利用预训练的 MLLM 来测量图像和定位提示之间的相似性,例如“车辆、交通信号灯/锥和人在哪里?“ 随后,GradCAM(Selvaraju2017)被用来制作一张强调这些高风险目标区域的显著图;一个合并模块,将所有潜在风险目标整合到LR-RB中,其旨在让从LR-RB中学习的语义将空间特征与所有潜在的风险目标吸收,从而使LLM能够比较并确定哪一个最需要关注;还有一个查询检测头,根据 HR 特征检测目标边框。

;