(1)MM-SPUBENCH: Towards Better Understanding of Spurious Biases in Multimodal LLMs
(2)RAVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
1. MM-SPUBENCH: Towards Better Understanding of Spurious Biases in Multimodal LLMs
arXiv:2406.17126
1.1 研究动机
尽管多模态大模型(MLLM)在很多vision-language人物上表现很好,但是对于 Spurious Correlations/Spurious Biases 的辨别能力的研究探索比较少。
1.2 Contribution
- 作者提出了一个MM-Spubench数据集,是一种全面的视觉提问(VQA)基准测试,旨在评估MLLM对五个开源图像数据集的九种不同类别的虚假相关性的依赖。
我对数据集中的第一个数据进行了截图记录:
- 利用此基准,作者对当前最新MLLM进行了彻底评估。发现阐明了这些模型中对虚假相关性的依赖的持续存在,并且发现使用context information可以提高在该任务上的表现,比如使用COT。作者指出,未来的工作可能会探索推理策略以及核心/虚假属性,以学习更好的多模式表示并减轻多模式的伪造偏见。
2.RAVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
Accepted by nips2024
2.1 研究动机
Fine-tuned vision-language models (VLMs) 经常通过捕获图像特征和文本属性之间的虚假相关性,从而导致推理时出错率高。现存的减轻虚假练习的方法大都局限在(1)在image-level上(2)在unimodal setting下
2.1 Contribution
- 提出了一种基于区域的细粒度方法来发现和缓解 VLM 中的虚假相关性。
- 引入了聚类影响分数和聚类性能差距两个指标,用于量化虚假相关性的影响。
- 通介绍了一个名为 RAVL(Region-Aware Vision-Language learning) 的方法,旨在发现和缓解视觉语言模型(VLMs)中学习到的虚假相关性(spurious correlations)。过大规模实验验证了 RAVL 在发现和缓解虚假相关性方面的有效性。
2.2 RAVL 方法
RAVL 通过两个阶段来解决这一问题:
- 发现虚假相关性(Discovery)
RAVL 利用区域级聚类方法识别导致零样本分类错误的精确图像特征:
- 候选特征提取:将图像分解为候选区域,利用 VLM 的嵌入空间将视觉相似的区域聚类成特征簇。
- 聚类影响分数(Cluster Influence Score):评估每个特征簇对分类错误的影响。
- 聚类性能差距(Cluster Performance Gap):衡量特征的存在与否对分类性能的影响,并对特征簇进行排序。
- 缓解虚假相关性(Mitigation)
RAVL 通过一个新的区域感知损失函数(region-aware loss function)来缓解识别出的虚假相关性,使 VLM 在微调过程中专注于相关区域,忽略虚假关系。
2.3 实验
作者设计了一个大规模的评估框架,包含 654 个微调的 VLMs,用于控制和细粒度评估 VLM 鲁棒性。实验结果表明:
- 发现虚假相关性:RAVL 准确地发现了虚假相关性,相较于最接近的基线方法有 191% 的提升。
- 缓解虚假相关性:RAVL 有效地缓解了虚假相关性,最差组图像分类准确率提升了 8.2%。