Bootstrap

多模态大模型综述: LLaVA, MiniGPT4



LLaVA

一. 简介

题目: Visual Instruction Tuning
机构:微软
论文: https://arxiv.org/pdf/2304.08485.pdf
代码:https://github.com/haotian-liu/LLaVA
任务: 视觉指令微调(具备对话,推理的能力,rather than 图像描述)
特点: 利用GPT4做数据生成,以及评测,视觉projection不像BLIP2一样是Q-Former,而是一个简单的映射层
方法: LLM选择LLaMA,然后做视觉指令微调
前置相关工作:GPT4, LLaMA, BLIP2, OpenFlamingo
同期相似性工作:InstructBLIP

1.1. 摘要

用机器instruction-following的数据来instruct tuning LLMs已经在NLP领域被证明能够提升

;