多模态大模型综述: LLaVA, MiniGPT4

LLaVA

一. 简介

题目: Visual Instruction Tuning
机构：微软
论文: https://arxiv.org/pdf/2304.08485.pdf
代码：https://github.com/haotian-liu/LLaVA
任务: 视觉指令微调（具备对话，推理的能力，rather than 图像描述）
特点: 利用GPT4做数据生成，以及评测，视觉projection不像BLIP2一样是Q-Former，而是一个简单的映射层
方法: LLM选择LLaMA，然后做视觉指令微调
前置相关工作：GPT4, LLaMA, BLIP2, OpenFlamingo
同期相似性工作：InstructBLIP

1.1. 摘要

用机器instruction-following的数据来instruct tuning LLMs已经在NLP领域被证明能够提升

多模态大模型综述: LLaVA, MiniGPT4

文章目录

LLaVA

一. 简介

1.1. 摘要

悦读