AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM （目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。

持续更新：对于已经完成解读的会附上链接（有的会在一些场景做尝试，也会附上链接供大家快速参考结果），准备写的会备注筹备中。

适宜人群：节省大把时间，快速定位需要的部分，适合学生、入门AIGC者和从业者作为笔记检索使用。

——————————————————总结—————————————————————

大模型面试知识点

关键词：LLM、大模型、面试、知识点

模型基础：LLM 面试知识点——模型基础知识-CSDN博客

分布式训练：大模型知识点汇总——分布式训练_分布式大模型-CSDN博客

应用框架：

多模态论文总结：VLM （MLLM）系列——论文解读总结_mllm vlm-CSDN博客

————————————————工具&框架&源码——————————————————

hugging face 使用教程———快速入门-CSDN博客

—————————————————— 纯视觉————————————————————

AIM

论文题目：Scalable Pre-training of Large Autoregressive Image Models

关键词：AIM、对比学习、苹果、解读

论文解读：VM 系列——AIM——论文解读-CSDN博客

应用测试：暂无

——————————————————— LLM ————————————————————

BERT

论文题目：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

关键词：BERT、LLM、大模型、解读

论文解读：LLM 系列——BERT——论文解读-CSDN博客

应用测试：暂无

Qwen 2

论文题目：QWEN2 TECHNICAL REPORT

关键词：Qwen、Qwen2 、千问、千问2、LLM、大模型、解读

论文解读：LLM 系列——Qwen2——论文解读-CSDN博客

应用测试：暂无

————————————————— 视觉属性预测 ——————————————————

RAM

论文题目：Recognize Anything: A Strong Image Tagging Model

关键词：RAM、属性识别、多标签分类、解读

论文解读：RAM（recognize anything）—— 论文详解-CSDN博客

应用测试：RAM（recognize anything）—— 项目使用——调整阈值（获得置信度）_from ram.models import ram-CSDN博客

RAM++

论文题目：Open-Set Image Tagging with Multi-Grained Text Supervision

关键词：RAM++、RAM plus plus、属性识别、多标签分类、open set、解读

论文解读：RAM++（recognize anything++）—— 论文详解-CSDN博客

应用测试：暂同 RAM（recognize anything）—— 项目使用——调整阈值（获得置信度）_from ram.models import ram-CSDN博客

OR as Next Token Prediction

论文题目：Object Recognition as Next Token Prediction

关键词：属性识别、多标签分类、open set、解读

论文解读：VLM 系列——Object Recognition as Next Token Prediction——论文解读-CSDN博客

应用测试：暂无

———————————————— 视觉语言大模型 ——————————————————

CLIP

论文题目：Learning Transferable Visual Models From Natural Language Supervision

关键词：CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读：VLM 系列——CLIP——论文解读-CSDN博客

应用测试：暂无

Chinese CLIP

论文题目：Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese

关键词：中文CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读：VLM 系列——中文CLIP——论文解读-CSDN博客

应用测试：暂无

YOLO-WORD

论文题目：YOLO-World: Real-Time Open-Vocabulary Object Detection

关键词：CLIP、yolo word、开集检测、open set

论文解读：目标检测算法——YOLO-Word——算法详解-CSDN博客

应用测试：暂无

BLIP

论文题目：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

关键词：BLIP、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——BLIP——论文解读-CSDN博客

BLIP 2

论文题目：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

关键词：BLIP-2、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——BLIP2——论文解读-CSDN博客

Instruct BLIP

论文题目：InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

关键词：Instruct BLIP、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——CLIP——论文解读-CSDN博客

应用测试：暂无

Llava

论文题目：Visual Instruction Tuning

关键词：Llava、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——Llava——论文解读-CSDN博客

应用测试：暂无

Llava 1.5

论文题目：Visual Instruction Tuning

关键词：Llava 1.5、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——Llava1.5——论文解读-CSDN博客

应用测试：暂无

MoE-LLaVa

论文题目：MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

关键词：MoE-LLaVA、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——MoE-LLaVa——论文解读-CSDN博客

应用测试：暂无

LLaVA-MoLE

论文题目：LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs

关键词：LLaVA-MoLE、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——LLaVA-MoLE——论文解读-CSDN博客

应用测试：暂无

Llava 1.6

论文题目：Llava 1.6

关键词：Llava 1.6、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——Llava1.6——论文解读-CSDN博客

应用测试：暂无

Qwen-VL

论文题目：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

关键词：Qwen-VL、千问-VL、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——Qwen-VL 千问—— 论文解读-CSDN博客

应用测试：暂无

COGVLM

论文题目：VISUAL EXPERT FOR LARGE LANGUAGE

关键词：COGVLM、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——COGVLM—— 论文解读-CSDN博客

应用测试：暂无

Monkey

论文题目：Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

关键词：Monkey、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读：VLM 系列——Monkey——论文解读-CSDN博客

应用测试：暂无

SEED-X

论文题目：Multimodal Models with Unified Multi-granularity Comprehension and Generation

关键词：SEED-X、解读、VLM、图文大模型、AIGC、图片编辑

论文解读：VM 系列——SEED-X——论文解读-CSDN博客

应用测试：暂无

InternVL 1.5

论文题目：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

关键词：InternVL 1.5、解读、VLM、图文大模型、多模态大模型

论文解读：VLM 系列——InternVL 1.5——论文解读-CSDN博客

应用测试：暂无

MiniCPM-Llama3-V 2.5

论文题目：MiniCPM-V: A GPT-4V Level MLLM on Your Phone

关键词：MiniCPM-Llama3-V 2.5、解读、VLM、图文大模型、多模态大模型

论文解读：VLM 系列——MiniCPM-Llama3-V 2.5——论文解读-CSDN博客

应用测试：暂无

MiniCPM-Llama3-V 2.6

论文题目：暂无

关键词：MiniCPM-Llama3-V 2.6、解读、VLM、图文大模型、多模态大模型

论文解读：VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻（源码解读）-CSDN博客

应用测试：暂无

Mini-Monkey

论文题目：Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models

关键词：Mini-Monkey、解读、VLM、图文大模型、多模态大模型

论文解读：VLM 系列——Mini-Monkey——解读-CSDN博客

应用测试：暂无

phi3.5-Vision

论文题目：Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

关键词：Phi-3 、Phi-3.5、phi-3-vision、解读、VLM、图文大模型、多模态大模型

论文解读：VLM 系列——phi3.5-Vision——解读-CSDN博客

应用测试：暂无

————————————————————文生图———————————————————

DALL·E 3

论文题目：Improving Image Generation with Better Captions

关键词：DALL·E 3、文生图、Open AI

论文解读：VLM 系列——phi3.5-Vision——解读-CSDN博客

应用测试：暂无