涉及面广:多模态生成模型——MLLM ( 目前集中在视觉语言模型——VLM)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。
持续更新:对于已经完成解读的会附上链接(有的会在一些场景做尝试,也会附上链接供大家快速参考结果),准备写的会备注筹备中。
适宜人群:节省大把时间,快速定位需要的部分,适合学生、入门AIGC者和从业者作为笔记检索使用。
——————————————————总结—————————————————————
大模型面试知识点
关键词:LLM、大模型、面试、知识点
分布式训练:大模型知识点汇总——分布式训练_分布式大模型-CSDN博客
应用框架:
多模态论文总结:VLM (MLLM)系列——论文解读总结_mllm vlm-CSDN博客
————————————————工具&框架&源码——————————————————
hugging face 使用教程———快速入门-CSDN博客
—————————————————— 纯视觉————————————————————
AIM
论文题目:Scalable Pre-training of Large Autoregressive Image Models
关键词:AIM、对比学习、苹果、解读
应用测试:暂无
——————————————————— LLM ————————————————————
BERT
论文题目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
关键词:BERT、LLM、大模型、解读
论文解读:LLM 系列——BERT——论文解读-CSDN博客
应用测试:暂无
Qwen 2
论文题目:QWEN2 TECHNICAL REPORT
关键词:Qwen、Qwen2 、 千问、 千问2、LLM、大模型、解读
论文解读:LLM 系列——Qwen2——论文解读-CSDN博客
应用测试:暂无
————————————————— 视觉属性预测 ——————————————————
RAM
论文题目:Recognize Anything: A Strong Image Tagging Model
关键词:RAM、属性识别、多标签分类、解读
论文解读:RAM(recognize anything)—— 论文详解-CSDN博客
应用测试:RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客
RAM++
论文题目:Open-Set Image Tagging with Multi-Grained Text Supervision
关键词:RAM++、RAM plus plus、属性识别、多标签分类、open set、解读
论文解读:RAM++(recognize anything++)—— 论文详解-CSDN博客
应用测试:暂同 RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客
OR as Next Token Prediction
论文题目:Object Recognition as Next Token Prediction
关键词:属性识别、多标签分类、open set、解读
论文解读:VLM 系列——Object Recognition as Next Token Prediction——论文解读-CSDN博客
应用测试:暂无
———————————————— 视觉语言大模型 ——————————————————
CLIP
论文题目:Learning Transferable Visual Models From Natural Language Supervision
关键词:CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC
论文解读:VLM 系列——CLIP——论文解读-CSDN博客
应用测试:暂无
Chinese CLIP
论文题目:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
关键词:中文CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC
论文解读:VLM 系列——中文CLIP——论文解读-CSDN博客
应用测试:暂无
YOLO-WORD
论文题目:YOLO-World: Real-Time Open-Vocabulary Object Detection
关键词:CLIP、yolo word、开集检测、open set
论文解读:目标检测算法——YOLO-Word——算法详解-CSDN博客
应用测试:暂无
BLIP
论文题目:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
关键词:BLIP、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——BLIP——论文解读-CSDN博客
BLIP 2
论文题目:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
关键词:BLIP-2、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——BLIP2——论文解读-CSDN博客
Instruct BLIP
论文题目:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
关键词:Instruct BLIP、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——CLIP——论文解读-CSDN博客
应用测试:暂无
Llava
论文题目:Visual Instruction Tuning
关键词:Llava、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——Llava——论文解读-CSDN博客
应用测试:暂无
Llava 1.5
论文题目:Visual Instruction Tuning
关键词:Llava 1.5、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——Llava1.5——论文解读-CSDN博客
应用测试:暂无
MoE-LLaVa
论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
关键词:MoE-LLaVA、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——MoE-LLaVa——论文解读-CSDN博客
应用测试:暂无
LLaVA-MoLE
论文题目:LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
关键词:LLaVA-MoLE、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——LLaVA-MoLE——论文解读-CSDN博客
应用测试:暂无
Llava 1.6
论文题目:Llava 1.6
关键词:Llava 1.6、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——Llava1.6——论文解读-CSDN博客
应用测试:暂无
Qwen-VL
论文题目:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
关键词:Qwen-VL、千问-VL、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——Qwen-VL 千问—— 论文解读-CSDN博客
应用测试:暂无
COGVLM
论文题目:VISUAL EXPERT FOR LARGE LANGUAGE
关键词:COGVLM、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——COGVLM—— 论文解读-CSDN博客
应用测试:暂无
Monkey
论文题目:Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models
关键词:Monkey、解读、VLM、图文大模型、AIGC、多模态大模型
论文解读:VLM 系列——Monkey——论文解读-CSDN博客
应用测试:暂无
SEED-X
论文题目:Multimodal Models with Unified Multi-granularity Comprehension and Generation
关键词:SEED-X、解读、VLM、图文大模型、AIGC、图片编辑
论文解读:VM 系列——SEED-X——论文解读-CSDN博客
应用测试:暂无
InternVL 1.5
论文题目:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
关键词:InternVL 1.5、解读、VLM、图文大模型、多模态大模型
论文解读:VLM 系列——InternVL 1.5——论文解读-CSDN博客
应用测试:暂无
MiniCPM-Llama3-V 2.5
论文题目:MiniCPM-V: A GPT-4V Level MLLM on Your Phone
关键词:MiniCPM-Llama3-V 2.5、解读、VLM、图文大模型、多模态大模型
论文解读:VLM 系列——MiniCPM-Llama3-V 2.5——论文解读-CSDN博客
应用测试:暂无
MiniCPM-Llama3-V 2.6
论文题目:暂无
关键词:MiniCPM-Llama3-V 2.6、解读、VLM、图文大模型、多模态大模型
论文解读:VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻(源码解读)-CSDN博客
应用测试:暂无
Mini-Monkey
论文题目:Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models
关键词:Mini-Monkey、解读、VLM、图文大模型、多模态大模型
论文解读:VLM 系列——Mini-Monkey——解读-CSDN博客
应用测试:暂无
phi3.5-Vision
论文题目:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
关键词:Phi-3 、Phi-3.5、phi-3-vision、解读、VLM、图文大模型、多模态大模型
论文解读:VLM 系列——phi3.5-Vision——解读-CSDN博客
应用测试:暂无
————————————————————文生图———————————————————
DALL·E 3
论文题目:Improving Image Generation with Better Captions
关键词:DALL·E 3、文生图、Open AI
论文解读:VLM 系列——phi3.5-Vision——解读-CSDN博客
应用测试:暂无