Bootstrap

2025 AI工程进阶指南:解锁十大核心领域,精选50篇必读论文!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

这是一份由AI工程社区Latent Space发布的阅读清单,其中精选了50篇AI工程领域极具价值的论文、模型和博客,覆盖了十大AI工程核心模块,旨在帮助AI工程师和爱好者构建系统的AI知识体系,提升实战能力。

关于 Latent Space

Latent Space是一个专注于AI工程领域的技术社区,以其高质量的时事通讯、顶尖播客(在美国技术类播客中排名前十!)活跃的线上线下社区而闻名,被誉为“排名第一的AI工程播客”。Latent Space在X平台拥有13.1K的关注者,其中包括Elon Musk和知名播客主持人Lex Fridman!

话不多说,我们直接开始。

1. 前沿 LLM

这一部分聚焦于大语言模型 (LLM),包括 GPT 系列 (特别是 GPT-4o 的系统卡片)、Claude 3 系列、Gemini 系列等,以及 LLaMA 系列等开源模型

清单:

OpenAI 系列:引领多次技术革新

  • GPT-1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf (开启了预训练语言模型的新时代)

  • GPT-2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf (展示了大语言模型的能力)

  • GPT-3: https://arxiv.org/abs/2005.14165 (里程碑式模型,具备少样本学习能力)

  • Codex: https://arxiv.org/abs/2107.03374 (专注于代码生成)

  • InstructGPT: https://arxiv.org/abs/2203.02155 (通过人类反馈强化学习,提升了模型的指令遵循能力)

  • GPT-4 Technical Report: https://arxiv.org/abs/2303.08774 (经典多模态模型)

  • GPT 3.5: https://openai.com/index/chatgpt/ (曾经 ChatGPT 背后的模型)

  • GPT-4o: https://openai.com/index/hello-gpt-4o/ (最新发布,支持更强的多模态实时交互)

  • o1: https://openai.com/index/introducing-openai-o1-preview/ (第一代推理模型)

  • o3: https://openai.com/index/deliberative-alignment/ (第二代推理模型)

Anthropic 系列:OpenAI 有力竞争者之一

  • Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf (在多个评估基准上表现优异)

  • Claude 3.5 Sonnet: https://www.anthropic.com/news/claude-3-5-sonnet (最新模型,性能和速度进一步提升)

Google 系列:性能和多模态方面表现突出

  • Gemini 1: https://arxiv.org/abs/2312.11805 (多模态大模型,支持文本、图像、音频等多种输入)

  • Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash (更轻量级、更快速的版本)

  • Gemini 2.0 Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode (解锁模型的推理能力)

  • Gemma 2: https://arxiv.org/abs/2408.00118(Google 最新的开源模型)

Meta 系列:开源和高性能

  • LLaMA: https://arxiv.org/abs/2302.13971 (开源大语言模型的先驱)

  • Llama 2: https://arxiv.org/abs/2307.09288 (性能大幅提升,支持商用)

  • Llama 3: https://arxiv.org/abs/2407.21783 (最新开源模型,性能达到当前 SOTA 水平)

Mistral AI 系列:欧洲的OpenAI

  • Mistral 7B: https://arxiv.org/abs/2310.06825 (小而美的典范)

  • Mixtral of Experts: https://arxiv.org/abs/2401.04088 (采用 MOE 架构)

  • Pixtral 12B: https://arxiv.org/abs/2410.07073 (120亿参数的多模态模型)

DeepSeek 系列:中国AI领域的当红炸子鸡

  • DeepSeek V1: https://arxiv.org/abs/2401.02954 (DeepSeek 一代)

  • DeepSeek Coder: https://arxiv.org/abs/2401.14196 (专注于代码生成)

  • DeepSeek MoE: https://arxiv.org/abs/2401.06066(DeepSeek MoE)

  • DeepSeek V2: https://arxiv.org/abs/2405.04434 (DeepSeek 二代)

  • DeepSeek V3: https://github.com/deepseek-ai/DeepSeek-V3DeepSeek 最新最强模型

Apple 系列:端侧智能

  • Apple Intelligence: https://arxiv.org/abs/2407.21075 (苹果入局,端侧智能)

2. 基准测试和评估

如何客观衡量AI模型的“智商”?这一部分将介绍主流的模型评估基准测试评估框架。就像真实世界里学生的考试,基准测试可以相对客观地评估AI模型在特定任务上的能力,帮助我们更好地理解模型的优缺点。

清单:

通用知识与推理能力评估

评估模型在各学科知识领域的理解和推理能力。

  • MMLU (Massive Multitask Language Understanding): https://arxiv.org/abs/2009.03300 (应用最广泛的知识型测试之一,涵盖 57 个学科,包括人文、STEM、社科等)

  • MMLU Pro (Professional-Level MMLU): https://arxiv.org/abs/2406.01574 (MMLU 的升级版,难度更高,更接近专业水平测试)

  • GPQA & GPQA Diamond: https://arxiv.org/abs/2311.12022 (针对研究生水平的问题进行测试,题目质量和难度极高, GPQA Diamond 是其增强版本)

  • BIG-Bench: https://arxiv.org/abs/2206.04615 (包含 200 多个不同类型的任务,全面评估模型的各项能力)

  • BIG-Bench Hard: https://arxiv.org/abs/2210.09261 (BIG-Bench 的增强版本,筛选了最具挑战性的任务)

长文本推理能力评估

评估模型处理长文本和进行复杂推理的能力。

  • MuSR (Multi-Step Reasoning): https://arxiv.org/abs/2310.16049 (评估模型在长文档中进行多步推理的能力)

  • LongBench: https://arxiv.org/abs/2412.15204 (多任务、中英双语、长文本理解的基准测试)

  • BABILong: https://arxiv.org/abs/2406.10149 (合成的长文本推理数据集)

  • Lost in the Middle: https://arxiv.org/abs/2307.03172 (研究长文本中信息的利用情况)

  • Needle in a Haystack: https://github.com/gkamradt/LLMTest_NeedleInAHaystack (“大海捞针”测试,评估模型从长文本中提取关键信息的能力)

数学能力评估

评估模型的数学推理和解题能力。

  • MATH: https://arxiv.org/abs/2103.03874 (包含 12,500 道竞赛级别数学题目,涵盖代数、几何、概率等多个领域)

  • AIME (American Invitational Mathematics Examination): https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024 (美国数学邀请赛,难度介于 AMC 和 IMO 之间)

  • FrontierMath: https://arxiv.org/abs/2411.04872 (更关注高级数学推理能力,例如大学数学竞赛题目)

  • AMC10 & AMC12: https://github.com/ryanrudes/amc (美国数学竞赛,AMC10 面向 10 年级及以下学生,AMC12 面向 12 年级及以下学生)

指令遵循能力评估

评估模型理解和执行指令的能力。

  • IFEval (Instruction Following Evaluation): https://arxiv.org/abs/2311.07911 (评估模型遵循各种类型指令的能力)

  • MT-Bench (Multi-Turn Benchmark): https://arxiv.org/abs/2306.05685 (多轮对话场景下评估模型的指令遵循能力)

抽象推理能力评估

评估模型的抽象推理和模式识别能力。

  • ARC AGI (Abstraction and Reasoning Corpus): https://arcprize.org/arc (评估模型的通用智能,挑战模型像人类一样进行抽象推理)

3. 提示工程、上下文学习和思维链

如何通过提示词技术来引导模型生成更符合需求的结果?这一部分介绍提示工程、上下文学习 (ICL) 和思维链 (Chain of Thought) 等技术,帮助我们更好地与AI模型进行交互。

清单:

实战教程

  • The Prompt Report: https://arxiv.org/abs/2406.06608 (最新的提示工程综述报告)

  • Lilian Weng 的博客: https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/ (Lilian Weng 对提示工程的系统性总结)

  • Eugene Yan 的博客: https://eugeneyan.com/writing/prompting/ (Eugene Yan 分享的提示工程技巧)

  • Anthropic 的提示工程教程: https://github.com/anthropics/prompt-eng-interactive-tutorial (Anthropic官方带你一步步学习如何构建高效的提示)

  • AI Engineer Workshop: https://www.youtube.com/watch?v=hkhDdcM5V94 (提示工程实战经验分享的视频)

核心技术

  • Chain-of-Thought (CoT): https://arxiv.org/abs/2201.11903 (思维链技术的开山之作)

  • Scratchpads: https://arxiv.org/abs/2112.00114 (为模型提供“草稿纸”,提升其推理能力)

  • Let’s Think Step By Step: https://arxiv.org/abs/2205.11916 (经典提示词,思维链技术的标志性语句)

  • Tree of Thoughts (ToT): https://arxiv.org/abs/2305.10601 (思维树,增强模型的推理和规划能力)

  • Prompt Tuning: https://aclanthology.org/2021.emnlp-main.243/ (软提示/Soft Prompt,调整模型的行为)

  • Prefix-Tuning: https://arxiv.org/abs/2101.00190 (添加可训练的前缀/Prefix,实现模型输出的调优)

  • Adjust Decoding: https://arxiv.org/abs/2402.10200 (通过调整解码策略来提高模型性能)

  • Representation Engineering: https://vgel.me/posts/representation-engineering/ (表征工程,通过直接修改模型的隐藏状态来引导生成)

自动提示工程

  • Automatic Prompt Engineering (APE): https://arxiv.org/abs/2211.01910 (自动生成和优化提示)

  • DSPy: https://arxiv.org/abs/2310.03714 (DSPy 框架,通过编程,而非手动编写提示词,来构建复杂的 AI 系统)

4. 检索增强生成 (RAG)

RAG,全称 Retrieval-Augmented Generation,结合了检索生成模型的优势,利用外部知识库来增强模型的性能。这一部分介绍 Meta 的 RAG 论文、MTEB 嵌入基准测试、GraphRAG 等,以及 RAGAS 评估框架向量数据库 作为目前 RAG 应用的重要基础设施,也推荐了解。

清单:

基础理论

  • Introduction to Information Retrieval: https://nlp.stanford.edu/IR-book/information-retrieval-book.html (信息检索领域的 经典教材)

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks: https://arxiv.org/abs/2005.11401 (Meta 的 RAG 论文,RAG 技术的开山之作)

  • RAG 2.0: https://contextual.ai/introducing-rag2/ (RAG 技术的演进)

核心技术

  • HyDE (Hypothetical Document Embeddings): https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/ (通过假设性文档增强查询效果)

  • Chunking: https://research.trychroma.com/evaluating-chunking (分块策略)

  • Rerank: https://cohere.com/blog/rerank-3pt5 (重排,优化检索结果的排序)

  • MTEB (Massive Text Embedding Benchmark): https://arxiv.org/abs/2210.07316 (评估文本嵌入模型性能的基准测试)

高级技术

  • GraphRAG: https://arxiv.org/pdf/2404.16130 (结合知识图谱和 RAG,提升 RAG 的知识推理能力)

  • RAGAS: https://arxiv.org/abs/2309.15217 (评估 RAG 系统性能的自动化框架)

实践指南

  • LlamaIndex: https://docs.llamaindex.ai/en/stable/understanding/rag/ (LlamaIndex 提供的 RAG 实战教程和工具)

  • LangChain: https://python.langchain.com/docs/tutorials/rag/ (LangChain 提供的 RAG 的集成方案和示例代码)

5. 智能体 (AI Agent)

2025年的大热门,AI的未来形态,能够像人类一样感知环境、做出决策并采取行动。这一部分介绍 SWE-Bench、ReAct、MemGPT、Voyager 等重要的智能体相关论文。

  • 清单:

基准测试

  • SWE-Bench: https://arxiv.org/abs/2310.06770 (评估 Agent 解决真实世界 GitHub 软件工程问题的能力)

  • SWE-Agent: https://arxiv.org/abs/2405.15793 (基于LLM的软件工程师Agent)

  • SWE-Bench Multimodal: https://arxiv.org/abs/2410.03859 (多模态 SWE-Bench)

  • Konwinski Prize: https://kprize.ai/ (奖励在软件工程自动化方面有突出贡献的 Agent)

核心技术

  • ReAct: Synergizing Reasoning and Acting in Language Models: https://arxiv.org/abs/2210.03629 (ReAct 框架, 结合了推理 (Reasoning) 和行动 (Acting))

  • MemGPT: Towards LLMs as Operating Systems: https://arxiv.org/abs/2310.08560 (赋予 Agent 长期记忆能力)

  • MetaGPT: The Multi-Agent Framework: https://arxiv.org/abs/2308.00352 (多智能体元编程框架, 通过角色分配和协作,使多个 Agent 能够像一个团队一样工作)

  • AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation: https://arxiv.org/abs/2308.08155 (微软的开源框架,支持通过定义和组合多个 Agent 来构建复杂的 LLM 应用)

  • Smallville: Generative Agents: Interactive Simulacra of Human Behavior: https://arxiv.org/abs/2304.03442 & https://github.com/joonspk-research/generative_agents (来自斯坦福和谷歌, 创建具有社交行为的模拟智能体)

  • Voyager: An Open-Ended Embodied Agent with Large Language Models: https://arxiv.org/abs/2305.16291 (NVIDIA 的 Minecraft Agent, 能够在 Minecraft 世界中持续学习、探索和发现)

  • Agent Workflow Memory: https://arxiv.org/abs/2409.07429 (通过引入工作流记忆机制来提高Agent的规划和执行能力)

实践指南

  • Building Effective Agents: https://www.anthropic.com/research/building-effective-agents (Anthropic 分享的构建高效 Agent 的实践经验和思考)

  • OpenAI Swarm: https://github.com/openai/swarm (OpenAI 推出的多智能体工具)

6. 代码生成

这一部分介绍 The Stack 代码数据集、HumanEval/Codex 基准测试、AlphaCodeium 论文等。

  • 清单:

数据集

  • The Stack: https://arxiv.org/abs/2211.15533 (大规模、多语言的源代码数据集,3 TB)

代码生成模型

  • DeepSeek-Coder: https://arxiv.org/abs/2401.14196 (DeepSeek-Coder 模型论文)

  • Code Llama: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ (Meta 开源的一系列代码生成模型)

  • Qwen2.5-Coder: https://arxiv.org/abs/2409.12186(通义千问2.5系列的代码生成模型)

  • AlphaCodium: https://arxiv.org/abs/2401.08500 (DeepMind 开发的代码生成模型)

评估基准

  • HumanEval/Codex: https://arxiv.org/abs/2107.03374 (评估代码生成模型解决基本编程问题的能力)

  • Aider: https://aider.chat/docs/leaderboards/ (Aider 整理的多个代码生成基准测试的排行榜)

  • Codeforces: https://arxiv.org/abs/2312.02143 (用于评估模型的竞赛级编程能力)

  • BigCodeBench: https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard (BigCode 项目推出的代码生成多维度评估套件)

  • LiveCodeBench: https://livecodebench.github.io/ (关注代码生成模型输出的正确性和运行时行为)

  • SciCode: https://buttondown.com/ainews/archive/ainews-to-be-named-5745/ (评估代码生成模型在科学计算领域的性能)

AI代码审查

  • CriticGPT: https://criticgpt.org/criticgpt-openai/ (OpenAI 内部用来帮助人类程序员发现代码缺陷的工具)

7. 视觉模型

这一部分介绍 CLIP、Segment Anything Model 等视觉模型,以及多模态大模型的发展趋势。

  • 清单:

目标检测

  • YOLO (You Only Look Once): https://arxiv.org/abs/1506.02640 (经典的目标检测模型,以速度和准确性而闻名)

  • DETRs Beat YOLOs on Object Detection: https://arxiv.org/abs/2304.08069 (DETR 系列模型,一种基于 Transformer 的目标检测方法,性能更优)

视觉-语言预训练

  • CLIP (Contrastive Language-Image Pre-training): https://arxiv.org/abs/2103.00020 (OpenAI 的里程碑式工作,通过对比学习将图像和文本联系起来)

  • MMVP Benchmark: Multimodal Video Pretraining for Video Action Recognition: https://arxiv.org/abs/2401.06209 (多模态视频基准测试)

图像分割

  • Segment Anything Model (SAM): https://arxiv.org/abs/2304.02643 (Meta 的图像分割模型,可以通过提示 (prompt) 分割出图像中的任意物体)

多模态大模型

  • Flamingo: a Visual Language Model for Few-Shot Learning: https://huyenchip.com/2023/10/10/multimodal.html (DeepMind 的多模态模型,支持少样本学习)

  • Chameleon: Mixed-Modal Early-Fusion Foundation Models: https://arxiv.org/abs/2405.09818 (Meta 的多模态模型, 采用早融合的方式)

  • GPT-4V system card: https://cdn.openai.com/papers/GPTV_System_Card.pdf (GPT-4V 的系统卡片)

8. 语音模型

从语音识别到语音合成,AI 正在改变我们与机器交互的方式。这一部分介绍 Whisper、AudioPaLM、NaturalSpeech 等语音模型,以及相关的应用案例。

  • 清单:

语音识别 (ASR)

  • Whisper: https://arxiv.org/abs/2212.04356 (OpenAI 开源的语音识别模型,支持多种语言)

语音合成 (TTS)

  • NaturalSpeech: https://arxiv.org/abs/2205.04421 (微软的高质量语音合成模型)

语音大模型

  • AudioPaLM: https://audiopalm.github.io/ (Google 的音频-文本多模态大模型,可以处理和生成音频和文本内容)

实时语音技术

  • Kyutai Moshi: https://arxiv.org/html/2410.00037v2 (支持全双工语音-文本转换的开源模型,低延迟)

  • OpenAI Realtime API: https://platform.openai.com/docs/guides/realtime (OpenAI 推出的实时 API)

9. 图像/视频模型

Stable Diffusion、Sora 等生成模型,让我们看到了 AI 在图像和视频生成方面的巨大潜力。这一部分介绍图像和视频模型相关的论文,以及 ComfyUI 等工具。

  • 清单:

扩散模型 (Diffusion Models)

  • Latent Diffusion Models: https://arxiv.org/abs/2112.10752 (Stable Diffusion 的核心技术)

  • Consistency Models: https://arxiv.org/abs/2303.01469 (引入一致性约束,加快扩散模型的采样速度,大幅减少采样步骤)

  • DiT (Diffusion Transformers): https://arxiv.org/abs/2212.09748 (Sora 的核心技术, 将 Transformer 架构应用于扩散模型,为生成高质量视频奠定了基础)

图像生成模型

  • DALL-E: https://arxiv.org/abs/2102.12092 (OpenAI 的开创性工作,根据文本描述生成图像)

  • DALL-E 2: https://arxiv.org/abs/2204.06125 (DALL-E 的升级版,生成图像的分辨率和质量更高)

  • DALL-E 3: https://cdn.openai.com/papers/dall-e-3.pdf (进一步提升图像生成质量,并更好地理解和遵循文本描述)

  • Imagen: https://arxiv.org/abs/2205.11487 (Google 的文本到图像生成模型)

  • Imagen 2: https://deepmind.google/technologies/imagen-2/ (Imagen 的升级版,支持更多样化的图像编辑功能)

  • Imagen 3: https://arxiv.org/abs/2408.07009 (Google 最新的图像生成模型)

视频生成模型

  • Sora: https://openai.com/index/sora/ (OpenAI 的文本转视频生成模型,现已发布)

工具

  • ComfyUI: https://github.com/comfyanonymous/ComfyUI (基于节点流程的 Stable Diffusion WebUI, 提供了灵活可控的图像和视频生成流程)

10. 模型微调

如何根据特定领域的特定需求来定制化模型?这部分介绍 LoRA/QLoRA、DPO 等微调技术,以及如何利用这些技术来提高模型的性能。

  • 清单:

参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)

  • LoRA: Low-Rank Adaptation of Large Language Models: https://arxiv.org/abs/2106.09685 (参数高效微调的经典之作,通过低秩适配器在大型语言模型中插入少量可训练参数,即可实现高效微调)

  • QLoRA: Efficient Finetuning of Quantized LLMs: http://arxiv.org/abs/2305.14314 (将 LoRA 与 4 位量化相结合,进一步降低了微调所需的计算资源)

偏好对齐微调 (Preference Alignment Fine-Tuning)

  • DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model: https://arxiv.org/abs/2305.18290 (一种直接优化策略的算法,无需训练奖励模型即可将 LLM 与人类偏好对齐)

  • ReFT: Representation Finetuning for Language Models: https://arxiv.org/abs/2404.03592 (通过微调模型的隐藏层表征来进行模型对齐, 可作为 DPO 的补充)

数据构建

  • Orca 3/AgentInstruct: Agentic Instruction Generation https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/ (利用智能体生成指令数据来进行模型微调)

强化学习微调 (RL Fine-Tuning)

  • RL Finetuning for o1: https://www.interconnects.ai/p/openais-reinforcement-finetuning (OpenAI 近期推出的基于强化学习的微调技术)

  • Let’s Verify Step By Step: https://arxiv.org/abs/2305.20050 (通过逐步验证的方式,提升 RLHF 的效果)

教程

  • How to fine-tune open LLMs: https://www.philschmid.de/fine-tune-llms-in-2025 (一份实用的 LLM 微调教程)

结语

学而时习之,不亦说乎?!


精选推荐​​​​​​​


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

;