目录 1 Cold Start1.1 冷启动数据的收集1.2 数据格式设计1.3 冷启动数据的优势1.4 如何影响训练 2 rejection sampling2.1 定义与目的2.2 流程2.3 与其他数据生成方式的区别2.4 优化与性能提升2.5 应用 3 rule-based rewards3.1 规则定义与奖励机制3.2 奖惩机制 4 Distillation4.1 蒸馏的基本流程4.2 蒸馏的技术细节4.3 蒸馏技术的核心思想 5 Multi-Head Latent Attention (MLA)5.1 MLA的技术细节5.2 MLA的优势 6 MOE6.1 基本原理6.2 主要问题6.3 优化方案 7 Multi-token Prediction7.1基本流程7.2 优势 8 总结