Bootstrap

LLM-预训练:深入理解 Megatron-LM(1)基础知识【TP并行策略用于一个服务器内;PP并行策略用于服务器之间;】

最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA Megatron团队公开发布的2篇论文,并结合最近Megatron-LM代码库的更新,整理成了这几篇系列文章。

Megatron-LM 代码版本:23.06

https://github.com/NVIDIA/Megatron-LM/tree/23.06/megatron​github.com/NVIDIA/Megatron-LM/tree/23.06/megatron

Megatron-LM 近期的改动16 赞同 · 2 评论文章

1. 导读

NVIDIA Megatron-LM

;