文章目录 参数量计算 训练运算量估计 训练时间估计 训练显存估计 介绍如何计算基于 Transformer 架构的大语言模型的参数数量,并给出训练模型时所需要的运算量、训练时间和显存开销估计,方便可以估算训练所需要的时间、GPU 显存等计算资源开销。 参数量计算 由于当前主流的大模型普遍采用因果解码器架构,因此下面以 L L a M A LLaMA LLaMA<