Bootstrap

GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型GPT-1.0GPT-2.0GPT-3.0
参数数量117M1.5B175B
层数12 层12 - 48 层96 层
嵌入维度768768 - 160012,288
注意力头数1212 - 2596
上下文长度51210242048
词汇表大小约 40,00050,00050,000
训练数据BooksCorpus (约 5GB)WebText (约 40GB)多种来源 (570GB)
显著特性提出“预训练+微调”框架支持多任务学习和长文本生成强大的少样本和零样本学习能力
;