Bootstrap

T5模型、GPT和BERT

目录

T5模型、GPT和BERT

一、T5模型

二、GPT模型

三、BERT模型(词嵌入模型,一个单词4096维度)

四、区别与联系


T5模型、GPT和BERT

T5模型、GPT模型和BERT模型都是基于Transformer架构的预训练语言模型,但它们在设计目标、架构和应用上存在一些区别和联系:

1. **模型架构**:
   - **BERT**:仅使用了Transformer的编码器部分,是一个基于双向上下文的编码器模型。
   - **GPT**:仅使用了Transformer的解码器部分,是一个单向的生成式模型。
   - **T5**:采用了完整的Seq2Seq结构,包括编码器和解码器。

2. **预训练目标**:
   - **BERT**:通过掩码语言模型(MLM)和下一句预测(NSP)进行预训练。
   - **GPT**:通过因果语言模型(CLM),即每个标记预测序列中的下一个标记进行预训练。
   - **T5**:使用去噪目标,其中随机的文本范围被

;