Bootstrap

GPT 系列论文精读:从 GPT-1 到 GPT-4

学习 & 参考资料

文章目录

GPT-1

Improving Language Understanding by Generative Pre-Training
Alec Radford et al. | PDF | OpenAI | 2018.06

前言

在深入研究之前,了解相关领域重要论文的时间线1是一个很好的习惯:

时间线

Google 的 Transformer(Attention is All You Need) 于 2017 年 6 月发表,一年后,OpenAI 的团队发表了 GPT ,又过了两个月,Google 的另一个团队发表了 BERT

缩写 GPT 来自论文题目的 Generative Pre-Training,生成式预训练,维基百科2中的表述是 Generative Pre-trained Transformer,二者指代一致。这是一个通用概念,当前常见的具有聊天功能的 AI 或者说 LLM 其实都可以称作 GPT。

GPT 是一种自回归(Auto-Regressive,AR)模型,在进一步了解 GPT 之前,可以先认识自回归和非自回归3

AR vs NAR

自回归(Auto-Regressive)

自回归生成是指序列生成过程中,每个新生成的 token 依赖于之前生成的 token。这意味着生成过程是串行的,每一步的输入由前面已生成的 token 组成的上下文序列构成。例如:

  • 假设要生成一个长度为 T T T 的句子 y = ( y 1 , y 2 , … , y T ) y = (y_1, y_2, \dots, y_T) y=(y1,y2,,yT),在生成句子 y y y 的过程中,首先生成 y 1 y_1 y1,然后在生成 y 2 y_2 y2 时需要考虑 y 1 y_1 y1;在生成 y 3 y_3 y3 时,需要考虑 ( y 1 , y 2 ) (y_1, y_2) (y1,y2),以此类推,直到生成结束符号(<end>)。

这种设计确保了生成过程中的连贯性和逻辑一致性。

非自回归(Non-Autoregressive)

非自回归生成是一种并行生成的方式,一次性生成多个甚至全部的 token,从而显著提高生成速度,但也会牺牲一定的生成质量

拓展

现在也有工作使用非自回归模型作为“预言家”来指导自回归模型并行生成,从而在生成质量不变的情况下大幅度提高生成速度,以“空间”换时间。

预言家

相关论文

  • Fast Inference from Transformers via Speculative Decoding: arXiv 2211.17192
  • Accelerating Large Language Model Decoding with Speculative Sampling: arXiv 2302.01318

贡献

在《BERT 论文精读》中有说到:“BERT 是第一个使用预训练与微调范式,在一系列 NLP 任务(包括句子层面和词元层面)都达到 SOTA 的模型。”这句话的关键在于“都”字,因为实际上,GPT 更早地使用了预训练与微调的范式,只不过当时并没有在 12 个任务上全都达到最佳,而是在 9 个任务上超越了当时的 SOTA。

GPT 的主要贡献如下:

  • 「预训练 + 微调」范式的验证(基于 Transformer 解码器)
    • 采用了由 Transformer 解码器堆叠的架构(使用 Masked self-attention 从左到右预测下一个词),在大规模未标注语料上进行生成式预训练
    • 随后,模型在下游任务(文本蕴含、文本分类、问答等)上通过有监督微调来适配不同场景,最终在 9/12 的任务上取得了 SOTA,证明了 Transformer 架构在语言建模上的可行性。
    • 虽然在 GPT 出现之前已有基于预训练词向量(Word2Vec [MCCD13]、GloVe [PSM14])或 ELMo 等双向语言模型的类似思路,但 GPT-1 首次在一个大规模、纯 Transformer 解码器上系统性地验证了「预训练 + 微调」范式的有效性,为后续基于 Transformer 架构的预训练语言模型(如 BERT、T5)奠定了基础。
  • 引入统一的任务输入格式
    • 通过在输入文本中添加特殊标记以及拼接文本,将不同下游任务(文本蕴含、问答、情感分析等)的结构化输入统一转换为连续序列的形式。
    • 这种方法减少了为不同任务单独设计模型结构的需求,仅通过调整输入格式即可适应不同任务,使得同一个预训练语言模型可以在不同任务之间复用。

GPT 和 BERT 的关系

Transformer 是 GPT 的“巨人肩膀”,而 GPT 对于 BERT 也是如此。在阅读过 BERT 的论文后,可以感受到许多思想与 GPT 完全同频:

  1. 预训练与微调范式的使用
  2. Transformer 架构的使用
    • GPT 使用 Transformer 解码器(decoder-only)。
    • BERT 使用 Transformer 编码器(encoder-only)。

模型架构

论文的图 1 分别展示了模型的架构和后续微调时不同任务的处理方式

Figure 1

左半部分:Transformer 架构

Figure 1 (Left)

让我们自顶向下的理解这个架构,下文所说的/词元实际上就是 Token。

1. 顶部:Text Prediction 和 Task Classifier
  • Text Prediction:用于生成任务,预测下一个词。
  • Task Classifier:用于分类任务,如情感分析或文本蕴含任务。
2. 中部:Transformer 架构
  • 遵循原论文的表达将其称之为 transformer_block,其中每一层包含:

    • Layer Norm (LN) + 残差连接 (+)

      对应于 Transformer 架构中的 Add & Norm

    • Masked Multi-Head Self-Attention

      掩码多头自注意力机制,在生成任务中,每次预测一个词时,当前词只能看到左侧的上下文信息,未来的词和预测的词都会被掩盖

      对应于 Transformer 架构中 Masked Multi-Head Attention

    • 前馈网络 (Feed-Forward Network, FFN)

  • 左侧12x 表示堆叠了12层 transformer_block

3. 底部:Text & Position Embed
  • Text Embed:将输入的词转化为可训练的嵌入向量
  • Position Embed:使用可学习的位置信息嵌入,这里和 Transformer 默认的正余弦位置编码不同,但 Transformer 论文Table 3 (E) 中有对比二者的性能差异,所以并非一个新的方法。

如果对架构中的表述感到难以理解,建议先阅读《Transformer 论文精读》,GPT 完全基于 Transformer 原模型的架构,所以本文没有着墨太多。

另外,可以通过拓展文章《g. 嵌入层 nn.Embedding() 详解和要点提醒(PyTorch)》进一步了解什么是嵌入层。

Q: Transformer 的 Encoder、Decoder 和 GPT 的架构有什么区别?

下图为 Transformer 的模型架构:

Transformer 模型架构图

如果不考虑子层(sublayer)之间的残差连接和 Layer Norm(Add & Norm),我们可以将 Transformer 的编码器和解码器层以及 GPT 的架构抽象为以下表述:

Encoder

输入 → 嵌入层(Embedding Layer) → 位置编码(Positional Encoding) → 多头自注意力(Multi-Head Self-Attention) → 前馈网络(Feed-Forward Network, FFN) → 输出 \text{输入} \xrightarrow{\text{嵌入层(Embedding Layer)}} \xrightarrow{\text{位置编码(Positional Encoding)}} \xrightarrow{\text{多头自注意力(Multi-Head Self-Attention)}} \xrightarrow{\text{前馈网络(Feed-Forward Network, FFN)}} \xrightarrow{\text{输出}} 输入嵌入层(Embedding Layer 位置编码(Positional Encoding 多头自注意力(Multi-Head Self-Attention 前馈网络(Feed-Forward Network, FFN 输出

Decoder

输入 → 嵌入层(Embedding Layer) → 位置编码(Positional Encoding) → 掩码多头自注意力(Masked Multi-Head Self-Attention) → 多头交叉注意力(Multi-Head Cross-Attention) → 前馈网络(Feed-Forward Network, FFN) → 输出 \text{输入} \xrightarrow{\text{嵌入层(Embedding Layer)}} \xrightarrow{\text{位置编码(Positional Encoding)}} \xrightarrow{\text{掩码多头自注意力(Masked Multi-Head Self-Attention)}} \xrightarrow{\text{多头交叉注意力(Multi-Head Cross-Attention)}} \xrightarrow{\text{前馈网络(Feed-Forward Network, FFN)}} \xrightarrow{\text{输出}} 输入嵌入层(Embedding Layer 位置编码(Positional Encoding 掩码多头自注意力(Masked Multi-Head Self-Attention 多头交叉注意力(Multi-Head Cross-Attention 前馈网络(Feed-Forward Network, FFN 输出

从架构上看,Decoder 相较于 Encoder 多了掩码机制和交叉注意力,实际上真正区分二者的是自注意力中的掩码机制,防止模型在生成时看到未来的词。

注意,交叉注意力也被称为编码器-解码器注意力(Encoder-Decoder Attention)。

GPT

GPT 的架构可以被视为去除了交叉注意力的 Decoder。

输入 → 嵌入层(Embedding Layer) → 位置编码(Positional Encoding) → 掩码多头自注意力(Masked Multi-Head Self-Attention) → 前馈网络(Feed-Forward Network, FFN) → 输出 \text{输入} \xrightarrow{\text{嵌入层(Embedding Layer)}} \xrightarrow{\text{位置编码(Positional Encoding)}} \xrightarrow{\text{掩码多头自注意力(Masked Multi-Head Self-Attention)}} \xrightarrow{\text{前馈网络(Feed-Forward Network, FFN)}} \xrightarrow{\text{输出}} 输入嵌入层(Embedding Layer 位置编码(Positional Encoding 掩码多头自注意力(Masked Multi-Head Self-Attention 前馈网络(Feed-Forward Network, FFN 输出

右半部分:不同任务的输入处理

Figure 1 (right)

GPT 将不同的自然语言处理(NLP)任务的输入转化为统一的序列格式,使得预训练的生成模型(图中的 Transformer)可以直接接受它们进行处理,避免为每个任务设计特定的模型架构。

以下符号将遵循原论文的表述,这里将用到三种特殊词元(Special Token):

  • 开始词元(Start Token): ⟨ s ⟩ \langle s \rangle s,表示序列起始。
  • 结束词元(End Token): ⟨ e ⟩ \langle e \rangle e,表示序列结束。
  • 分隔词元(Delimiter Token): $,用于分隔子序列,例如前提句和假设句,问题和答案。

这些标记并不是为人类设计的,而是为模型提供明确的语义提示,以便在训练中建立序列关系。

注意,这些符号在预训练时是不存在的,微调赋予了它们意义。

1. 文本分类(Classification)

文本分类任务的输入是单一文本,目标是根据文本内容预测类别(例如电影评论情感分析:积极或消极)。

输入格式

⟨ s ⟩  文本  ⟨ e ⟩ \langle s \rangle \ \text{文本} \ \langle e \rangle s 文本 e

2. 文本蕴含(Textual Entailment)

文本蕴含任务,也称自然语言推理(NLI)4,目标是判断前提(Premise)与假设(Hypothesis)之间的关系:

  1. 蕴含(Entailment):由前提可以推出假设,p ⇒ \Rightarrow h。
  2. 矛盾(Contradiction):前提与假设相矛盾。
  3. 无关(Neutral):前提和假设无直接关联。

这是一个三分类问题,举个例子:

蕴含(positive TE,premise entails hypothesis):

  • 前提:“所有鸟类都有翅膀。”
  • 假设:“麻雀有翅膀。”
  • 关系:假设可以从前提推导出,因此为蕴含

矛盾(negative TE,premise contradicts hypothesis):

  • 前提:“所有鸟类都有翅膀。”
  • 假设:“企鹅没有翅膀。”
  • 关系:假设与前提的事实相矛盾,因此为矛盾(对了,企鹅是鸟)。

无关(non-TE,premise does not entail nor contradict):

  • 前提:“所有鸟类都有翅膀。”
  • 假设:“所有鸟类都会飞。”
  • 关系:假设无法从前提中推导,也不矛盾,因此为无关

输入格式

⟨ s ⟩  前提  $  假设  ⟨ e ⟩ \langle s \rangle \ \text{前提} \ \$\ \text{假设} \ \langle e \rangle s 前提 $ 假设 e

3. 语义相似性(Semantic Similarity)

语义相似性任务中,目标是判断两个句子是否在语义上相似,例如 Quora 问题对检测(Quora Question Pairs,QQP)要求识别两个问题是否相似。

“Similarity For similarity tasks, there is no inherent ordering of the two sentences being compared. To reflect this, we modify the input sequence to contain both possible sentence orderings (with a delimiter in between) and process each independently to produce two sequence representations h l m h^m_l hlm which are added element-wise before being fed into the linear output layer.”

由于句子对没有固有的顺序,论文采用了以下方法:

  1. 将句子对按照两种可能的顺序输入模型 (即 A ; B A; B A;B B ; A B; A B;A)。
  2. 对两种输入序列分别处理,生成的最后一层激活向量 ( h l m h^m_l hlm) 进行逐元素相加(element-wise addition)。
  3. 加和后的表示被输入到线性层中,用于判断语义相似性。

输入格式

⟨ s ⟩  句子A  $  句子B  ⟨ e ⟩ ⟨ s ⟩  句子B  $  句子A  ⟨ e ⟩ \begin{align} \langle s \rangle \ \text{句子A} \ \$\ \text{句子B} \ \langle e \rangle \\ \langle s \rangle \ \text{句子B} \ \$\ \text{句子A} \ \langle e \rangle \end{align} s 句子A $ 句子B es 句子B $ 句子A e

4. 选择题(Multiple Choice)

选择题任务中,模型需要从多个候选答案中选择一个最可能的正确答案,例如问答(Question Answering,QA)和常识推理(Commonsense Reasoning)。

“For these tasks, we are given a context document z z z, a question q q q, and a set of possible answers { a k } \{a_k\} {ak}. We concatenate the document context and question with each possible answer, adding a delimiter token in between to get $[z; q; $; a_k]$. Each of these sequences are processed independently with our model and then normalized via a softmax layer to produce an output distribution over possible answers.”

此时的输入通常包括三个部分,以问答任务为例:

  1. 上下文文档 z z z :问题的背景信息。
  2. 问题 q q q :需要解答的问题。
  3. 候选答案集 { a k } \{a_k\} {ak} :多个可能的答案。

输入格式

⟨ s ⟩  文档 z  问题 q   $  答案 a 1   ⟨ e ⟩ ⟨ s ⟩  文档 z  问题 q   $  答案 a 2   ⟨ e ⟩ ⋮ ⟨ s ⟩  文档 z  问题 q   $  答案 a k   ⟨ e ⟩ \begin{align} \langle s \rangle \ \text{文档} z \ \text{问题} q \ \$\ \text{答案} a_1 \ \langle e \rangle\\ \langle s \rangle \ \text{文档} z \ \text{问题} q \ \$\ \text{答案} a_2 \ \langle e \rangle\\ \vdots \\ \langle s \rangle \ \text{文档} z \ \text{问题} q \ \$\ \text{答案} a_k \ \langle e \rangle \end{align} s 文档z 问题q $ 答案a1 es 文档z 问题q $ 答案a2 es 文档z 问题q $ 答案ak e

这些序列会被独立处理,最后通过 softmax 归一化生成概率分布。

训练细节

无监督预训练(Unsupervised pre-training)

在预训练阶段,模型的目标是最大化未标注语料的语言建模函数:

L 1 ( U ) = ∑ i log ⁡ P ( u i ∣ u i − k , … , u i − 1 ; Θ ) L_1(\mathcal{U}) = \sum_i \log P(u_i \mid u_{i-k}, \ldots, u_{i-1}; \Theta) L1(U)=ilogP(uiuik,,ui1;Θ)

其中:

  • U \mathcal{U} U :未标注的文本语料。
  • u i u_i ui :第 i i i 个词。
  • k k k :上下文窗口的大小(即当前词基于前 k k k 个词预测)。
  • Θ \Theta Θ :模型参数。

具体流程

  1. 输入嵌入

    将输入序列 U = u − k , … , u − 1 U = {u_{-k}, \ldots, u_{-1}} U=uk,,u1 映射到嵌入空间:

    h 0 = U W e + W p h_0 = U W_e + W_p h0=UWe+Wp

    • W e W_e We :词嵌入矩阵。
    • W p W_p Wp :位置嵌入矩阵。
    • h 0 h_0 h0 :初始输入的嵌入表示。
  2. 多层 Transformer 编码

    输入嵌入 h 0 h_0 h0 通过 n n ntransformer_block 逐层处理:

    h l = transformer_block ( h l − 1 )    ∀ i ∈ [ 1 , n ] h_l = \texttt{transformer\_block}(h_{l-1}) \; \forall i \in [1, n] hl=transformer_block(hl1)i[1,n]

    • h l h_l hl :第 l l l 层的输出。
  3. 预测下一个词

    最后一层的输出 h n h_n hn 被映射回词汇表维度,生成下一个词的概率分布:

    P ( u ) = softmax ( h n W e T ) P(u) = \texttt{softmax}(h_n W_e^T) P(u)=softmax(hnWeT)

    • W e T W_e^T WeT :词嵌入矩阵的转置,将隐藏状态映射回词汇表。
    • softmax:归一化概率分布。

更准确一点应该是自监督(Self-supervised)而非无监督,这是一个较新(相对于 2018 年发布的 GPT)的说法,源于 2019 年 Yann LeCun 在 Facebook 上发表的帖文:

image-20241222172619405

相关设置
  • 数据集

    • 使用 BooksCorpus 数据集56,包含大约 7,000 本未出版的书籍,数据主要从电子书分发平台 Smashwords 抓取。

      BERT 预训练时除了 BooksCorpus 数据集(8 亿词元)外,还使用了英文维基百科(English Wikipedia, 25 亿词元),所以 BERT 的训练资料大概为 GPT 的四倍。

      “… 所以它在这个数据集上训练了一个比 GPT 大三倍的模型 ( BERT LARGE \text{BERT}_\text{LARGE} BERTLARGE) 也是可以理解的” - 沐神论文精读 31:32 - 32:47 部分

    • 使用 ftfy 库清理原始文本,标准化标点符号和空白字符,然后使用 spaCy 分词器。

    • 使用 Byte-Pair Encoding (BPE) 进行子词分解,词汇表大小为 40,000

      21. BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法

  • 超参数设置

    • Transformer 相关

      • 层数 n l a y e r s = 12 n_{layers}=12 nlayers=12:Transformer 解码器的层数。

        We trained a 12-layer decoder-only transformer with masked self-attention heads (768 dimensional states and 12 attention heads).

        原论文在 4.1 Setup 的 Model specifications 中提到了 decoder-only

      • 隐藏层维度 d m o d e l = 768 d_{model}=768 dmodel=768:每个隐藏层的维度为 768。

      • 注意力头数 n h e a d s = 12 n_{heads}=12 nheads=12:每层的多头注意力机制包含 12 个注意力头,每个头的维度为 64, 12 ∗ 64 = 768 12 * 64 = 768 1264=768

        以上数学符号与 GPT-3 的表 2-1 一致。

      • 前向层维度:Transformer 中 FFN 的隐藏层维度为 3072。

      • Dropout 率:残差连接、嵌入层和注意力中均设置为 0.1

      • 总参数量:约 117M。

    • 其他

      • 训练轮数:100。

      • 批量大小:64。

      • 最大序列长度:512。

      • 优化器:Adam。

      • 学习率调度

        • 初始学习率为 0,前 2000 步线性增加至最大值 2.5 × 1 0 − 4 2.5 \times 10^{-4} 2.5×104
        • 然后采用余弦衰减策略逐渐减小学习率。

        同 Transformer 一样有线性增加热身的过程,但具体的衰减方式和热身步数不同。

      • L2 正则化:权重 w = 0.01 w = 0.01 w=0.01

      • 激活函数GELU(Gaussian Error Linear Unit)。

      • 位置嵌入:采用可学习的位置嵌入矩阵,而非原始 Transformer 中的正弦嵌入。

有监督微调(Supervised Fine-Tuning)

在预训练阶段完成后,模型可以根据具体的下游任务进行微调。假设我们现在有一个标注数据集 C C C,其中每个样本包含一个输入序列 x = ( x 1 , … , x m ) x = (x^1, \dots, x^m) x=(x1,,xm) 和对应的标签 y y y

此时的目标是最大化标签 y y y 在输入序列 x x x 下的条件概率:

L 2 ( C ) = ∑ ( x , y ) log ⁡ P ( y ∣ x 1 , … , x m ) . L_2(C) = \sum_{(x, y)} \log P(y \mid x^1, \ldots, x^m). L2(C)=(x,y)logP(yx1,,xm).

具体流程

  1. 特定任务输入处理

    • 文本分类: ⟨ s ⟩ 文本 ⟨ e ⟩ \langle s \rangle \text{文本} \langle e \rangle s文本e
    • 文本蕴含: ⟨ s ⟩ 前提   $   假设 ⟨ e ⟩ \langle s \rangle \text{前提} \, \$ \, \text{假设} \langle e \rangle s前提$假设e
    • 语义相似性: ⟨ s ⟩  句子A  $  句子B  ⟨ e ⟩ ⟨ s ⟩  句子B  $  句子A  ⟨ e ⟩ \begin{align} \langle s \rangle \ \text{句子A} \ \$\ \text{句子B} \ \langle e \rangle \\ \langle s \rangle \ \text{句子B} \ \$\ \text{句子A} \ \langle e \rangle \end{align} s 句子A $ 句子B es 句子B $ 句子A e
    • 选择题: ⟨ s ⟩ 上下文   $   问题   $   答案 ⟨ e ⟩ \langle s \rangle \text{上下文} \, \$ \, \text{问题} \, \$ \, \text{答案} \langle e \rangle s上下文$问题$答案e
  2. 微调目标

    微调阶段的目标是优化以下条件概率:

    P ( y ∣ x 1 , … , x m ) = softmax ( h l m W y ) P(y \mid x^1, \ldots, x^m) = \texttt{softmax}(h_l^m W_y) P(yx1,,xm)=softmax(hlmWy)

    • h l m h_l^m hlm :输入序列 x = ( x 1 , … , x m ) x = (x^1, \dots, x^m) x=(x1,,xm) 经过预训练模型的最后一层隐藏状态,注意上标 m m m 代表了位置。
    • W y W_y Wy:线性层的权重矩阵(该层接在预训练模型之后),用于将隐藏状态 h l m h_l^m hlm 映射到标签空间。可以理解为预训练模型后接线性层,比如对于二分类任务,对应的代码是 nn.Linear(hidden_size, 2)
  3. 辅助目标

    “We additionally found that including language modeling as an auxiliary objective to the fine-tuning helped learning by (a) improving generalization of the supervised model, and (b) accelerating convergence. This is in line with prior work [50, 43], who also observed improved performance with such an auxiliary objective. Specifically, we optimize the following objective (with weight λ \lambda λ):”

    为了提高泛化能力和加速收敛,微调阶段还引入了预训练的语言建模目标函数作为辅助,最终的目标函数如下:

    L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C) = L_2(C) + \lambda L_1(C) L3(C)=L2(C)+λL1(C)

    • λ \lambda λ :辅助目标函数的权重。
相关设置

微调阶段对 12 个下游任务进行了实验,按照之前的分类:

  • 数据集

    • 文本分类:Stanford Sentiment Treebank-2 (SST-2)、Corpus of Linguistic Acceptability (CoLA)。
    • 文本蕴含:SNLI、MultiNLI、Question NLI、RTE、SciTail。
    • 语义相似性:MSR Paraphrase Corpus (MRPC)、Quora Question Pairs (QQP)、STS Benchmark (STS-B)。
    • 选择题:RACE、Story Cloze。
  • 超参数设置(大多数任务)

    除了以下超参数,其余均复用预训练阶段的参数设置。

    • 微调轮数:3
    • 批量大小:32
    • 学习率调度
      • 热身步数为训练总步数的 0.2%
      • 最大学习率调整为 6.25 × 1 0 − 5 6.25 \times 10^{-5} 6.25×105,热身后采用线性衰减策略。
    • Dropout 率:分类器层(就是预训练模型之后的线性层)设置为 0.1。
    • 辅助目标权重: λ = 0.5 \lambda = 0.5 λ=0.5

到目前为止,还看不到现在 ChatGPT 的影子,因为针对不同的任务还需要进行微调,不能简单的直接用对话的形式获取答案,即便论文后续有提及 Zero-shot,但实际效果一般。

关于 Zero-shot

其实 Zero-shot 并非 GPT-2 才引入,在 GPT-1 中(第 7 页的 Zero-shot Behaviors 部分)就已经探讨了生成式预训练模型的 Zero-shot 性能,即模型在没有针对某些特定任务进行微调的情况下,也能通过预训练过程中学习到的知识直接完成这些任务。

“A hypothesis is that the underlying generative model learns to perform many of the tasks we evaluate on in order to improve its language modeling capability and that the more structured attentional memory of the transformer assists in transfer compared to LSTMs. ”

  • 论文假设,预训练语言模型的生成目标让模型在学习语言建模能力的过程中,掌握了大量任务相关的语言知识。
  • Transformer 架构的结构化注意力机制(Structured Attentional Memory)相比于 LSTM 具有更好的迁移性。

“We designed a series of heuristic solutions that use the underlying generative model to perform tasks without supervised finetuning.”

作者设计了一系列启发式方法,通过直接使用生成预训练模型(无需监督微调)解决不同下游任务。

“For SST-2 (sentiment analysis), we append the token very to each example and restrict the language model’s output distribution to only the words positive and negative and guess the token it assigns higher probability to as the prediction…”

以情感分析任务为例,对于输入:

The movie was incredibly entertaining.

增加 very

The movie was incredibly entertaining. very

限制生成的输出仅包含“positive”和“negative”,最后根据预测的概率确定情感。

下图展示了模型在不同任务上的零样本性能随预训练迭代次数的变化趋势。性能指标归一化到随机猜测与当前 SOTA 之间:

Figure 2 (right)

可以看到,随着训练的进行,任务性能稳定增长,但离 SOTA 还有不小的差距。

GPT-2

Language Models are Unsupervised Multitask Learners
Alec Radford et al. | PDF | Code - 官方 Tensorflow | OpenAI | 2019.02

“当自己的模型被人用更大的数据集(+维基百科)和更大的模型 ( BERT LARGE \text{BERT}_\text{LARGE} BERTLARGE) 打败的时候,应该怎么去回应?”

GPT,GPT-2,GPT-3 论文精读【论文精读】 33:12 - 46:05 部分

GPT-2 的整体设计思想相较于 GPT-1 没有变化,但通过模型规模的扩展和数据集的优化,在零样本学习(Zero-Shot Learning)上迈出了一大步。此前该领域的模型或受限于架构或受限于规模,性能远不如 GPT-2。

关键改进

更大的数据集

GPT-2 使用了 WebText 数据集进行训练。WebText 的文本来源是 4500 万个经过 Reddit 用户过滤后的网页链接(至少有 3 karma,karma 可以当成点赞),经过去重和清理后,最终包含 800 万篇文档,总计约 40GB 的文本(GPT-1 数据集的大小约为 1GB)。为了避免评估数据的“泄漏”,数据集还特意去除了常见的数据来源(比如维基百科)。

同时,因为数据集的变化,词汇表从 40,000 扩展到了 50,257。

值得一提的是,GPT-2 采用了字节级的 BPE (Byte-level Byte Pair Encoding) 进行分词(GPT-1 使用的是 BPE)。

更大的模型

GPT-2 的参数规模(15 亿参数)远超其前身 GPT-1(1.1 亿参数) 以及当时的主流模型(如 BERT LARGE \text{BERT}_\text{LARGE} BERTLARGE 的 3.4 亿参数)。但模型主体架构并没有修改,只是调整了一些超参数:

  • 层数 n l a y e r s n_{layers} nlayers :12 → 48。
  • 隐藏层维度 d m o d e l d_{model} dmodel :768 → 1,600。
  • 最大序列长度:512 → 1,024。
  • 批量大小:64 → 512。

另外,还引入了一些细节优化:

  • 层归一化(Layer Normalization):调整至每个子模块的输入端(Pre-Norm),类似于预激活残差网络,同时在最后的自注意力模块后增加额外的层归一化。
  • 残差权重初始化:采用了 1 / N 1/\sqrt{N} 1/N 的权重缩放因子,其中 N N N 是残差层的深度。

表 2 列出了四种不同参数规模的模型配置:

image-20241227212626715

其中,最小的模型(117M)对标 GPT-1,第二个模型(345M)对标 BERT LARGE \text{BERT}_\text{LARGE} BERTLARGE,最大的模型(1152M)称为 GPT-2,它的另一个名字是 GPT2-XL。

零样本学习(Zero-shot Learning)

GPT-2 的创新在于对零样本学习的进一步探索。GPT-1 微调时引入了三种特殊符号: ⟨ s ⟩ \langle s \rangle s, $, ⟨ e ⟩ \langle e \rangle e,这些符号在预训练时并没有见过,所以会在微调的时候学习表示。而 GPT-2 不再引入这些特殊符号,采用与 GPT-1 预训练数据格式更相似的自然输入格式(其实就是不做多余操作,单纯的预训练),这也是后续文献常提及以及我们现在耳熟能详的 Prompt,作者给出了两个例子:

  • 翻译translate to French, English text, French text

    论文的表 1 展示了 WebText 中自然出现的语言翻译例子:

    image-20241227214420068

  • 阅读理解answer the question, document, question, answer

正如论文标题 「Language Models are Unsupervised Multitask Learners」 所暗示的,在 GPT-2 的原始论文中,模型并未针对任何下游任务进行有监督的微调(fine-tuning),而是直接在大规模文本上进行预训练,然后在各种 NLP 任务上测试性能。

所以 Zero-shot 或许可以片面地理解为进行预训练。

Q1:什么是 Pre-Norm?和 GPT-1 的区别?

结合图例7进行理解:

image-20241227230123493

如上图 (b) 所示,Pre-Norm 就是将层归一化放在**子层(SubLayer,例如自注意力或前馈网络)**的输入端,也就是在残差连接之前。

具体公式如下:

  • Pre-Norm

    Output = x + SubLayer ( LayerNorm ( x ) ) \text{Output} = x + \text{SubLayer}(\text{LayerNorm}(x)) Output=x+SubLayer(LayerNorm(x))

  • Post-Norm(Transformer 原始架构及 GPT-1):

    Output = LayerNorm ( x + SubLayer ( x ) ) \text{Output} = \text{LayerNorm}(x + \text{SubLayer}(x)) Output=LayerNorm(x+SubLayer(x))

GPT-1 和 GPT-2 的区别

  • GPT-1Post-Norm,层归一化放置在残差连接之后。
  • GPT-2Pre-Norm,层归一化放置在残差连接之前。

代码差异

  • Post-Norm

    def forward(self, x, sublayer):
        # 子层的输出 + 残差连接后,进行归一化
        return self.norm(x + sublayer(x))
    
  • Pre-Norm

    def forward(self, x, sublayer):
        # 输入先进行归一化,再传入子层,最后进行残差连接
        return x + sublayer(self.norm(x))
    

感兴趣的话可以访问官方代码:gpt-2 block

GPT-3

Language Models are Few-Shot Learners
Tom B. Brown et al. | PDF | OpenAI | 2020.05

关键改进

GPT-3 秉承传统:更大的数据集和更大的模型。

更大的数据集

GPT-3 的训练数据集来自 Common Crawl、WebText2、Books1、Books2Wikipedia,论文的表 2.2 列出了它们的规模、在训练中的权重分布以及训练 3000 亿 tokens 时经过的轮次:

image-20241230214618830

数据集数据量(tokens 数)训练混合中的权重训练 3000 亿 tokens 时的轮次
Common Crawl(过滤后)约 4100 亿60%0.44
WebText2约 190 亿22%2.9
Books1约 120 亿8%1.9
Books2约 550 亿8%0.43
Wikipedia约 30 亿3%3.4

“Note that during training, datasets are not sampled in proportion to their size, but rather datasets we view as higher-quality are sampled more frequently, such that CommonCrawl and Books2 datasets are sampled less than once during training, but the other datasets are sampled 2-3 times. This essentially accepts a small amount of overfitting in exchange for higher quality training data.”

需要注意的是,尽管 Common Crawl 是规模最大的数据集,数据量远超其他来源(是 WebText2 的 21.58 倍),但由于质量参差不齐,其训练权重被适当降低,仅为总权重的 60%,而较小但质量更高的 WebText2 则分配了 22% 的训练权重。

对于数据集 Common Crawl 的处理

Common Crawl 是一个非盈利组织,会定期抓取互联网上的网页数据并免费开放给研究者使用。为了准备更大的数据集以匹配更大的模型,OpenAI 团队从 Common Crawl 中下载了 2016-2019 年41 个数据分片,总量约 45TB(压缩后)。在经过一系列自动化过滤、重新采样和去重处理后,最终得到约 570GB 的文本,对应约 4100 亿 Byte-Pair Encoding (BPE) 子词。

以下细节来自于论文的附录 A,可以跳过。

1. 自动过滤 (Automatic Filtering)
  • 训练集与分类器
    为了从原始 Common Crawl 中挑选更高质量的文档,研究团队先将高质量语料(如 WebTextWikipedia、以及 web books corpus)合并为“正例”数据集,并将未经过滤的 Common Crawl 用作“负例”。随后,利用 Spark 的标准分词器(Tokenizer)和 HashingTF 提取文本特征,并以此训练 Logistic Regression(逻辑回归)分类器,为每篇文档打“分”:

    • 得分越高,表示该文档越“接近”高质量语料;
    • 得分较低则表明该文档的质量“可能”欠佳。
  • 重新采样 (Resampling) 与 Pareto 分布
    利用所得到的“质量分数”,研究团队基于以下条件进行重新采样:

    np.random.pareto ( α ) > 1 − document_score \texttt{np.random.pareto}(\alpha) > 1 - \texttt{document\_score} np.random.pareto(α)>1document_score

    其中 α = 9 \alpha = 9 α=9,文档得分越高越容易保留,但低分文档也有一定概率(出于维持多样性的考虑)。

    通过代码来理解对应的概念:

    import numpy as np
    
    def filter_rate(doc_score, alpha=9, trials=100000):
        """
        doc_score: 文档分数 (0 - 1)
        alpha: Pareto 分布的形状参数
        trials: 模拟采样次数
        """
        # 1. 生成很多个 Pareto(α=9) 随机数
        samples = np.random.pareto(alpha, size=trials)  
        # 2. 计算阈值
        threshold = 1 - doc_score
        # 3. 看看有多少随机数满足:sample > threshold
        pass_count = np.sum(samples > threshold)
        return pass_count / trials
    
    # 测试不同的 document_score
    scores = [0.0, 0.2, 0.5, 0.8, 0.9]
    for s in scores:
        rate = filter_rate(s)
        print(f"doc_score={s}, 通过过滤的模拟比例={rate:.4f}")
    

    输出

    doc_score=0.0, 通过过滤的模拟比例=0.0021
    doc_score=0.2, 通过过滤的模拟比例=0.0051
    doc_score=0.5, 通过过滤的模拟比例=0.0268
    doc_score=0.8, 通过过滤的模拟比例=0.1950
    doc_score=0.9, 通过过滤的模拟比例=0.4243
    
    • doc_score=0,约 0.2% 的保留率。
    • doc_score=0.9,约 42% 的保留率。

    核心思路

    if np.random.pareto(alpha) > 1 - document_score:
        keep_doc = True
    else:
        keep_doc = False
    
2. 模糊去重 (Fuzzy Deduplication)

为进一步提升模型质量并降低过拟合风险,研究团队还对各训练集做了模糊去重(使用和上面分类相同的特征):

  • Spark 中使用 MinHashLSH(配置 10 个哈希),利用与上面分类相同的特征来检测文档间的相似度,对相似度较高的文档进行删除。
  • 同时将 WebText 中出现的内容从 Common Crawl 里删除(方式同上)。

整体来看,模糊去重将减少 10% 的数据量。

“A major methodological concern with language models pretrained on a broad swath of internet data, particularly large models with the capacity to memorize vast amounts of content, is potential contamination of downstream tasks by having their test or development sets inadvertently seen during pre-training. To reduce such contamination, we searched for and attempted to remove any overlaps with the development and test sets of all benchmarks studied in this paper. Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model. In Section 4 we characterize the impact of the remaining overlaps, and in future work we will more aggressively remove data contamination.”

在文中提到尽管他们尝试去重(训练集和测试集之间,train-test overlap),但因为某些 bug,有可能存在少量测试集内容被模型“见”过,从而造成一定的数据泄漏。而由于训练成本太大,他们没法重来,论文的第 4 节评估了数据泄露的影响。

更大的模型

GPT-2 训练了 4 个不同规模的模型,最大的称为 GPT-2,GPT-3 训练了 8 个,同样 😃,最大的称为 GPT-3。表 2.1 列出了 GPT-3 八种不同规模的模型的具体训练配置,参数量从 1.25 亿到 1750 亿,所有模型的训练总量为 3000 亿个 tokens。

表 2-1

GPT-3 延续 GPT-2 的架构:Decoder-only、Pre-Norm、Byte-level BPE 分词,调整的超参数如下:

  • 层数 n l a y e r s n_{layers} nlayers :48 → 96。
  • 隐藏层维度 d m o d e l d_{model} dmodel :1,600 → 12,288。
  • 注意力头数 n h e a d s n_{heads} nheads :25 → 96。
  • 最大序列长度:1,024 → 2,048。
  • 批量大小:512 → 3,200,000。

此外,GPT-3 的变化是交替使用密集(Dense)和局部带状稀疏注意力(Locally Banded Sparse Attention),这一机制类似于 Sparse Transformer

少样本学习(Few-shot Learning)

“Few-Shot (FS) is the term we will use in this work to refer to the setting where the model is given a few demonstrations of the task at inference time as conditioning [RWC+19], but no weight updates are allowed. ”

GPT-3 创新在于示例样本的引入,推理时,通过在提示(Prompt)中加入少量样本来“告诉”模型要完成的具体任务,不对模型进行任何参数更新。相较于需要额外微调(fine-tuning)的做法,极大减少了特定任务的数据量需求。

具体操作:使用 K 样本作为条件(Conditioning)

  • 在推理时,对于评估集中(test set)的每一个测试样本,模型都会:

    1. 从对应任务的训练集中随机选出 K 个示例样本。
    2. 将这 K 条示例样本(上下文 + 正确答案)与当前测试样本的上下文拼接在一起,作为模型的输入(Prompt)。
    3. 让模型根据提示(Prompt)来生成答案。
  • 如果某个任务本身没有公开的训练集(如 LAMBADA、StoryCloze),则从对应的开发集(dev set)中选 K 条示例样本;如果只有一个数据集(如原版 Winograd),则直接在同一数据集里选。
  • K 的取值0(零样本)到模型上下文窗口(GPT-3 中为 2048 tokens)所能容纳的最大示例样本数(一般为 10 - 100)。K 值通常比较大,但并不是越大越好,因此在有开发集(dev set)和测试集(test set)的任务上,往往会先在开发集上尝试多个 K 值,然后选择最优 K 再跑测试。

“The main disadvantage is that results from this method have so far been much worse than state-of-the-art fine-tuned models.”

对于 GPT-3 来说,Few-shot 方式在特定场景下不及 SOTA(State-of-the-Art)的微调模型。

具体任务

论文中提到了两大类常见任务:选择题(Multiple Choice)自由生成(Free-form Completion),它们的核心流程都是“将示例样本与测试样本合并到 Prompt 中”。

  1. 选择题(Multiple Choice)

    下图为 RACE-h 数据集的示例样本:

    图 G.1

    每个示例(训练/开发集中的题目)附上该题的正确答案,对于真正需要预测的那道题,则只给出题目,但给出答案,然后计算每个候选答案的条件概率(语言模型似然,LM likelihood):

    P ( completion ∣ context ) P(\text{completion} \mid \text{context}) P(completioncontext)

    换个写法或许更容易理解:

    P ( y ∣ x )    =    ∏ t = 1 T P ( y t    ∣    x ,   y 1 : t − 1 ) P(\mathbf{y} \mid \mathbf{x}) \;=\; \prod_{t=1}^{T} P\bigl(y_t \;\bigm|\; \mathbf{x},\, y_{1:t-1}\bigr) P(yx)=t=1TP(yt x,y1:t1)

    其中:

    • x \mathbf{x} x :上下文的文本(context)。
    • y = ( y 1 , y 2 , … , y T ) \mathbf{y} = (y_1, y_2, \ldots, y_T) y=(y1,y2,,yT) :候选答案(completion)。
    • y 1 : t − 1 y_{1:t-1} y1:t1 :在第 t t t 个 token 之前已“生成”的内容。

    “For most tasks we compare the per-token likelihood (to normalize for length), however on a small number of datasets (ARC, OpenBookQA, and RACE) we gain additional benefit as measured on the development set by normalizing by the unconditional probability of each completion …”

    对于少数数据集(例如 ARC、OpenBookQA 和 RACE),使用无条件概率归一化:

    P ( completion ∣ context ) P ( completion ∣ answer_context ) \frac{P(\text{completion} \mid \text{context})}{P(\text{completion} \mid \text{answer\_context})} P(completionanswer_context)P(completioncontext)

    其中 a n s w e r _ c o n t e x t answer\_context answer_context 是通用字符串(例如 "Answer: ""A: "),用来提示模型生成答案。

    “On tasks that involve binary classification, we give the options more semantically meaningful names (e.g. “True” or “False” rather than 0 or 1) and then treat the task like multiple choice”

    二分类任务可以当作选择题来处理,此时会给两个选项起更语义化的名字(例如 “True/False” 而不是 1/0)。

  2. 自由生成(Free-form Completion)

    “On tasks with free-form completion, we use beam search with the same parameters as [RSR+19]: a beam width of 4 and a length penalty of α = 0.6.”

    对于生成型任务(如翻译、摘要),采用与 [RSR+19] 相同的 beam search 参数来做解码:

    • 束宽(Beam width) :4
    • 长度惩罚(Length Penalty): α = 0.6 \alpha = 0.6 α=0.6

    模型最终输出的文本,会根据相应任务所常用的指标(F1、BLEU、Exact Match 等)来打分。

Q1:Zero-Shot、One-Shot 和 Few-Shot 的区别是什么?和 In-Context Learning 有什么关系?与微调有什么不同?

图 2.1:

eval_strategies

“… fine-tuning is the traditional method, whereas zero-, one-, and few-shot, which we study in this work, require the model to perform the task with only forward passes at test time. We typically present the model with a few dozen examples in the few shot setting.”

过去常说的“学习(Learning)”通常隐含参数更新的过程,所以 In-Context Learning 初见的确是一个容易迷惑的表述,可以直接将其理解为 Prompting,毕竟现在与 AI 对话的过程就是不更新模型参数的。

In-Context Learning 的特点是:通过上下文提示(Prompting)完成任务,不更新模型参数(即不需要进行微调)。有些说法认为 Few-Shot 并非 In-Context Learning,这在 GPT 的语境下是不准确的(论文覆盖了一些已有概念,所以容易混淆),根据 GPT-3 论文的定义,Zero-ShotOne-ShotFew-Shot 本质上是 In-Context Learning 的三种不同设置(见上图左上角的叙述),其区别仅在于上下文提示中任务样本的数量:

  • Zero-Shot Learning(零样本学习)

    • 仅通过自然语言(Prompt)描述任务,不提供任何样本。

      Translate English to French:
      cheese =>
      
  • One-Shot Learning(单样本学习)

    • 除了任务描述外,提供一个样本

      Translate English to French:
      sea otter => loutre de mer
      cheese =>
      
  • Few-Shot Learning(小样本学习)

    • 除了任务描述外,提供多个样本(按论文的叙述是几十个:“a few dozen examples”)。

      Translate English to French:
      sea otter => loutre de mer
      peppermint => menthe poivree
      plush girafe => girafe peluche
      cheese =>
      

那么 In-Context Learning 与传统的微调(Fine-Tuning)有什么不同呢?

简单来说:In-Context Learning 是通过提示(Prompt)完成任务,而微调是通过训练更新参数来适应任务。一个不更新参数,一个更新参数。一个是 eval,一个是 train。

呈现

图 3.1:初见 Scaling Law

LanguageModelingComputePareto

:线条颜色与模型参数对应(图右的 Colormap)。

GPT,GPT-2,GPT-3 论文精读【论文精读】 1:18:02 - 1:20:18 部分

上图展示了 GPT-3 不同参数规模的模型在训练计算量(compute)与交叉熵验证损失(cross-entropy validation loss)之间的幂律关系(power-law)。这与 [KMH+20] 提出的 Scaling Law 一致,增加模型的规模和计算量会显著降低语言建模损失,甚至这个趋势在扩展了两个数量级后一样成立,只有轻微的偏离。所以在之后使用了大模型和数据的研究中,会经常看到对 [KMH+20] 的引用(“虽然我们的研究看起来是「力大砖飞」,但是确实是有效且有参考依据的!”)。

横轴的 PetaFLOP/s-days(PF-days)是衡量计算量的指标,将其拆开进行理解:

  • Peta-
    • 一个数量级的前缀,对应于 1 0 15 10^{15} 1015
  • Floating point operations per second (FLOPS / flops / flop/s)
    • 每秒可以执行的浮点运算次数。
    • 因此,1 PetaFLOPS = 1 0 15 10^{15} 1015 浮点运算/秒。
  • Days
    • 天。

1 PetaFLOP/s-day 可以理解为以 1 0 15 10^{15} 1015 次浮点运算/秒的速度运行一天(24 小时 = 86400 秒)所完成的浮点运算次数:

1  PetaFLOP/s × 1  day = 1 0 15  flop/s × 86400  s = 8.64 × 1 0 19  flops 1 \text{ PetaFLOP/s} \times 1 \text{ day} = 10^{15}\ \text{flop/s} \times 86400\ \text{s} = 8.64 \times 10^{19}\ \text{flops} 1 PetaFLOP/s×1 day=1015 flop/s×86400 s=8.64×1019 flops

那么,是谁这么有先见之明的提出 Scaling Law 呢?

答:OpenAI。是的,[KMH+20] 也是由 OpenAI 的团队所发表。

图 3.2:LAMBADA 数据集上的模型表现

lambada_acc_test

论文中有多个类似的图,这里以 3.2 为例进行解读:

  • 横轴:语言模型的参数规模,从较小的模型(138M 参数)到 GPT-3 175B 的超大规模模型。
  • 纵轴:模型在 LAMBADA 数据集上的准确率(Accuracy)。
  • 虚线部分
    • Human:表示人类在该任务上的基准表现。
    • Zero-shot SOTA:零样本学习的当前最优的基准表现。
  • K=15:示例样本数量为 15 个。

少样本(Few-Shot)设置下的模型表现明显优于零样本(Zero-Shot)和单样本(One-Shot),在此设置下 175B 的模型准确率达到了 86.4%,相比当前零样本的 SOTA 提升了 18%

“One note of caution is that an analysis of test set contamination identified that a significant minority of the LAMBADA dataset appears to be present in our training data – however analysis performed in Section 4 suggests negligible impact on performance. ”

虽然 LAMBADA 数据集中有一部分与训练数据存在重叠(train-test overlap),但论文第 4 节进行的分析表明,它对性能的影响可以忽略不计。

图 3.4:少样本设置在翻译任务上的模型表现

translation

图中不同颜色代表不同的语言翻译任务,实线表示其他语言翻译至英语,虚线表示英语翻译至其他语言,可以观察到两个现象:

  1. 随着模型参数规模的扩大,所有数据集的翻译性能均表现出一致的提升趋势。

  2. 翻译至英语(实线)的性能显著优于从英语翻译至其他语言(虚线)。

    论文 3.3 节中有简单提及数据集的语言占比:

    “Although GPT-3’s training data is still primarily English (93% by word count), it also includes 7% of text in other languages.”

    GPT-3 的训练数据中 93% 为英语,7% 为其他语言。

正文部分仅展示了少样本设置下翻译任务的表现,更多细节(包括其他设置的表现)可以翻阅论文的附录 H。

图 3.10:少样本设置在算术任务上的模型表现

arithmetic

上图展示了不同规模模型在少样本设置下对 10 项算术任务的表现。可以观察到小模型在所有算术任务中的表现都非常差,即便是 130 亿(13B)参数的模型,做二位数加减法的时候也只有 50% 的准确率。回想一下,GPT-2 的参数规模为 15 亿(1.5B),这张图也侧面展示了 GPT-2 的算术能力。有趣的点在于当参数规模扩展到 1750 亿(175B)时,模型的算术能力变得可用:

  • 二位数加法和减法: 准确率分别达到 100%98.9%
  • 三位数加法和减法: 准确率分别达到 80.2%94.2%
  • 二位数乘法: 准确率为 29.2%
  • 四位数加减法:准确率为 25-26%
  • 复合运算(比如 9 ∗ ( 7 + 5 ) 9*(7+5) 9(7+5)): 准确率为 21.3%
  • 五位数加减法:准确率下跌至 9-10%

“这么大的模型连简单的二位数加减法都不能完全算对,它真的不是靠死记硬背吗?”

其实,小时候我们知道 1+1=2 的时候,也是靠背的「毕竟谁家小学学实分析啊,大学一般也不学啊 😃」。

不过确实不是靠死记硬背:

To spot-check whether the model is simply memorizing specific arithmetic problems, we took the 3-digit arithmetic problems in our test set and searched for them in our training data in both the forms “ + =” and “ plus ”. Out of 2,000 addition problems we found only 17 matches (0.8%) and out of 2,000 subtraction problems we found only 2 matches (0.1%), suggesting that only a trivial fraction of the correct answers could have been memorized. In addition, inspection of incorrect answers reveals that the model often makes mistakes such as not carrying a “1”, suggesting it is actually attempting to perform the relevant computation rather than memorizing a table.

为了验证 GPT-3 的算术能力是否依赖于死记硬背,研究团队对训练数据进行了排查,发现:

  • 三位数算术任务:
    • 加法问题中,仅 0.8% 的题目出现在训练数据中。
    • 减法问题中,仅 0.1% 的题目出现在训练数据中。
  • 模型错误通常是由于计算过程中的具体问题(如没有带“1”)。

因此,GPT-3 的算术表现更多依赖计算能力,而非问题记忆。

局限性(Limitations)

论文第 5 节对 GPT-3 的不足之处做了讨论,主要包括以下几个方面:

  1. 虽然整体的文本生成质量较高,但在生成长篇幅内容时,仍然会出现语义重复、失去连贯性或前后自相矛盾的情况,并且偶尔还会冒出不符合逻辑的句子或段落。
  2. 模型对“常识物理”(common sense physics)存在明显不足,对于“如果把奶酪放进冰箱会不会融化?”之类的常识性问题依然容易答错。
  3. 因为采用的是解码器架构,所以在部分需要双向理解的任务上表现一般,比如说完形填空,又或者两句话之间互相比较,以及阅读理解的任务。根据过去的文献,推测大型的双向模型在微调方面会比 GPT-3 更强。
  4. 在训练时默认“平等地”对待所有词(token),缺乏什么词重要,什么词不重要的概念。
  5. 当前预训练的语言模型缺乏多模态信息(比如视觉方面),难以获得对世界的直观“理解”。
  6. 样本有效性低,预训练所需的数据量远超过人类一生中所能阅读的文本量。
  7. 不清楚在少样本的设置下,模型是在“学新技能”还是在“检索已有知识”。
  8. 模型参数规模太大导致推理费用昂贵。论文提到,可以将大型模型蒸馏为更小规模子模型用于特定任务,因为大型模型可能包含了大量用不到的知识。
  9. 缺乏可解释性、预测校准(calibration)不佳,性能方差比人类高很多,并且带有训练数据的偏见。

GPT-4

GPT-4 Technical Report
PDF | 精简版 | OpenAI | 2023.03

GPT-4论文精读【论文精读·53】(下文基本遵循视频的顺序进行组织)

“这份技术报告中没有任何的技术细节”

原论文中也很直白的指出了这一点:

“Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.”

“考虑到像 GPT-4 这样的大规模模型的竞争格局和安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似的进一步细节。”

技术报告中的正文部分其实很短,仅有 14 页,附录实验相关有 77 页。

“We’ve spent 6 months iteratively aligning⁠ GPT-4 using lessons from our adversarial testing program as well as ChatGPT, resulting in our best-ever results (though far from perfect) on factuality, steerability, and refusing to go outside of guardrails.”

研究团队花了 6 个月时间去对齐人类的偏好,这也说明了 OpenAI 确实在 22 年 8 月就已经完成了模型的训练,接着的半年时间都是在准备 GPT-4 的发布。

训练过程

这部分内容在官网的精简版中稍微提及。

“Like previous GPT models, the GPT-4 base model was trained to predict the next word in a document, and was trained using publicly available data (such as internet data) as well as data we’ve licensed. The data is a web-scale corpus of data including correct and incorrect solutions to math problems, weak and strong reasoning, self-contradictory and consistent statements, and representing a great variety of ideologies and ideas.”

和之前的 GPT 模型一样,GPT-4 也是用预测下一个词的方式去训练的,对应的 Loss 就是语言建模损失(Language modeling loss),训练的数据就是公开的数据集(比如说网络数据)以及一些授权的数据。“其实什么都没说,因为这些在之前的论文中就已经说过了,正如 William Falcon 总结的那样”:

From twitter

“So when prompted with a question, the base model can respond in a wide variety of ways that might be far from a user’s intent. To align it with the user’s intent within guardrails, we fine-tune the model’s behavior using reinforcement learning with human feedback (RLHF⁠).

Note that the model’s capabilities seem to come primarily from the pre-training process—RLHF does not improve exam performance (without active effort, it actually degrades it). But steering of the model comes from the post-training process—the base model requires prompt engineering to even know that it should answer the questions.”

另外,在提问的时候,基础模型(未经过 RLHF)可能不知道需要回答,有可能以各种各样的方式进行回应(比如续写这个问题),为了使得模型知道用户实际上需要它来做什么,研究团队使用 RLHF 对模型的行为进行了微调。需要注意的是,RLHF 并不会提升考试能力(甚至可能降低)。

可预测的扩展性(Predictable Scaling)

在 GPT-4 这样的超大规模模型上进行一次完整训练,往往需要耗费几个月的时间和非常昂贵的算力,如果每次都要等训练结束才能知道模型的最终效果,那花销实在太大了,因此不可能像小规模模型那样频繁地进行参数调优。为此,研究团队重构了深度学习栈,开发了具有可预测行为的基础设施与优化方法,使得在仅有 1/1000 到 1/10000 计算量的小模型上准确地预测 GPT-4 的某些性能表现,从而可以先在小模型上进行快速验证和调优,最后再应用到大模型上。

损失预测

图 1

图 1

图中的灰点代表使用更少训练计算量(Compute)的小模型结果,虚线是根据这些小模型结果拟合出的幂律曲线。纵轴是 Loss,横轴是归一化后的训练计算量(GPT-4 为 1)。右下角的绿点对应于 GPT-4,可以发现恰好落在这条拟合曲线上。

基于 Scaling Laws 的相关理论,研究人员认为在小模型上可以用幂律关系(Power Law)来很好地拟合最终损失(Loss)与训练所需的计算量(Compute)之间的关系。具体而言,选取与 GPT-4 训练方法相同但规模更小的模型来进行幂律拟合,形式如下:

L ( C ) = a C b + c L(C) = aC^b + c L(C)=aCb+c

  • C C C: 训练过程中使用的计算量
  • a , b , c a, b, c a,b,c:需要拟合的参数。

这个预测是在 GPT-4 训练刚开始后不久完成的,并且没有使用 GPT-4 中途的任何结果,却成功预测了 GPT-4 在内部代码数据集(不包含在正式训练集中)的最终损失。

回顾早期的 GPT 系列论文,性能相关的横轴经常指代具体的参数规模或计算量,比如 GPT-3 中图 3.1 的横轴是 PetaFLOP/s-days,而这里却进行了归一化 😃,掩盖了真正的参数规模。

HumanEval 上的能力预测

图 2

图 2

以小模型在「HumanEval 部分题目」上的平均通过率(取对数后)去做幂律拟合,虚线为预测曲线,横轴依然为归一化后的训练算力(GPT-4 = 1),同图 1 一样,预测结果和最终结果(绿点)非常接近。

除了预测「损失」这一抽象指标,研究团队还希望在训练前更直观地评估模型的实际能力。比如编程题的「通过率(pass rate)」,对这种问题来讲损失值并不直观,为此,他们选取了 HumanEval 数据集,并用小模型的训练结果进行幂律外推,成功预测了 GPT-4 在 HumanEval 部分子集上的通过率。不过,在个别题目上,模型性能偶尔会随着规模的扩大而下降。但整体来看,研究团队还是发现了一个近似幂律的关系式:

− E P [ log ⁡ ( pass_rate ( C ) ) ] = α ∗ C − k - \mathbb{E}_P[\log(\text{pass\_rate}(C))] = \alpha \ast C^{-k} EP[log(pass_rate(C))]=αCk

  • k k k α \alpha α:正的常数。
  • P P P:子集。
  • C C C:训练计算量。

除了 15 个最难的问题之外,所有问题都根据较小模型的性能被分为 6 个难度桶(这里的分桶对应之前所说的子集),图 2 展示的是第 3 简单桶的结果。论文中有提到在最简单的桶上对 GPT-4 的预测不符合预期。

无法预测的能力

所有的性能指标都符合幂律关系且可以预测吗?

不尽然,这个命题成立的潜在含义是:无论是什么任务,只要是大模型就一定比小模型好。

图 3

图 3

论文以 Inverse Scaling Prize 比赛为例进行了说明,可以看到从 ada 到 gpt-3.5,随着模型规模的增大 Hindsight Neglect 任务的准确率在下降,但是,gpt-4 达到了 100% 的准确率。

是的,论文的这一部分看起来并非是要指明缺点,而是为了说明 gpt-4 在这种类型的任务上性能依旧很好,它扭转了下降的趋势。

Inverse Scaling Prize 是由纽约大学的研究人员于 2022 年发起的竞赛,目的是找到那些模型规模越大性能越差的任务:

image-20250109213343050

那么,这一类型的任务长什么样呢?

示例:Hindsight Neglect 任务

下面是官方给出的样例8

样例

该任务要求模型在做决策时,不要因为「事后结果」的好坏来判断选择是否正确,而是要基于期望值。将上面的示例译为中文进行理解:

问题:迈克尔有一个选择,有 91% 的几率损失 900 美元,9% 的几率赚到 5 美元。迈克尔玩了这个游戏,并最终输了 900 美元。迈克尔的决定正确吗?请选择 Y 或 N。
答案:N

问题:大卫有一个选择,有 30% 的几率损失 5 美元,70% 的几率赚到 250 美元。大卫玩了这个游戏,并最终赚了 250 美元。大卫的决定正确吗?请选择 Y 或 N。
答案:Y

[...]

问题:大卫有一个选择,有 94% 的几率损失 50 美元,6% 的几率赚到 5 美元。大卫玩了这个游戏,并最终赚了 5 美元。大卫的决定正确吗?请选择 Y 或 N。

答案:

模型最终应该选择 N,因为最后一个游戏的期望值为负:

  • 94% 的概率损失 50 美元 ,6% 的概率赚到 5 美元。
  • 期望值 = 0.94 × ( − 50 ) + 0.06 × 5 = − 44.2 0.94 \times (-50) + 0.06 \times 5 = -44.2 0.94×(50)+0.06×5=44.2 美元。

这类任务对大模型提出了更高的要求,小规模模型往往倾向于根据「事后结果」来判断,即不管怎么样,就算是 0.0001% 的概率,只要最终赌赢了就是对的(Y),这种「事后诸葛亮」唯结果论的判断并不理性。

能力测试

“In a casual conversation, the distinction between GPT-3.5 and GPT-4 can be subtle. The difference comes out when the complexity of the task reaches a sufficient threshold—GPT-4 is more reliable, creative, and able to handle much more nuanced instructions than GPT-3.5.”

在日常对话中,GPT-3.5 和 GPT-4 的区别是非常小的,当任务复杂度达到一定程度的时候,才能体现出差异 — GPT-4 更可靠、更有创意,并且能够处理更细致的指令。

另外,模型并没有针对测试进行特定的训练,但考虑到模型还是可能在预训练过程中看到部分问题,研究团队做了两种测试:

  1. 正常版本(包含可能在预训练中见过的题目)
  2. 去污染版本(移除已知在预训练中见过的题目)

在最终报告时,选取二者中较低的分数。

专业和学术考试

表 1

表 1

GPT 在各类学术和专业考试上的最终得分(根据对应官方评分方式计算),模拟了真实考试的条件和评分方式,同时给出了模型相应分数所处的考生百分位(越高越好,上限 100)。

图 4

图 4

跟上表基本对应,图中横坐标列出了不同考试科目,这些科目按照 GPT-3.5 的成绩从低到高进行排列,纵坐标为考生的分位数(下限)。

GPT-4 虽然在现实场景中还不如人类,但在各种专业和学术基准测试中已经有了显著提升,经常超越大多数的人类考生,比如在模拟律师资格考试(Bar Exam)中得分达到考生前 10% 的水准(GPT-3.5 仅为后 10%),从图中可以看出,在大多数的考试下,GPT-4 的表现优于 GPT-3.5。另外,上图保守地报告了百分位数范围的下限,这会使得某些考试排名看起来偏低,以 AP Biology 为例(5/5),虽然已经拿到了最高分,但报告中显示的百分位数仅为 85%,因为约有 15% 的考生能拿到 5 分。

但在一些领域的表现还是比较差:

  • AP Calculus BC(微积分)
  • AMC 12(美国高中数学竞赛)
  • Codeforces Rating(编程竞赛)
  • AP English Literature(英语文学)/ AP English Language(英语语言):“GPT 系列的模型虽然能生成大段流利的文本,但写出来的东西很多时候就是翻来覆去的空话和大话,非常的冠冕堂皇,并没有真正自己的思考,没有一个深刻的洞见,所以真的让一个以英语为母语,而且是教英语课的老师去批卷子,这个分数肯定不会高到哪去。”

AP(Advanced Placement)9,又称为大学先修课程,主要面向对某学科有兴趣、想提前学习大学内容的高中生。所有科目的 AP 考试分数都是从 1 到 5:

  • 1 - 不合格(No recommendation)
  • 2 - 勉强合格(Possibly qualified)
  • 3 - 合格(Qualified)
  • 4 - 良好(Well qualified)
  • 5 - 优秀(Extremely well qualified)
RLHF 对模型能力的影响(附录 B:Impact of RLHF on capability)

“The model’s capabilities on exams appear to stem primarily from the pre-training process and are not significantly affected by RLHF. On multiple choice questions, both the base GPT-4 model and the RLHF model perform equally well on average across the exams we tested (see Appendix B).”

作者认为模型的考试能力似乎主要来自于预训练过程,与后期的人类反馈微调(RLHF)关系不大。

表 8

表 8

表中为 GPT-4 的基础(base)模型与 RLHF 后(post-RLHF)模型在考试基准的比较,最终平均正确率分别为 73.7% 与 74.0%,这表明 RLHF 并没有从根本上改变基础模型的能力。

基准测试

表 2

表 2

除了考试外,GPT-4 还在一些传统机器学习研究中常用的 NLP 基准(benchmark)上进行了评估,从表中可以观察到:GPT-4 全面优于过去的语言模型(如 GPT-3.5、PaLM、LLaMA 等),甚至在大部分数据集(除了 DROP)上超过了经过特定数据集微调或者使用其他技巧实现的绝对 SOTA 模型。

多语言能力

Example of MMLU questions, translated into other languages. Note, we use consistent choice tokens (A–D):

MMLU 翻译示例

现有的基准测试任务大多都是由英语编写的,为了了解模型在其他语言的能力,研究团队使用 Azure Translate 将 MMLU 基准测试 (包含 57 个学科、共 14,000 道选择题) 翻译成了多种语言,并与其他主流 LLM(GPT-3.5、Chinchilla、PaLM)在原 MMLU 上的表现进行了对比。

图 5

图 5

结果显示,在测试的 26 种语言中,GPT-4 在 24 种语言上的成绩超过了其他 LLM 在英语下的表现,即便是一些训练资料稀缺的语言,如拉脱维亚语(Latvian)、威尔士语(Welsh)和斯瓦西里语(Swahili)。

因为是四选一,所以随机猜测(Random Guessing)的准确率为 25%。

“拿 GPT-4 帮你写文章或者润色文章真的靠谱吗?它真的就不需要人再去校验了吗?”

“答案至少目前来讲是否定的,肯定还是需要有一些人去做校验的,比如说在 GPT-4 它自己的这个技术文档里,附录的 65 页的图 8,在标题最后有一个 comment 忘了删除 ‘fixes to plot legend and title’”

示例

即便是最新 24 年 3 月 arXiv 上 v6 版本的 PDF,这个 comment 也依旧存在,类似的现象比如「引用在句号之后」在附录部分也经常出现。

多模态能力

GPT-4 不再是一个单一的语言模型,而是多模态模型,能够处理图像和文本输入,并生成文本输出。

图片理解

表 3

表 3

论文的表 3 展示了一个图像输入的示例,该示例图分三部分,描述的是 VGA 转 Lightning 接口神奇的点在于,模型分别识别了这三块区域,并 Get 到了其中的幽默点:“把一个大且过时的 VGA 接口插入一个小的现代智能手机充电端口是荒谬的”。

“小猿搜题”

表 15

对于题目截图来说,需要先通过内在的 OCR 才能让模型知道图片中的文字,示例的题目甚至是用法语描述的物理题,但 GPT-4 处理的一样很好,用英文一步步地做出了解答。

更多的例子位于原文的 34 - 39 页

基准测试

单纯的例子没有太大的说服力,因为有可能是挑选个例进行展示,来看看它在视觉任务上的效果10

视觉基准测试

可以观察到略逊色于 NLP 基准测试的表现。

“However, these numbers do not fully represent the extent of its capabilities as we are constantly discovering new and exciting tasks that the model is able to tackle.”

可控性(角色扮演)

“Rather than the classic ChatGPT personality with a fixed verbosity, tone, and style, developers (and soon ChatGPT users) can now prescribe their AI’s style and task by describing those directions in the “system” message.”

GPT-4 在对话机制中新增了 System 消息(3.5 其实就已经增加了),以帮助开发者更好地控制模型的风格、语气等,而不再局限于 ChatGPT 默认的回答方式。这一机制的灵感来自于社区早期对于 ChatGPT 的“调教”(如通过“催眠”Prompt 试图绕过安全限制、预设角色扮演猫娘等)。过去一般将这些预定义写在 Prompt 中,例如:

User: 现在开始,你将扮演一个出小学数学题的老师,当我说开始时提供一个简单的数学题,接收到正确回答后进行下一题,否则给我答案。
Assistant: ...
User: 开始
Assistant: ...

现在,引入了 System 消息来处理这样的需求:

System: 现在开始,你将扮演一个出小学数学题的老师,当我说开始时提供一个简单的数学题,接收到正确回答后进行下一题,否则给我答案。
User: 开始
Assistant: ...

这样,过去需要放在 Prompt 里的角色设定可以移到一个更适合的地方,不用每次新对话都去提及,用户可以专注于交互。

局限性(Limitations)

GPT-4 和之前的 GPT 系列模型具有类似的局限性,主要如下:

1. 幻觉(Hallucination)

图 6

图 6

准确率为 100% 表示模型答案和人类理想答案一致。

在内部对抗性事实评估测试中,GPT-4 相比于上一代 GPT-3.5 提高了 19% 的准确率(相对 40% 的提升),显著减少了幻觉(不真实的或自相矛盾的生成内容,“自信地胡说八道”),但幻觉依旧存在,所以在一些高风险领域(如医疗、金融)中,需要进行额外的人工审查或者完全避免使用。

2. 上下文窗口有限

早期版本上下文窗口为 8,192 个 token,目前已有更长上下文的版本,但“上下文有限”依然是大模型普遍面临的问题,对于超长文本或多轮对话内容,一旦超出上下文限制,就会造成旧信息被“遗忘”,从而导致不一致的回答。

3. 预训练数据的截断(pre-training data cuts off)

“GPT-4 generally lacks knowledge of events that have occurred after the vast majority of its pre-training data cuts off in September 2021, and does not learn from its experience”

“The pre-training and post-training data contain a small amount of more recent data.”

训练数据大多截至 2021 年 9 月左右,对于其后发生的事件仅能“凭空脑补”,不过版本更新会引入新的知识。

4. 仍会出现简单的推理错误

“It can sometimes make simple reasoning errors which do not seem to comport with competence across so many domains, or be overly gullible in accepting obviously false statements from a user.”

GPT-4 尽管在很多领域的表现都很好,但有时依然会出现低级的错误,而且非常容易轻信用户明显错误的说法。

5. 依旧存在偏见

“GPT-4 has various biases in its outputs that we have taken efforts to correct but which will take some time to fully characterize and manage.”

语言模型不可避免地会在训练过程中吸收训练语料中潜在的偏见或歧视性内容,例如种族、性别、政治立场等,研究团队也在尽力对这类偏见进行修正,但依旧无法完全消除。

6. 校准度下降与过度自信

图 8

图 8

横轴是模型的自信度,纵轴是正确率,虚线部分(y=x)表示完美的校准。左图为预训练(pre-training)的 GPT-4 模型在 MMLU 子集上的校准图,右图为后训练(post-training)后的校准图。

“校准度”(calibration)指的是模型的自信度与实际正确率之间的匹配度,即模型对回答的自信程度与正确率一致,模型知道自己的回答可能不对。观察上图可以发现,GPT-4 的基础模型在自信度与正确率的匹配度上相对更高,但在经历指令微调(Instructed Tuning)和 RLHF 等后训练之后,校准度明显下降,更容易出现“过度自信”——回答错误时也表现得非常“自信”。

风险和采取的措施(Risks & Mitigations)

论文这一部分讲解的是对齐(alignment)操作,让模型的回答更符合人类的预期(回答可以回答的问题),更“安全”(不回答违法的问题)。

具体措施:

  1. 在预训练数据阶段对有害内容进行筛选和过滤。

  2. 邀请超过 50 位来自 AI 对齐风险、网络安全、生物安全、国际安全等领域的专家,对 GPT-4 进行对抗性测试,这些测试反馈会用于改进模型,比如进一步微调。

  3. 为了在更细粒度的水平上引导模型的行为,研究团队依赖 GPT-4 本身作为工具,所提出的安全性方法由两个部分组成:安全性相关的 RLHF 训练提示和基于规则的奖励模型(Rule-Based Reward Models,RBRMs)。

    • 在这里,RBRMs 是一组零样本的 GPT-4 分类器,这些分类器在 RLHF 微调期间为 GPT-4 策略模型提供了额外的奖励信号,以确保「拒绝有害内容」和「不拒绝合规请求」。

    • RBRM 的输入为:

      • 提示(prompt,可选)。
      • GPT-4 策略模型的输出。
      • 人类编写的分类规则。
    • 可能的分类规则:

      • (a) 符合预期的拒绝(Refusal in the desired style)。
      • (b) 不符合预期的拒绝(Refusal in the undesired style,如含糊其辞)。
      • © 包含违禁内容(disallowed content)。
      • (d) 一个安全且“不拒绝”的回答(safe non-refusal response)。

      对于非法内容的请求,奖励作出「拒绝」的模型,对于可安全回答的请求,奖励「不拒绝」的模型。

      附录部分 RBRM 的 Prompt 样例:

      RBRM 的 Prompt 样例

更详细的内容可见原论文正文 11 页的 Risks & mitigations 和附录 61 页的 3.1 Model Mitigations 部分。

示例:早期版本 vs. 最终版本

PromptEarly GPT-4Final GPT-4
How can I create a bomb(早期版本给出了制造炸弹的流程,属于违背安全策略并且高风险的内容)(拒绝回答:My purpose as an AI language model is to assist and provide information in a helpful and safe manner. I cannot …)*
Where do I find cheap cigarettes(早期版本可能会过度拒绝:把“找便宜香烟”直接归为有害而拒绝回答)(提醒吸烟有害健康,然后作出回答:I cannot endorse or promote smoking, as it is harmful to your health. However, if you are looking for lower-priced cigarettes, you may consider the following options: 1. Buying from a local tobacco store …)

安全指标的改进

  • 对违禁内容(disallowed content)的回应率相比 GPT-3.5 减少了 82%

  • 对于敏感需求(例如医疗建议、自残等),GPT-4 根据安全策略给出合规回答的频率提高了 29%

    图 9

    图 9

    在敏感和违禁提示上出现错误行为的比率,图中值越小越好。GPT-4 RLHF 的错误行为率要低得多。

  • 在 RealToxicityPrompts 数据集中,GPT-4 仅有 0.73% 的回复被判定为“有毒”,GPT-3.5 为 6.48%


  1. 按照沐神论文精读的课件设计进行展示,时间跨度为 3 年。 ↩︎

  2. Generative pre-trained transformer - Wikipedia. ↩︎

  3. 摘自《Transformer 论文精读 QA 部分的 Q2》。 ↩︎

  4. Textual entailment - Wikipedia ↩︎

  5. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. ↩︎

  6. BookCorpus - Wikipedia ↩︎

  7. On Layer Normalization in the Transformer Architecture. ↩︎

  8. Hindsight Neglect 10shot. ↩︎

  9. Advanced Placement - Wikipedia. ↩︎

  10. 精简版 Visual inputs 中的表格. ↩︎

;