Bootstrap

BERT 论文阅读

BERT 论文阅读

一、背景

​ 2018年,由 Google 团队发布的预训练模型 BERT(Bidirectional Encoder Representations from Transformers)在自然语言处理领域掀起了巨大浪潮。该模型发布于论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,实现了包括 GLUE、MultiNLI 等七个自然语言处理评测任务的 the-state-of-art,堪称里程碑式的成果。自 BERT 推出以来,预训练+微调的模式开始成为自然语言处理任务的主流,不仅 BERT 自身在不断更新迭代提升模型性能,也出现了如 MacBERT、BART 等基于 BERT 进行优化提升的模型。可以说,BERT 是自然语言处理的一个阶段性成果,标志着各种自然语言处理任务的重大进展以及预训练模型的统治地位建立。时至今天,BERT 仍然是自然语言处理领域最常用、最重要的预训练模型。

​ 本文主要阅读并总结了论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,分析了 BERT 的基本原理与架构,同时基于之前解读的一些自然语言处理经典论文,简要分析了 BERT 的思想沿承与开创性意义。

二、思想沿承

​ 自然语言处理领域一直在发展变化,能够在各种任务上达到最优效果的模型、算法也层出不穷。但纵观自2013年神经网络词向量登上时代舞台至今,通过几个典型模型、经典论文,我们仍然可以发现自然语言处理领域主流思想的演变过程。2013年,Word2Vec 的提出意味着神经网络词向量成为了自然语言处理的重要组成部分,其蕴含深层词义、维度合适的优点使其在各类任务中被广泛使用,基于神经网络词向量来进一步探究模型几乎成为了领域的思想定式。

​ 但是,Word2Vec 终究是静态词向量,无法解决一词多义、复杂特征等问题。2018年,ELMo 模型的提出拉开了动态词向量、预训练模型的时代大幕。ELMo 模型基于双向 LSTM 架构,在训练数据上基于语言模型进行预训练,再针对下游任务进行微调,表现出了更加优越的性能,标志着预训练+微调范式的诞生。

​ 但是,ELMo 使用的双向 LSTM 架构存在难以解决长期依赖、并行效果差的天生缺陷,ELMo 本身也保留了词向量作为特征输入的应用,并没能一锤定音地敲定预训练+微调范式的主流地位。2017年,Transformer 模型的提出,为自然语言处理领域带来了一个新的重要成员——Attention 架构。基于 Attention 架构,同样在2018年,OpenAI 提出的 GPT 模型基于 Transformer 模型,结合 ELMo 模型提出的预训练+微调范式,进一步刷新了众多自然语言处理任务的上限。2023年爆火出圈的 ChatGPT 就是以 GPT 模型作为基础架构的。

​ 从静态编码到神经网络计算的静态词向量,再到基于双向 LSTM 架构的预训练+微调范式,又诞生了基于 Transformer的预训练+微调模式,预训练模型逐步成为自然语言处理的主流。但,真正奠定预训练+微调范式的重要地位的,还是之后提出的 BERT。BERT 可以说是综合了 ELMo 和 GPT,使用预训练+微调范式,基于 Transformer 架构而抛弃了存在天生缺陷的 LSTM,又针对 GPT 仅能够捕捉单向语句关系的缺陷提出了能够捕捉深层双向语义关系的 MLM 预训练任务,从而将预训练模型推向了一个高潮。要理解 BERT,势必要先理解 Word2Vec、ELMo 与 Transformer,如有不太清楚的读者,欢迎阅读笔者之前的几篇经典论文解读。接下来,将简述 BERT 的基本原理与架构。

三、基本原理

​ BERT 的模型架构并不复杂,也并非其创新之处。BERT 直接使用了 Transformer 的 Encoder 作为整体架构,并未作出太多改进与创新。那么,其为何能够深层拟合双向语义特征,实现远超基准 Transformer 模型的效果呢?其最核心的思想在于其提出的新预训练任务——MLM(Masked Language Model)和 NSP(Next Sentence Prediction)。

​ MLM 任务,是 BERT 能够深层拟合双向语义特征的基础。简单来讲,MLM 任务即以一定比例对输入语料的部分 token 进行遮蔽,替换为 (MASK)标签,再让模型基于其上下文预测还原被遮蔽的单词,即做一个完形填空任务。由于在该任务中,模型需要针对 (MASK) 标签左右的上下文信息来预测标签本身,从而会充分拟合双向语义信息。

​ 例如,原始输入为 I like you。以30%的比例进行遮蔽,那么遮蔽之后的输入可能为:I (MASK) you。而模型的任务即为基于该输入,预测出 (MASK) 标签对应的单词为 like。

​ NSP 任务,是 BERT 用于解决句级自然语言处理任务的预训练任务。BERT 完全采用了预训练+微调的范式,因此着重通过预训练生成的模型可以解决各种多样化的下游任务。MLM 对 token 级自然语言处理任务(如命名实体识别、关系抽取等)效果极佳,但对于句级自然语言处理任务(如句对分类、阅读理解等),由于预训练与下游任务的模式差距较大,因此无法取得非常好的效果。NSP 任务,是将输入语料都整合成句对类型,句对中有一半是连贯的上下句,标记为 IsNext,一半则是随机抽取的句对,标记为 NotNext。模型则需要根据输入的句对预测是否是连贯上下句,即预测句对的标签。

​ 例如,原始输入句对可能是 (I like you ; Because you are so good) 以及 (I like you; Today is a nice day)。而模型的任务即为对前一个句对预测 IsNext 标签,对后一个句对预测 NotNext 标签。

​ 基于上述两个预训练任务,BERT 可以在预训练阶段利用大量无标注文本数据实现深层语义拟合,从而取得良好的预测效果。BERT 在 ELMo 的预训练+微调范式基础上进行了进一步提升,ELMo 模型在微调时尚需改进模型架构,而 BERT 则追求预训练与微调的深层同步,由于 Transformer 的架构可以很好地支持各类型的自然语言处理任务,从而在 BERT 中,微调仅需要在预训练模型的最顶层增加一个 SoftMax 分类层即可。同样值得一提的是,由于在实际下游任务中并不存在 MLM 任务的遮蔽,因此在策略上进行了一点调整,即对于选定的遮蔽词,仅 80% 的遮蔽被直接遮蔽,其余将有 10% 被随机替换,10% 被还原为原单词。

在这里插入图片描述

四、重要意义

​ 相比起模型上的创新,BERT 最主要的创新即在于 MLM、NSP 等预训练任务的提出,尤其是 MLM 任务,为自然语言预训练模型提供了一个崭新而重要的思路,被之后的各种模型广泛使用。而更重要的是,BERT 彻底奠定了预训练+微调范式的主流地位。在 BERT 之前,ELMo 尚且需要调整模型架构来进行微调,而 BERT 仅需要针对下游任务添加一个顶层即可,更加便捷也使两个阶段更加一致,从而提升了模型在各类下游任务中的表现。自 BERT 之后,预训练+微调范式成为了自然语言处理领域的核心手段,因此,要理解当下自然语言处理领域的诸多模型、成果,理解 BERT 一定是首先要进行的。

;