文章目录 1.前言2. BERT2.1 引入2.2 以前的工作2.2.1 feature-based 方法2.2.2 fine-tuning 方法2.2.3 迁移学习方法 2.3 BERT架构2.3.1 MLM2.3.2 NSP 2.4 实验2.4.1 BERT模型的效果2.4.2 验证性实验 3.ALBERT3.1 引入3.2 相关工作3.2.1 cross-layer parameter sharing(交叉层的参数共享)3.2.2 sentence-order prediction (SOP,句子顺序预测) 3.3 ALBERT的模型3.3.1 factorized embedding parameterization3.3.2 Cross-layer parameter sharing3.3.3 Inter-sentence coherence loss. 3.4 实验3.4.1 BERT和ALBERT的对比3.4.2 交叉层参数共享实验3.4.2 SOP 4. 参考