在自然语言处理(NLP)领域,预训练语言模型(PLM)已经成为了一个重要的研究方向。预训练语言模型主要有三种网络架构:编码器、解码器和编码器-解码器。本文将详细介绍这三种架构及其典型模型,并通过形象的例子来说明它们的应用和原理。
一、编码器
编码器架构主要用于处理和理解输入信息。编码器模型具有双向的上下文感知能力,即它们可以同时考虑一个词的前后文信息。这种双向特性使得编码器非常适合需要理解整个句子的任务,如文本分类、命名实体识别等。
可以把编码器想象成一个“超级阅读者”,它不仅能读懂每个单词,还能理解整个句子甚至段落的意义。这个“超级阅读者”有一个特别的能力,就是能同时看到一个单词的前后文。
1、例如:文本分类
假设我们有一段新闻文章,需要判断这篇文章是关于体育、科技还是娱乐。编码器模型就像一个阅读专家,会仔细阅读整篇文章,理解每个词的意思和它在句子中的位置。通过这种方式,模型可以准确地判断出文章的主题。
2、BERT的特点
-
双向编码:BERT就像一个同时从左到右和从右到左阅读的专家。例如,在句子“他在看电影”中,BERT可以同时考虑“他”和“电影”来理解“在看”的意义。
-
MLM训练任务:BERT通过遮蔽输入句子中的部分单词来训练自己预测这些单词。想象一下你在阅读“他在[MASK]电影”时需要猜出[MASK]的词是“看”,BERT也是通过这样的方式学习的。
-
句子级别的预训练任务:BERT还会通过预测两个句子是否相邻来学习句子间的关系,这就像通过判断两段文字是否连贯来理解文章的整体结构。
二、解码器
解码器架构主要用于生成输出信息。与编码器不同,解码器只能考虑到过去的词,而不能看到未来的词。这种特性使得解码器非常适合于生成任务,如文本生成、对话系统等。
可以把解码器想象成一个“故事作家”,这个作家每次只能看他已经写过的内容,不能预先看到未来要写的部分。因此,解码器非常适合生成任务,比如写作和对话系统。
1、例子:文本生成
假设我们希望生成一段关于天气的描述。我们可以给模型提供一个开头,比如“今天的天气”,然后解码器模型就像一个作家逐词生成接下来的内容,直到完成一整段描述。
2、GPT的特点
-
单向编码:GPT就像一个只能从左到右写作的作家。例如,在写“今天的天气很好”时,GPT会先写“今天的”,再写“天气”,最后写“很好”。
-
自回归模型:GPT通过逐词预测下一个单词来生成连贯的文本。比如,从“今天的天气”开始,GPT预测下一个词是“很好”,然后继续预测接下来的词。
-
预训练任务:GPT使用语言建模任务,通过大量文本数据的训练来学习生成自然语言的能力。比如,它会学习到“天气”后面常跟着“很好”或“不好”等描述性词语。
三、编码器-解码器
编码器-解码器结构结合了编码器和解码器的优点。编码器首先处理输入信息,将其编码成一个上下文表示,然后解码器基于这个表示生成输出信息。这种结构能够充分利用全局的上下文信息,非常适合于需要理解输入信息并生成相应输出的任务,如机器翻译、文本摘要等。
可以把这种架构想象成一个“双人团队”:一个是“超级阅读者”(编码器),另一个是“故事作家”(解码器)。阅读者先把输入信息彻底读懂,然后把理解的结果传递给作家,作家再根据这些信息生成输出内容。
1、例子:机器翻译
假设我们需要将一句英文翻译成中文。首先,编码器就像一个阅读专家,彻底读懂英文句子并理解其含义。然后,解码器接过阅读专家的理解,像作家一样生成对应的中文句子。
2、T5和BART的特点
-
统一的文本到文本框架(T5):T5将所有任务都转化为文本到文本的问题,使得模型可以在不同任务之间共享知识。比如,无论是翻译还是摘要,T5都将其视为将一种文本转换为另一种文本的问题。
-
双向和自回归结合(BART):BART在预训练时结合了编码器的双向上下文感知能力和解码器的自回归生成能力。例如,BART可以先像阅读专家一样理解一篇文章的整体结构(编码器),然后像作家一样生成摘要(解码器)。
-
多样化的预训练任务:如BART通过随机遮蔽和重构句子,T5通过多任务学习来增强模型的泛化能力。例如,BART可能会遮蔽一句话中的某些词,然后要求模型重建完整的句子,从而学习更强的生成能力。
四、总结
预训练语言模型的三种网络架构各有其独特的优势和适用场景。编码器擅长理解任务,如文本分类和命名实体识别;解码器擅长生成任务,如文本生成和对话系统;而编码器-解码器架构则在需要同时理解和生成的任务中表现突出,如机器翻译和文本摘要。通过对这些模型的详细介绍和形象例子的说明,希望能帮助读者更好地理解它们的应用和原理。随着技术的发展,未来可能会出现更多更强大的预训练模型,推动NLP技术的进一步进步。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。