《大语言模型:基础与前沿》 这本书就剖析了 LLM 的技术机理,介绍了前沿研究成果,探讨 LLM 的价值对齐问题,以及环保主题等,有助于我们全面了解 LLM 的原理与应用。
先让我们来展望一下 LLM 的技术发展方向,以及它将会如何改变我们的世界。
朋友们如果需要此本 《大语言模型:基础与前沿》,扫码获取~
大语言模型将走向何方
LLM 为什么可以实现对自然语言的理解、生成和推理?这是因为 LLM 基于神经网络的复杂算法,通过对海量数据的训练得到大模型,进而在各种应用场景中展现出惊人的能力。
当前,Transformer 架构在 LLM 中大放异彩,这种架构具有强大的建模能力和并行计算效率。通过多层自注意力机制和位置编码,LLM 可以有效地捕捉文本序列中的长距离依赖关系,从而实现对文本的连贯性和语义理解。
OpenAI 凭借 ChatGPT 一炮而红,随后推出 GPT-4,文生图利器 DALL-E 系列,以及最近刷屏的文生视频 Sora。这些产品中都有用到 Transformer 架构,这一技术也成就了 OpenAI 如今独步天下的江湖地位。
但是在 LLM 的前进之路上,有一个可预见的障碍,就是高质量的数据可能会在 2026 年之前耗尽。这对于依赖海量数据集的 LLM 来说,可能就意味着发展将会变缓。
因此 AI 研究的一个新领域,就是使 LLM 能够产生自己的训练数据,并用它来提高性能。最近的研究表明,LLM 可以通过生成一组问题和答案、过滤最佳输出和微调仔细挑选的答案来进行自我改进。
另外,为了进一步扩展 LLM,一种名为稀疏专家模型(sparse expert model)的新方法在人工智能界受到越来越多的关注。稀疏专家模型的特点是能够只激活必要的参数来处理给定的输入,与密集模型相比,稀疏专家模型的计算能力更强。
所以,LLM 的发展趋势就是智能化程度不断提高,自主生成信息的能力日渐增强,而产生信息所需的能耗却在不断下降。我们的世界将会被重塑,生活工作方式也会革新。
当前 LLM 变得越来越强大和复杂,本书作者熊涛深感有必要向读者全面介绍这些模型的基础知识和前沿发展,帮助读者厘清基本概念,也看到 LLM 的局限,最大限度地获益,并在未来有创造性地突破。现在,我们开始 LLM 全方位探秘之旅吧。
全方位探秘大语言模型
《大语言模型:基础与前沿》不仅深入解读了 LLM 技术本身,还将目光扩展到人类与社会层面,全景式地为我们揭示出 LLM 的应用与发展究竟会怎样改变我们的生活。
本书首先从 LLM 的辩论、争议和未来发展方向入手,引出对这一领域的全面认识。接着,探讨语言模型和分词的基础知识,为读者打下扎实的理论基础。
随后 对 Transformer 架构深入阐释 ,通过对编码器-解码器架构的剖析,以及外部记忆和推理优化的说明,揭示其在 LLM 中的重要性和应用方法。还详细分析了 LLM 的预训练、目标设定以及上下文学习和微调等关键内容。
本书还涵盖了 LLM 领域的一些前沿进展,包括并行性、稀疏专家混合、检索增强型语言模型,以及根据人类偏好调整语言模型等话题。作者还专门探讨了 LLM 如何帮助减少偏见和有害性,这是人工智能领域一个日益重要的方面。
最后则将注意力转移到视觉语言模型上,探讨了如何将视觉信息与语言模型相结合。探讨了 LLM 对环境的影响,包括能源消耗、温室气体排放等问题,引发人们对于技术发展与可持续发展之间的思考。
总之,那些机械重复、易出错的工作将会被 AI 取代。例如,软件开发将不会是一项高风险的活动,每个人都可以是软件工程师,通过 LLM 开发出稳定可用的软件。其他行业也类似,这就需要我们透彻理解 LLM,找到发轫点,提升效能。
朋友们如果需要此本 《大语言模型:基础与前沿》,扫码获取~
书籍目录:
第 1章 大语言模型:辩论、争议与未来发展方向 1
1.1 新时代的曙光 1
1.2 LLM有意识吗 3
1.3 未来发展方向 10
1.4 小结 13
第 2章 语言模型和分词 15
2.1 语言建模的挑战 16
2.2 统计语言建模 16
2.3 神经语言模型 18
2.4 评估语言模型 19
2.5 分词 19
2.6 小结 27
第3章 Transformer 29
3.1 Transformer编码器模块 29
3.2 编码器-解码器架构 31
3.3 位置嵌入 32
3.4 更长的上下文 38
3.5 外部记忆 42
3.6 更快、更小的Transformer 45
3.7 推理优化 49
3.8 小结 56
第4章 预训练目标和解码策略 57
4.1 模型架构 57
4.2 预训练目标 60
4.3 具有代表性的语言模型 62
4.4 解码策略 67
4.5 小结 72
第5章 上下文学习和轻量级微调 73
5.1 上下文学习 74
5.2 提示语言模型的校准 94
5.3 轻量级微调 97
5.4 小结 104
第6章 训练更大的模型 107
6.1 扩大尺度法则 107
6.2 涌现能力 113
6.3 人工智能加速器 115
6.4 并行 117
6.5 混合训练和低精度训练 133
6.6 其他节省内存的设计 136
6.7 小结 137
第7章 稀疏专家模型 139
7.1 为什么采用稀疏专家模型 139
7.2 路由算法 142
7.3 其他改进措施 152
7.4 小结 156
第8章 检索增强型语言模型 157
8.1 预训练检索增强型语言模型 158
8.2 词元级检索 161
8.3 通过高效和精简检索进行问答和多跳推理 163
8.4 检索增强型Transformer 166
8.5 检索增强型黑盒语言模型 168
8.6 视觉增强语言建模 169
8.7 小结 170
第9章 对齐语言模型与人类偏好 171
9.1 基于人类反馈进行微调 172
9.2 基于语言反馈进行微调 183
9.3 基于监督学习进行微调 184
9.4 基于人工智能反馈的强化学习 185
9.5 基于自我反馈进行迭代优化 188
9.6 基于人类偏好进行预训练 190
9.7 小结 193
第 10章 减少偏见和有害性 195
10.1 偏见 196
10.2 有害性 199
10.3 偏见和有害性的检测与减少 200
10.4 小结 206
第 11章 视觉语言模型 207
11.1 语言处理的多模态落地 207
11.2 不需要额外训练即可利用预训练模型 208
11.3 轻量级适配 213
11.4 图文联合训练 219
11.5 检索增强视觉语言模型 222
11.6 视觉指令调整 225
11.7 小结 227
第 12章 环境影响 229
12.1 能源消耗和温室气体排放 229
12.2 估算训练模型的排放量 230
12.3 小结 231
参考文献 232