【人工智能大语言模型技术发展研究报告 2024】

文末‍有福利！

人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力，正在引发经济、社会、文化等领域的变革和重塑，2023 年以来，以 ChatGPT、GPT-4 为代表的大模型技术的出台，因其强大的内容生成及多轮对话能力，引发全球新一轮人工智能创新热潮，随着大模型技术演进、产品迭代日新月异，成为科技产业发展强劲动能。

一、大语言模型发展基石

（一）软硬协同持续推动大模型能力提升

1. 大模型发展对算力需求成井喷式增长

大规模的训练和推理需要强大的高性能算力供应，高端AI 芯片是大模型高效训练和应用落地的核心，是决定大模型发展能力高低的关键。

人工智能大模型参数规模和训练数据量巨大，需千卡以上 AI 芯片构成的服务器集群支撑，据测算，在 10 天内训练 1000 亿参数规模、1PB 训练数据集，约需 1.08w 个英伟达 A100 GPU，因大模型对高端 AI 芯片需求激增及高端芯片进口供应受限，英伟达等高端芯片已供不应求。据《金融时报》估算，我国企业对英伟达 A800、H800两款 GPU 产品的需求达 50 亿美元。

GPT-3 的训练使用了 128 台英伟达 A100 服务器（练 34天）对应 640P 算力，而 GPT-4 的训练使用了 3125 台英伟达A100 服务器（练 90—100 天）对应 15625P 算力。

GPT-4 模型的参数规模为 1.9 万亿，约为 GPT-3 的 10 倍，其用于训练的 GPU 数量增加了近 24 倍（且不考虑模型训练时间的增长）而目前正在开发的 GPT-5 模型预计参数量也将是 T-4 模型的 10 倍以上，达到 10 万亿级别，这将极大地提升大模型训练的算力需求。

2. AI芯片自研和算力优化成为应对算力需求的重要手段算力芯片是大模型的算力“发动机”，拥有算力资源的企业具备更强的竞争力，强大的算力资源可以加速模型训练、提升市场响应速度，强力支撑更复杂、更深层次的模型训练，从而提高模型的预测精度和整体性能。

在大模型的高算力需求推动下，大厂加强 AI 芯片研发力度，持续优化大语言模型所用的 transformer 架构。如，谷歌为其最新款的 Pixel 手机装上了自研 Tensor G3 芯片，让用户可以在手机端解锁生成式 AI 应用。微软宣布推出两款自研芯片 Maia100 和 Cobalt100。Maia100 用于加速 AI 计算任务，帮助人工智能系统更快处理执行识别语音和图像等任务。

3.计算、存储、网络协同支持大模型训练

大模型的研发训练高度依赖高端芯片、集群及生态，高计算性能、高通信带宽和大显存均是必要能力，计算、存储、网络任一环节出现瓶颈将导致运算速度严重下降。大语言模型的训练和推理受限于芯片通信速度，随着大模型的吞吐量大幅增长，芯片内部、芯片之间形成“存储墙”，其通信速度正成为计算瓶颈。因此，需要计算、存储、网络协同，提供更好的算力支持。

主要包括以下四方面：

一是分布式训练技术支撑训练需求。由于大模型的计算量非常大，单个计算节点很难满足训练需求。因此，需要使用分布式训练技术，将模型训练任务分配到多个计算节点上进行并行计算。这要求算力统筹具备高效的分布式训练框架和算法。

二是算力管理和调度确保资源充分利用。随着大模型规模的不断扩大，算力管理和调度变得尤为重要。有效的算力管理和调度策略可以确保计算资源的充分利用，避免资源浪费，并提高训练效率。这包括合理的任务分配、负载均衡、资源监控和动态调整等。

三是高速的内存和存储有效提升训练效率。大模型在训练过程中需要快速读取和写入大量数据，因此要求具备高速的内存和存储设备。例如，使用DDR4内存和NVMe SSD等高速存储设备可以显著提高训练效率。

4.深度学习框架是大模型研发训练的关键支撑在当前的数字科技领域，算力的发展已经达到了万卡级别的庞大规模，即单体智算集群拥有上万个 GPU 计算节点。这种前所未有的强大算力为深度学习等复杂计算任务提供了坚实的算力支撑。而在训练过程中，高效的深度学习框架则扮演着至关重要的角色，不仅提供了简洁易用的编程接口，还能够在万卡集群上高效地分配和管理计算资源，确保大模型训练的稳定性和效率。

如，百度飞桨（PaddlePaddle）集核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体，实现了动静统一的框架设计，兼顾科研和产业需求，在开发便捷的深度学习框架、大规模分布式训练、高性能推理引擎、产业级模型库等技术上具备优势。

5.大规模算力集群的创新应用与突破

我国骨干厂商积极探索打造高性能算力集群，并通过协同优化、工具支持等实现高效稳定的大模型训练，提高算力使用效率。百度百舸 2.0 在 AI 计算、AI 存储、AI 容器等模块上进行了能力增强和功能丰富，并发布了 AI 加速套件。

AI 加速套件通过存训推一体化的方式，对数据的读取和查询、训练、推理进行加速，进一步提升 AI 作业速度。

其自研星脉高性能计算网络和高性能集合通信库 TCCL，具备业界最高的 3.2TRDMA 通信带宽，在搭载同等数量的 GPU 情况下，为大模型训练优化 40%负载性能，消除多个网络原因导致的训练中断问题。

浪潮信息 AI 团队在 2023 年相继研发了OGAI（Open GenAl Infra）大模型智算软件栈、源 2.0 大模型，从软硬协同层面去持续提升基础大模型的能力，同时通过开放算力发展生态去探索可能突破的场景。

OGAI 面向以大模型为核心技术的生成式 AI 开发与应用场景，提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件，从而降低大模型算力系统的使用门槛、优化大模型的研发效率，保障大模型的生产与应用。

（二）数据丰富度与质量塑造大模型知识深度与广度

1. 大模型对数据数量、质量提出新要求

（1）海量高质量数据是大模型泛化涌现能力的基础

从行业前沿趋势来看，大模型训练使用的数据集规模呈现爆发式的持续增长。根据公开资料显示，2018 年 GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB，而2021年 Gopher 数据集已达 10550GB，2023 年 GPT-4 的数据量更是 GPT-3 的数十倍以上。同时，大模型快速迭代对训练数据的数据量、多样性和更新速度方面也提出了更高的要求。

高质量的数据集在提取有效特征、训练精确模型以及提升跨场景学习能力等方面起到至关重要的作用，将成为突破模型和算法能力瓶颈的关键。约 1/3 的算法模型每月至少更新一次，约 1/4 的算法模型每日至少更新一次。算法模型的持续更新和升级，将不断提升对训练数据的数据量、多样性及更新速度等方面的需求。

大语言模型是基于注意力机制的预训练模型，足够多的用于自监督学习过程的基础训练数据是大模型区别于传统人工智能算法模型的主要特点，海量数据可以为模型提供更多的学习样本和更广泛的知识覆盖，有助于模型学习到更多的特征和关系。只有海量多源的数据支持预训练，大模型在后续的专门任务中才会表现出更强大的性能和更具启发性的生成能力。

（2）深入生产生活场景挖掘高质量数据集

数据是日常活动的科学记录，人工智能之所以能够发挥支撑和驱动数字经济的重要作用，本质上在于忠实而有效地处理现实数据。深入生产生活场景中挖掘高质量数据集，是数据驱动时代的关键任务。

以明确的目标为先导，通过精准的数据采集策略，从源头获取真实、全面的原始数据。在数据清洗与预处理环节，要运用专业技术和细致的分析，去除噪声、填补缺失值，确保数据的准确性和完整性。以制造业为例，企业可收集设备型号、维修记录等静态数据，以及温度、振动等实时动态数据，经过清洗和标注后，用于训练预测模型。

数据集的划分同样重要，需确保训练集、验证集和测试集的合理分布，以充分验证模型的性能和泛化能力。此外，数据集的文档编写和元数据管理也不容忽视，它们为数据集的长期维护和更新提供了坚实的基础。

在实际操作中需要面对数据来源的多样性、数据质量的参差不齐、数据采集和处理成本的高昂问题，需要制定周密的数据采集计划，选择合适的数据源，并运用先进的数据清洗和预处理技术，以确保数据的准确性和一致性。同时，还需要注重数据的时效性和动态性，及时更新和维护数据集，以适应业务的发展和变化，从海量数据中提炼出有价值的信息，为业务决策和模型训练提供有力支持。

同时，在数据集构建全流程过程中，人的因素同样重要。需要组建专业的数据团队，具备深厚的数据分析能力和丰富的业务知识，能够深入理解业务需求，从海量数据中挖掘出有价值的信息。

与此同时，还需要建立科学的数据管理制度和流程，确保数据的安全性和隐私性，防止数据泄露和滥用。能够反映生产生活实际中深层次现实规律的数据是具有天然价值的，而对齐进行科学的加工和处理则使其具备了工程上的利用价值，需要专门的团队以科学的态度、专业的能力和严谨的精神，不断探索和实践。

（3）利用人工智能技术构建高质量数据集

目前，利用现有人工智能技术构建高质量数据集仍是一项富有挑战性和前景的任务。通过充分发挥人工智能技术的优势，可以提高数据集的准确性、效率和可解释性，为人工智能应用的发展提供坚实的数据基础。

借助人工智能技术的自动标注工具正在成为基础数据服务商和 Al 算法公司降低成本和提高效率的利器。首先，通过自然语言处理和机器学习技术，可以对大量的文本、图像、音频等数据进行自动标注和分类，从而快速生成带有标签的数据集。这种方法可以大大减少人工标注的成本和时间，同时提高标注的准确性和一致性。

其次，人工智能技术还可以帮助进行数据清洗和预处理。利用数据清洗算法和异常检测模型，可以自动识别和修正数据中的错误、噪声和异常值，确保数据的准确性和可靠性。同时，通过数据增强技术，可以在不增加实际数据量的情况下，扩充数据集的多样性和泛化能力。

（三）算法优化与创新推动大模型能力升级

1.多阶段对齐促进大模型更符合人类价值观

为了确保模型与人类的判断和选择更加贴合，大模型研发企业如百度、讯飞等采用了一系列先进的技术，包括有监督精调、偏好学习和强化学习等，以进行多阶段对齐。这一综合性的方法旨在逐步校准模型的行为，使其能够更准确地反映人类的意图和偏好。基于有监督精调、偏好学习和强化学习等多阶段对齐技术，能够有效地保证模型与人类的判断和选择更加一致。这种综合性的方法不仅提高了模型的性能，还增强了其与人类交互的可用性和可靠性。

2.运用知识增强提升模型准确性

现实世界中仅依靠模型从原始数据中学习远远不够。知识增强可以将人类已有的知识、经验和规则融入模型中，为模型提供额外的信息和指导。这有助于模型更好地理解数据的本质和上下文，从而做出更准确的预测和决策。

为提升大模型的准确性，大模型可以在输入、输出两个阶段都运用知识点增强，具体做法为在输入端对用户输入的问题进行理解，并拆解所需的知识点，然后在搜索引擎、知识图谱、数据库中获取准确知识，最后把得到的知识组装进 prompt 送入大模型；输出端会对大模型的输出进行“反思”，从生成结果中拆解出知识点，然后利用搜索引擎、知识图谱、数据库及大模型本身进行确认，修正偏差。