编者按:
随着大数据与AI技术的不断发展,人们越来越看见AI大模型在数据理解、运算以及诸多泛化能力上的潜力,时下,大模型已然成为学术界与工业界探索的重点方向。然而,随着模型规模与容量的不断扩大,其所需训练资源也成倍增长,为模型的规模化应用带来成本与效率的双重挑战。
为此,腾讯持续探索大模型训练方法,基于太极机器学习平台,探索出一系列降本提效的大模型预训练方案,大幅降低了万亿大模型的训练成本,充分发挥了超大预训练模型带来的模型理解和生成能力,获益于此,腾讯在混元AI大模型之上,推出了国内首个低成本、可落地的HunYuan-NLP 1T大模型,再度登顶国内最权威的自然语言理解任务榜单CLUE!并在腾讯广告业务场景规模化应用,带来显著的效益双升。
本文特邀腾讯TEG机器学习平台部的技术同学,为大家揭秘背后的详细技术。
一. 概述
预训练的提出使得人工智能进入全新的时代,引发了学术界和工业界的研究热潮。随着算力的发展,模型容量持续提升,模型通用性和泛化能力也更强,研究大模型成为了近两年的趋势。国内外头部科技公司均有布局,发布了若干千亿规模以上的大模型。然而,面对参数量进一步扩大,业界并没有在高速网络、训练框架、模型算法和落地应用等方面有全面深入的公开性研究。基于腾讯强大的底层算力和低成本高速网络基础设施,混元AI大模型依托腾讯领先的太极机器学习平台,推出了HunYuan-NLP 1T大模型并一度登顶国内最权威的自然语言理解任务榜单CLUE。该模型作为业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型,先后在热启动和课程学习、MOE路由算法、模型结构、训练加速等方面研究优化,大幅降低了万亿大模型的训练成本。用千亿模型热启动,最快仅用256卡在一天内即可完成万亿参数大模型HunYuan-NLP 1T的训练,整体训练成本仅为直接冷启动训练万亿模型的1/8。
此外,业界基于万亿大模型的应用探索极少,对此腾讯研发了业界首个支持万亿级MOE预训练模型应用的分布式推理和模型压缩套件“太极-HCF ToolKit”,实现了无需事先从大模型蒸馏为中小模型进而推理,即可使用低成本的分布式推理组件/服务直接进行原始大模型推理部署,充分发挥了超大预训练模型带来的模型理解和生成能力的跃升。目前HuanYuan-NLP 1T大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。
腾讯混元AI大模型协同了腾讯预训练研发力量,旨在打造业界领先的AI预训练大模型和解决方案(如下图),以统一的平台,实现技术复用和业务降本,支持更多的场景和应用。当前腾讯混元AI大模型(以下简称混元AI大模型或HunYuan)完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域任务模型。
二. 背景
2018年提出的BERT模型[1],其规模最大为3亿参数,随后围绕亿级别参数规模的模型,有各种模型结构和训练方法的探索,包括Roberta[2]、ALBERT[3]等,模型结构和训练方法是提升模型能力的重要手段。各大主流任务和工业界的关键业务(搜索、广告、推荐等)得益于预训练的能力,取得了显著的提升。对于工业界来说,随着业务的发展,小模型已经不能满足业务进一提升的需求,所以在大模型方向探索成为主流。大模型对工业界来说,是一场变革,为业务带来更多的便利和更小的使用成本。以前各个业务各自维护自己的小模型,标注和训练成本集中在下游,当业务需要提升模型规模,则需标注更大量的数据避免过拟合;同时各个业务单独训练模型需要耗费大量资源,但是产出的模型可复用性差,很难迁移到其他业务。预训练大模型将更多的资源和数据转移到上游,集中力量办大事,海量数据训练的大模型提供给各个业务,只需要用很少的标注数据微调,就可以取得较好的效果,从而降低了业务的使用成本。
2.1 大模型的发展
下图展示了近几年NLP预训练模型规模的发展,模型已经从亿级发展到了万亿级参数规模。具体来说,2018年BERT模型最大参数量为340M,引发了预训练的热潮。2019年GPT-2为十亿级参数的模型[4]。2020年发布的百亿级规模有T5[5]和T-NLG[6],以及千亿参数规模的GPT-3[7]。2021年1.6万亿的MoE模型Switch Transformer[8]发布,首次将模型规模提升到万亿。
△M 百万,B十亿,T万亿
业界做大模型有两种流派,MoE和Dense(稠密)模型流派。下图(a)是Dense模型的Transformer Block,在训练过程中,所有FFN和SA层的参数都是激活的,所以训练成本高。MoE是一种稀疏的模型结构,通过引入路由,只激活部分FFN(专家)的参数参与计算,从而能够节约训练成本。下图(b)是MoE模型的Transformer Block,该样例中FFN由3个专家组成,路由每次只激活其中1个专家。腾讯此次发布的HunYuan-NLP 1T大模型采用了MoE结构。