一、液体基础模型LFMs(Liquid Foundation Models)的定义
新一代的生成式 AI 模型,非 Transformer 架构,重新定义了基础模型,通用的人工智能模型,能够建模任何类型的顺序数据,包括但不限于视频、音频、文本、时间序列和信号。
LFM目前提供了三种不同规模的模型供用户选择:
- LFM-1B:1.3B的稠密模型,专为资源高度受限的环境设计,这款10亿参数的模型,在其规模类别中提供了前所未有的性能,在多个基准测试中取得了最高分,超越了许多基于transformer的模型,尽管它并非构建在广泛使用的GPT架构之上。1B模型在多模态学习和理解(MMLU)得分和其他基准指标方面超越了几个基于transformer的模型。
- LFM-3B:3.1B的稠密模型,这款30亿参数的模型,是为移动和边缘应用量身定制的。它不仅在效率和速度方面超越了直接竞争对手,而且与更高参数范围的模型相比也毫不逊色。则针对边缘部署进行了优化;
- LFM-40B:40.3B的混合专家(MoE)模型,则是为处理更复杂任务而量身打造的。在保持卓越性能的同时,这三个模型都展现出了出色的内存效率和推理能力。
二、LFM 的技术特点:另辟蹊径,超越 Transformer!
1. LFM 的核心是计算单元, 这些单元可以表示为自适应线性算子,其行为由输入决定。 这与 Transformer 的架构完全不同! Transformer 的核心是自注意力机制,而 LFM 则采用了更加灵活的结构化算子。架构以按深度分组排列的定制计算单元为特色(有针对性的权重共享),并带有额外的特征器互连(特征共享)。
2. LFM 的设计框架统一了深度学习中各种现有的计算单元, 并为探索模型架构的空间提供了一种系统性的方法。
3. LFM 的架构设计更加可控, 可以根据不同的模态和硬件需求进行定制,不像 Transformer 那样结构比较固定。Liquid 的设计空间主要由架构及其核心运算符的特征化和足迹来定义。
特征化是指将输入数据(如文本、音频、图像、视频)转换为一组结构化特征或向量的过程,这些特征或向量用于以自适应方式调节模型内部的计算。例如,与语言和多模态数据相比,音频和时间序列数据由于信息密度较低,一般需要较少的运算符特征化。另一个关键维度是算子的计算复杂度。通过遍历和完成结构化自适应算子的设计空间,可以在控制计算需求的前提下最大限度地提高性能。
4. LFM 模型具有很强的自适应性, 可以作为各种规模 AI 系统的底层架构,具有更广泛的应用前景。
三、液体神经网络(LNN):超越Transformer的“秘密武器”
LFM之所以能够取得如此惊人的成绩,背后离不开其独特的液体神经网络(Liquid Neural Networks,LNN)架构。LNN是一种全新的神经网络架构,它使人工神经元或用于转化数据的节点更加高效、适应性更强。与需要数千个神经元来执行复杂任务的传统深度学习模型相比,LNN仅需较少的神经元,结合创新的数学公式,就能达到相同或更佳的效果。
LNN的灵感来源于线虫的神经结构,这种受大脑启发的系统即使在训练后,也能保持高度的适应性和对变化的鲁棒性。正是这种独特的特性,让LNN在处理序列数据方面展现出了强大的表现力,同时也赋予了LFM在面对复杂任务时的出色性能。
四、LFM 究竟有多牛?
1. 性能无敌: 10 亿、30 亿和 400 亿参数的 LFM 模型,在各自的规模上都实现了最先进的性能,而且内存占用更小,推理效率更高!
2. 10 亿参数 LFM 吊打 Transformer: LFM-1B 在 10 亿参数级别的各种基准测试中,得分最高,成为同规模模型中的 SOTA!这可是第一次有 非 Transformer 架构 的模型,性能显著超越基于 Transformer 的模型!
3. 30 亿参数 LFM,移动端最佳选择: LFM-3B 非常适合移动端和其他边缘文本类应用,体积更小,运行更快!
4. 400 亿参数 LFM,性价比之王: LFM-40B 在模型大小和输出质量之间取得了新的平衡,它只使用了 120 亿个激活参数,但性能却能与更大的模型相媲美,而且其 MoE 架构使其能够在性价比更高的硬件上运行
5. 32k 超长有效上下文窗口: LFM 模型针对 32k 的上下文窗口进行了优化,在 RULER 基准测试中获得了最高的效率得分。这使得 LFM 模型能够在边缘设备上执行长上下文任务,例如文档分析、摘要,以及与上下文感知聊天机器人的交互,还能提升检索增强生成 (RAG) 的性能
LFM还具备多模态的功能,包括音频、视频和文本。这种多模态能力不仅让LFM在金融服务、生物技术、消费电子等行业有了广阔的应用空间,更为其未来的发展提供了无限可能。