英伟达推出了全新的小型语言模型家族——Hymba 1.5B

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

本周AI新闻: Nvidia给你AI发展定心剂群雄逐鹿AI Agent赛道： B站视频链接地址： https://www.bilibili.com/video/BV1PmBWYCEHN/

英伟达推出了全新的小型语言模型家族——Hymba 1.5B，以其混合式架构成功击败Llama 3.2和SmolLM v2。作为一款拥有15亿参数的混合语言模型，Hymba专注于提升效率与性能，同时能够在资源有限的设备上运行。

Hymba采用了全新的混合头并行架构，将Mamba（状态空间模型，SSM）和Transformer的注意力机制并行整合。这一设计结合了两者的优势：注意力头（Attention Head）提供高分辨率记忆能力，SSM头则能有效总结上下文。这种架构不仅平衡了计算效率与记忆性能，还通过引入可学习的元标记（Meta Tokens），优化了输入处理，使注意力机制的压力大大减轻。更重要的是，Hymba创新性地引入了跨层KV缓存共享与部分滑动窗口注意力机制，在显著降低内存占用的同时，确保了模型高效运算。

Hymba模型在设计中融入了多项技术突破：

混合架构：并行运行Mamba和注意力头，提升性能与效率。
元标记优化：在每个输入前加入元标记，用于存储关键信息，缓解注意力机制的内存负担。
FlexAttention支持：结合PyTorch 2.5中的FlexAttention，增强训练与推理灵活性。
跨层KV缓存共享：在不同层与头部之间共享缓存，显著降低内存使用。
滑动窗口注意力：优化注意力计算，进一步提高模型效率。

Hymba还结合了16个SSM状态与3层完整注意力层，其余层采用滑动窗口设计。这种配置既保持了高效计算，又确保了足够的记忆分辨率。

Hymba-1.5B在基准测试中展示了卓越表现，击败了所有参数低于20亿的公共模型。在对比中，其性能甚至超越了Llama 3.2-3B，准确率高出1.32%，缓存需求减少11.67倍，吞吐量提升至3.49倍。此外，Hymba的处理速度达到了每秒664个Token，远超其他小型语言模型如SmolLM2和Llama 3.2-3B，这让其在运行资源受限的硬件上展现了极高的实用性。

Hymba的混合式注意力与SSM设计让其在各种任务中表现优异，包括通用基准测试和对记忆要求较高的任务。其出色的吞吐量与低内存占用，特别适合需要快速响应且资源有限的实际部署场景。

Hymba的推出标志着小型语言模型的新高度。通过其创新的架构设计与高效性能，英伟达为自然语言处理（NLP）技术在资源有限的设备上应用开辟了全新路径。元标记、跨层缓存共享、以及混合架构的结合，不仅降低了对内存的需求，也提高了模型的准确性与灵活性。

Hymba模型家族展示了NLP技术效率与通用性的巨大进步。作为一款高效且准确的小型语言模型，Hymba为未来在低资源环境中的语言模型部署提供了理想选择，或将引领下一波小型模型的技术革新。

英伟达推出了全新的小型语言模型家族——Hymba 1.5B

悦读