小模型竞争开始：Mistral AI与NVIDIA联手推出Mistral NeMo模型

在最近，大模型的发展如期进行时，在原先比较小众的小模型领域，各家AI大厂开始了竞争，这场竞争由OpenAI发起，他们推出了GPT-4o mini来代替GPT-3.5模型，让GPT-3系列全面退役（期待开源）；接下来hugging face又推出了自家的SmoLLM，在接下来，就是本文章的主角——Mistral-NeMo的出场。

基础介绍

这次Mistral和NVIDIA联合推出的Mistral- NeMo拥有120亿的训练参数和128K的上下文窗口，所以它的推理、世界知识和编码准确性在其尺寸类别中是最先进的。而且Mistral-NeMo还是基于标准架构的，所以Mistral-NeMo的兼容性很高，而且可以在任何使用Mistral-7B的系统中置换。

下表比较了 Mistral NeMo 基础模型与两个最近的开源预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确性。

Mistral NeMo base model performance compared to Gemma 2 9B and Llama 3 8B

最新的Mistral NeMo还支持全球的多数语言，包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语，而且非常强大。

mistral-nemo-benchmarks

技术细节：Tekken，一个更高效的分词器

Mistral NeMo 使用基于 Tiktoken 的新分词器 Tekken，该分词器在 100 多种语言上进行了训练，并且比以前 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。特别是，它在压缩源代码（中文、意大利语、法语、德语、西班牙语和俄语）方面的效率提高了 ~30%。它在压缩韩语和阿拉伯语方面的效率也分别提高了 2 倍和 3 倍。与 Llama 3 分词器相比，Tekken 被证明更擅长压缩大约 85% 的所有语言的文本。

还记得上文：大模型集体翻车：大模型的推理原理 - yjhcode吗？更高效的分词器也是提高正确率的方法之一！

new-tokenizer-tekken

技术细节：指令微调

mistral-nemo-multilingual

Mistral Nemo进行了高级微调和对齐阶段，所以它在遵循指令、推理和多回合对话以及生成代码方面都优于Llama 3 8B和Mistral 7B

部署：面向企业和个人

Mistral NeMo 在 Apache 2.0 许可下发布，该许可促进创新并支持更广泛的 AI 社区，是一个拥有 120 亿参数的模型。此外，该模型使用 FP8 数据格式进行模型推理，从而减小内存大小并加快部署速度，而不会降低准确性。

这意味着该模型可以更好地学习任务并更有效地处理各种场景，使其成为企业用例的理想选择。

Mistral NeMo 打包为 NVIDIA NIM 推理微服务，使用 NVIDIA TensorRT-LLM 引擎提供性能优化推理。

这种容器化格式允许在任何地方轻松部署，为各种应用程序提供更大的灵活性。

因此，模型可以在几分钟内部署到任何地方，而不是几天。

NIM 采用属于 NVIDIA AI Enterprise 的企业级软件，具有专用的功能分支、严格的验证流程以及企业级的安全性和支持。

它包括全面的支持、直接联系 NVIDIA AI 专家和定义的服务级别协议，可提供可靠且一致的性能。

开放模式许可证允许企业将 Mistral NeMo 无缝集成到商业应用程序中。

Mistral NeMo NIM 专为安装单个 NVIDIA L40S、NVIDIA GeForce RTX 4090 或 NVIDIA RTX 4500 GPU 的内存而设计，可提供高效率、低计算成本以及增强的安全性和隐私性。

也就是说，单张4090就可以跑（是训练，不是推理）！

高级模型开发和定制

Mistral AI 和 NVIDIA 工程师的综合专业知识优化了 Mistral NeMo 的训练和推理。

该模型采用 Mistral AI 的专业知识进行训练，尤其是在多语言、代码和多轮内容方面，受益于 NVIDIA 全栈的加速训练。

它旨在实现最佳性能，利用高效的模型并行技术、可扩展性和与 Megatron-LM 的混合精度。

该模型使用 NVIDIA NeMo 的一部分 Megatron-LM 进行训练，该 DGX Cloud 上有 3,072 个 H100 80GB Tensor Core GPU，由 NVIDIA AI 架构组成，包括加速计算、网络结构和软件，以提高训练效率。

可用性和部署

Mistral NeMo 可以灵活地在云、数据中心或 RTX 工作站等任何地方运行，随时准备彻底改变各种平台上的 AI 应用程序。

立即通过 ai.nvidia.com 体验 Mistral NeMo 作为 NVIDIA NIM，可下载的 NIM 即将推出。