【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器，它推动了可视化令牌生成技术的发展，为可扩展、稳健、高效地开发大型自动回归变换器（如 LLM）或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件，Cosmos 是一个开发人员优先的视频基础模型平台，旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。

	Continuous ( C )	Discrete ( D )
Images ( I )	Cosmos-Tokenizer-CI	Cosmos-Tokenizer-DI
Videos ( V )	Cosmos-Tokenizer-CV	Cosmos-Tokenizer-DV

给定一幅图像或视频，宇宙标记器输出连续潜像或离散标记。Cosmos Tokenizer 的空间压缩率为 8 倍或 16 倍，时间压缩系数为 4 倍或 8 倍，总压缩系数高达 2048 倍（=8x16x16）。Cosmos 令牌转换器的总压缩率比最先进的（SOTA）方法高 8 倍，同时保持更高的图像质量，运行速度比现有最好的 SOTA 令牌转换器快 12 倍。

在这里插入图片描述

Licenses

Models: The models are licensed under NVIDIA Open Model License. Under the NVIDIA Open Model License, NVIDIA confirms:
- Models are commercially usable.
- You are free to create and distribute Derivative Models.
- NVIDIA does not claim ownership to any outputs generated using the Models or Derivative Models.
GitHub Code: This repository is licensed under the Apache 2.0
license.

评估

在DAVIS（Perazzi等人，2016年）数据集上对我们的令牌生成器和以前的令牌生成器进行定量比较。Cosmos 令牌生成器取得了最先进的结果。即使在更高的压缩率（8x8x8 和 8x16x16）下，Cosmos 令牌生成器的性能也优于以前的方法，显示了出色的压缩质量权衡。

在这里插入图片描述

性能

在单个 A100 80GB GPU 上对每幅图像或每个视频帧的参数计数和平均编码解码时间进行比较。Cosmos Tokenizer 的速度比以前的方法快 2 到 12 倍，同时保持最小的模型大小，显示了很高的标记化效率。

TokenBench

TokenBench 是我们为使 Cosmos-Tokenizer 的评估标准化而设计的一个综合基准。它涵盖了广泛的领域，包括机器人操作、驾驶、自我中心和网络视频。它由高分辨率、长时间视频组成，旨在对视频标记器进行基准测试。我们已在 github.com/NVlabs/TokenBench 上公开了 TokenBench。

Github

https://github.com/NVIDIA/Cosmos-Tokenizer

Acknowledgments

cosmos_tokenizer/modules 文件夹中的部分代码来自以下项目，在此一并致谢：

CompVis/stable-diffusion
lucidrains/magvit2-pytorch
lucidrains/vector-quantize-pytorch
CompVis/taming-transformers