Bootstrap

Step-Audio:语音世界的魔法师

🌟 引子:从语音到魔法的旅程

想象一下,你对着设备说:“给我来段粤语版的《Rap God》。”几秒钟后,设备不仅完美复刻了你的语气,还带着地道的粤语腔调唱起了 Eminem 的经典。这听起来像科幻小说里的情节,但 Step-Audio 的诞生让这一切成为了现实。

Step-Audio 是业界首个集语音理解与生成控制为一体的开源实时语音对话系统。它不仅能听懂多语言对话,还能表达情感、模仿方言、甚至唱歌和哼唱。今天,我们就来揭开这个语音魔法师的神秘面纱。


🧠 Step-Audio 的大脑:模型组成

🧩 双码本的交响乐:Tokenizer 的奥秘

在 Step-Audio 的世界里,语音被分解成两种“语言”:Linguistic TokenizerSemantic Tokenizer

  • Linguistic Tokenizer:像一个语言学家,专注于语音的基础结构,码本大小为 1024,码率为 16.7Hz。
;