Bootstrap

Kokoro 开源文本转语音引擎上线!多语言支持,无需联网,浏览器内极速运行

Kokoro 是一款轻量级的开源文本转语音(TTS)引擎,凭借其高效能和轻量化设计,迅速在技术社区中引起关注。本文将详细介绍 Kokoro 的主要特点,并提供在浏览器和 Python 环境中的代码示例,帮助您快速上手。

1. Kokoro:可在浏览器中运行的 TTS 引擎

1.1 简介

Kokoro 是一个拥有 8200 万参数的开源 TTS 模型。尽管其架构轻量,但在语音合成质量上可媲美更大型的模型,同时在速度和成本上更具优势。Kokoro 采用 Apache 2.0 许可证,允许在各种环境中自由部署,无论是生产环境还是个人项目。
在这里插入图片描述

1.2 主要特点

  • 多语言支持:Kokoro 支持英语、西班牙语、法语、意大利语、日语和中文普通话,满足不同语言用户的需求。

  • 完全离线运行:Kokoro 可在浏览器中通过 WebGPU 技术实现完全离线、100% 本地化的语音合成,确保数据隐私和安全。

  • 高效性能:得益于轻量级架构,Kokoro 在保持高质量语音输出的同时,实现了快速的推理速度。

  • 开源许可:采用 Apache 2.0 许可证,用户可以自由地在商业和个人项目中使用 Kokoro。

2. 代码示例

2.1 浏览器运行的样本代码

要在浏览器中使用 Kokoro,首先需要安装 kokoro-js 库。

npm install kokoro-js

然后,可以使用以下代码生成语音:

import {
    KokoroTTS } from "kokoro-js";

const model_id = "onnx-community/Kokoro-82M-v1.0-ONNX";
const tts = await KokoroT
;