Bootstrap

保姆式安装ChatTTS


ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.

1、项目特点

对话式 TTS:ChatTTS 针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

更好的韵律: ChatTTS*在韵律方面超越了大部分开源 TTS 模型。 同时提供预训练模型,支持进一步的研究。

2、安装指南

1. 安装 Python 和 Git 环境

2. 下载 ChatTTS-UI

点击下载

3. 解压后在根目录下输入 CMD 进入终端,然后依次执行下面的安装命令:

python -m venv venv
.\venv\scripts\activate
pip install -r requirements.txt

4. 安装 Torch 和 Torchaudio

  • 如果不需要 CUDA 加速,执行:
pip install torch==2.1.2 torchaudio==2.1.2
  • 如果需要 CUDA 加速,执行:
pip install torch==2.1.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118

如果你没有安装 CUDA + ToolKit,可以看下这篇文章:点击查看

5. 启动应用

执行以下命令启动应用,将自动打开浏览器窗口,默认地址 http://127.0.0.1:9966

python app.py

注意:默认从 modelscope 魔塔下载模型,不可使用代理下载,请关闭代理。

6. 处理缺少的模型文件

源码部署启动后,会先从 modelscope 下载模型,但 modelscope 缺少 spk_stat.pt,会报错,点击下载 spk_stat.pt

下载后将该文件复制到项目目录 models/pzc163/chatTTS/asset/ 文件夹内。

注意:modelscope 仅允许中国大陆 IP 下载模型,如果遇到 proxy 类错误,请关闭代理。

7. 从 Huggingface.co 下载模型

如果你希望从 huggingface.co 下载模型,请打开 app.py,查看大约第 50 行-60 行的注释。如果需要 GPU 加速,必须是英伟达显卡,并且安装 CUDA 版本的 torch。

# 默认从 modelscope 下载模型, 如果想从 huggingface 下载模型,请将以下3行注释掉
CHATTTS_DIR = snapshot_download('pzc163/chatTTS', cache_dir=MODEL_DIR)
chat = ChatTTS.Chat()
chat.load_models(source="local", local_path=CHATTTS_DIR)

# 如果希望从 huggingface.co 下载模型,将以下注释删掉。将上方3行内容注释掉
# os.environ['HF_HUB_CACHE'] = MODEL_DIR
# os.environ['HF_ASSETS_CACHE'] = MODEL_DIR
# chat = ChatTTS.Chat()
# chat.load_models()

3、避坑指南

如果不能在GPU上运行,请参考下图

在这里插入图片描述

如果这篇文章对你有用的话,请帮忙点个关注、点赞、收藏,若有其它问题,可评论区回复,谢谢~

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;