Whisper是OpenAI开发一款开源语音识别模型,可以帮我们低成本的拥有语音识别的能力。具体的安装部署方法,我在这里就不详细说了,网上有很多相关文章:
使用OpenAI的Whisper 模型进行语音识别 (baidu.com)
我这里主要想说的是,如果你想离线部署Whisper模型,除了安装python依赖环境以外,还需要安装ffmpeg用于语音文件读取,Linux上的安装方法为:
sudo apt-get install ffmpeg
此外,离线部署还依赖模型文件,这个文件的缓存目录是:
~/.cache/whisper
最后,whisper还依赖了gpt-2的词表,
主要依赖
https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/vocab.bpe
和
https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json
这两个文件。
缓存目录我找了半天,最后终于找到它的位置在
/tmp/data-gym-cache
只要把这几个缓存文件,拷贝到离线服务器的对应位置上,就可以愉快的离线使用whisper啦!