Bootstrap

三剑语音识别系统:图形界面的FunASR、OpenAI Whisper和SYSTRAN faster-whisper

三剑语音识别系统:图形界面的FunASR、OpenAI Whisper和SYSTRAN faster-whisper
  openAI Whisper识别英文语音很完美,但识别中文语音会出现错误。FunASR识别中文语音很完美,但识别英文语音会出现错误。openAI Whisper在不支持CUDA功能的电脑上运行速度很慢。SYSTRAN faster-whisper是openAI Whisper模型的一个重新实现,使用了CTranslate2,这是一个用于Transformer模型的快速推理引擎。在相同的精度下,此实现比openai/whisper快3至4倍。
  应用这三个开源项目进行语音识别,都必须进行复杂的软件下载、环境安装及配置。对只想进行语音识别,只需中英文语音文件转写的用户来说,是相当不合适的。
  三剑语音识别系统 V1.0.1为适用于Windows平台的绿色软件,下载、解压后即可使用。图形界面,操作简单方便。百度网盘:下载链接
  三剑语音识别系统提供功能强大的语音文件转写服务,拥有完整的语音识别链路,结合语音端点检测、语音识别、标点等模型,支持用户自定义热词列表,可以将时长为数小时的中文长音频与视频识别成带标点、含时间戳的文字。系统集成ffmpeg软件包,支持各种音视频格式输入。
  三剑语音识别系统 V1.0.1有三个版本:三剑中文语音识别系统 V1.0.1、三剑英文语音识别系统 V1.0.1、三剑英文语音识别系统 CPU版 V1.0.1,分别用于中文语音文件转写、英文语音文件转写及在不支持CUDA功能的电脑上进行英文语音文件转写。
  三剑中文语音识别系统的技术基础是FunASR和Paraformer-large中文长音频模型(版权所有© [2023-2028] [阿里巴巴集团])。FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。
  三剑英文语音识别系统的技术基础是openai/whisper。openai/whisper(Copyright © 2022 OpenAI)是一种通用的、多任务的语音识别模型,可以执行多语言的语音识别、语音翻译和语言识别。通过在各种音频的大型数据集上进行训练,显著提升了对独特口音、背景噪声和技术术语的识别能力。
  三剑英文语音识别系统 CPU版的技术基础是SYSTRAN/faster-whisper。SYSTRAN/faster-whisper(Copyright © 2023 SYSTRAN)是openai/whisper(Copyright © 2022 OpenAI)模型的一个重新实现,使用了CTranslate2,这是一个用于Transformer模型的快速推理引擎。在相同的精度下,此实现比openai/whisper快3至4倍,同时使用更少的内存。CPU和GPU上的8位量化还可以进一步提高效率。

;