三剑语音识别系统：图形界面的FunASR、OpenAI Whisper和SYSTRAN faster-whisper

三剑语音识别系统：图形界面的FunASR、OpenAI Whisper和SYSTRAN faster-whisper
　　openAI Whisper识别英文语音很完美，但识别中文语音会出现错误。FunASR识别中文语音很完美，但识别英文语音会出现错误。openAI Whisper在不支持CUDA功能的电脑上运行速度很慢。SYSTRAN faster-whisper是openAI Whisper模型的一个重新实现，使用了CTranslate2，这是一个用于Transformer模型的快速推理引擎。在相同的精度下，此实现比openai/whisper快3至4倍。
　　应用这三个开源项目进行语音识别，都必须进行复杂的软件下载、环境安装及配置。对只想进行语音识别，只需中英文语音文件转写的用户来说，是相当不合适的。
　　三剑语音识别系统 V1.0.1为适用于Windows平台的绿色软件，下载、解压后即可使用。图形界面，操作简单方便。百度网盘：下载链接
　　三剑语音识别系统提供功能强大的语音文件转写服务，拥有完整的语音识别链路，结合语音端点检测、语音识别、标点等模型，支持用户自定义热词列表，可以将时长为数小时的中文长音频与视频识别成带标点、含时间戳的文字。系统集成ffmpeg软件包，支持各种音视频格式输入。
　　三剑语音识别系统 V1.0.1有三个版本：三剑中文语音识别系统 V1.0.1、三剑英文语音识别系统 V1.0.1、三剑英文语音识别系统 CPU版 V1.0.1，分别用于中文语音文件转写、英文语音文件转写及在不支持CUDA功能的电脑上进行英文语音文件转写。
　　三剑中文语音识别系统的技术基础是FunASR和Paraformer-large中文长音频模型（版权所有© [2023-2028] [阿里巴巴集团]）。FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调。Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳。
　　三剑英文语音识别系统的技术基础是openai/whisper。openai/whisper（Copyright © 2022 OpenAI）是一种通用的、多任务的语音识别模型，可以执行多语言的语音识别、语音翻译和语言识别。通过在各种音频的大型数据集上进行训练，显著提升了对独特口音、背景噪声和技术术语的识别能力。
　　三剑英文语音识别系统 CPU版的技术基础是SYSTRAN/faster-whisper。SYSTRAN/faster-whisper（Copyright © 2023 SYSTRAN）是openai/whisper（Copyright © 2022 OpenAI）模型的一个重新实现，使用了CTranslate2，这是一个用于Transformer模型的快速推理引擎。在相同的精度下，此实现比openai/whisper快3至4倍，同时使用更少的内存。CPU和GPU上的8位量化还可以进一步提高效率。

三剑语音识别系统：图形界面的FunASR、OpenAI Whisper和SYSTRAN faster-whisper

悦读