自己动手实现语音识别

声音的本质是震动，震动的本质是位移关于时间的函数，波形文件(.wav)中记录了不同采样时刻的位移。
通过傅里叶变换，可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加，通过频率谱线的特殊分布，建立音频内容和文本的对应关系，以此作为模型训练的基础。

语音mfcc特征获取代码如下

from scipy.io import wavfile as wf
import python_speech_features as sf
import matplotlib.pyplot as plt

sample_rate,signs=wf.read("D:/BaiduNetdiskDownload/test.wav")
mfcc=sf.mfcc(signs,sample_rate)
plt.plot(mfcc)

数据集准备：

如图，有7个单词的语音数据，每个单词有14个语音数据

读取语音文件：

自己动手实现语音识别

悦读