人机交互系统实验三多通道用户界面

实验目的和要求

1)了解常见的多通道用户界面

2)查找资料，熟悉一种多通道用户界面并写出综述

实验环境

Windows10

实验内容与过程

(一) 实验内容:

要求上网查找资料，熟悉一种多通道用户界面并写出综述，可以是眼动跟踪、手势识别、

三维输入、语音识别、表情识别、手写识别等。

(二)实验步骤：

1)借助图书馆的中英文参考文献资料以及网络，确定出一种多通道用户界面；

2)完成对该多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分

类、以及发展前景以及中英文参考文献（至少各5篇）)

实验心得

多通道用户界面综述：语音识别

语言是人类最原始直接的一种交流方式, 通俗易懂、便于理解. 随着科技的发展, 语言交流不再只存在于人与人之间, 如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题, 语音智能交互技术应运而生. 作为其中重要一环的语音识别技术近年来不断发展, 走出了实验室, 随着人工智能进入人们的日常生活中. 当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面, 语音识别的实用性已经得到充分的印证. 如今语音识别技术已经成为人类社会智能化的关键一步, 能够极大提高人们生活的便捷度.

1 语音识别技术的发展历程

语音识别技术始于20世纪50年代, 贝尔实验室研发了10个孤立数字的语音识别系统, 此后, 语音识别相关研究大致经历了3个发展阶段. 第1阶段, 从20世纪50年代到90年代, 语音识别仍处于探索阶段. 这一阶段主要通过模板匹配—即将待识别的语音特征与训练中的模板进行匹配—进行语音识别. 典型的方法包括动态时间规整(dynamic time warping, DTW)技术和矢量量化(vector quantification, VQ). DTW依靠动态规划(dynamic programming, DP)技术解决了语音输入输出不定长的问题; VQ则是对词库中的字、词等单元形成矢量量化的码本作为模板, 再用输入的语音特征矢量与模板进行匹配. 总体而言, 这一阶段主要实现了小词汇量、孤立词的语音识别. 20世纪80年代至21世纪初为第2阶段, 这一阶段的语音识别主要以隐马尔科夫模型(hidden Markov model, HMM)为基础的概率统计模型为主, 识别的准确率和稳定性都得到极大提升. 该阶段的经典成果包括1990年李开复等研发的SPHINX系统, 该系统以GMM-HMM (Gaussian mixture model-hidden Markov model)为核心框架, 是有史以来第一个高性能的非特定人、大词汇量、连续语音识别系统. GMM-HMM结构在相当长时间内一直占据语音识别系统的主流地位, 并且至今仍然是学习、理解语音识别技术的基石. 此外, 剑桥推出了以HMM为基础的语音识别工具包HTK (hidden Markov model toolkit). 21世纪至今是语音识别的第3阶段. 这一阶段的语音识别建立在深度学习基础上, 得益于神经网络对非线性模型和大数据的处理能力, 取得了大量成果. 2009年Mohamed等提出深度置信网络(deep belief network, DBN)与HMM相结合的声学模型在小词汇量连续语音识别中取得成功. 2012年深度神经网络与HMM相结合的声学模型DNN-HMM在大词汇量连续语音识别(large vocabulary continuous speech recognition, LVCSR)中取得成功, 掀起利用深度学习进行语音识别的浪潮. 此后, 以卷积神经网络(convolutional neural network, CNN)、循环神经网络(recurrent neural network, RNN)等常见网络为基础的混合识别系统和端到端识别系统都获得了不错的识别结果和系统稳定性. 迄今为止, 以神经网络为基础的语音识别系统仍旧是国内外学者的研究热点.

2 语音识别基础

2.1 语音识别概念

语音识别是利用机器对语音信号进行识别和理解并将其转换成相应文本和命令的技术, 涉及到心理学、信号处理、统计学、数学和计算机等多门学科. 其本质是一种模式识别, 通过对未知语音和已知语音的比较, 匹配出最优的识别结果.

根据面向的应用场景不同, 语音识别存在许多不同的类型: 从对说话人的要求考虑可分为特定人和非特定人系统; 从识别内容考虑可分为孤立词识别和连续语音识别、命令及小词汇量识别和大词汇量识别、规范语言识别和口语识别; 从识别的速度考虑还可分为听写和自然语速的识别等.

2.2 传统语音识别基本原理

通常, 语音识别过程大致分为两步: 第1步, 首先对语音信号提取特定的声学特征, 然后对声学特征进行“学习”或者说是“训练”, 即建立识别基本单元的声学模型和进行语言文法分析的语言模型; 第2步是“识别”, 根据识别系统的类型选择能够满足要求的识别方法, 采用语音分析方法分析出这种识别方法所要求的语音特征参数, 按照一定的准则和测度与系统模型进行比较, 通过判决得出识别结果.

2.2.1 特征提取

通常, 在进行语音识别之前, 需要根据语音信号波形提取有效的声学特征. 特征提取的性能对后续语音识别系统的准确性极其关键, 因此需要具有一定的鲁棒性和区分性. 目前语音识别系统常用的声学特征有梅尔频率倒谱系数(Mel-frequency cepstrum coefficient, MFCC)、感知线性预测系数(perceptual linear predictive cepstrum coefficient, PLP)、线性预测倒谱系数(linear prediction cepstral coefficient, LPCC)、梅尔滤波器组系数(Mel filter bank, Fbank)等.

2.2.2 声学模型

声学模型是对等式(1)中的P(X|W)进行建模, 在语音特征与音素之间建立映射关系, 即给定模型后产生语音波形的概率, 其输入是语音信号经过特征提取后得到的特征向量序列. 声学模型整个语音识别系统中最重要的部分, 只有学好了发音, 才能顺利和发音词典、语言模型相结合得到较好的识别性能.

2.2.3 语言模型

语言模型是用来预测字符(词)序列产生的概率, 判断一个语言序列是否为正常语句, 也就是解决如何计算等式中的P(W). 传统的语言模型n-gram是一种具有强马尔科夫独立性假设的模型, 它认为任意一个词出现的概率仅与前面有限的n–1个字出现的概率有关随着深度学习的发展, 语言模型的研究也开始引入深度神经网络. 从n-gram模型可以看出当前的词组出现依赖于前方的信息, 因此很适合用循环神经网络进行建模. Bengio等将神经网络用于语言模型建模, 提出用词向量的概念, 用连续变量代替离散变量, 利用神经网络去建模当前词出现的概率与其前n–1个词之间的约束关系. 这种模型能够降低模型参数的数量, 具有一定的泛化能力, 能够较好地解决数据稀疏带来的问题, 但其对取得长距离信息仍束手无策. 为进一步解决问题, RNN被用于语言模型建模. RNNLM中隐含层的循环能够获得更多上下文信息, 通过在整个训练集上优化交叉熵来训练模型, 使得网络能够尽可能建模出自然语言序列与后续词之间的内在联系. 其优势在于相同的网络结构和超参数可以处理任意长度的历史信息, 能够利用神经网络的表征学习能力, 极大程度避免了未登录问题; 但无法任意修改神经网络中的参数, 不利于新词的添加和修改, 且实时性不高.

2.3 端到端语音识别

传统的语音识别由多个模块组成, 彼此独立训练, 但各个子模块的训练目标不一致, 容易产生误差累积, 使得子模块的最优解并不一定是全局最优解. 针对这个问题, 学者们提出了端到端的语音识别系统, 直接对等式(1)中的概率P(W|X)进行建模, 将输入的语音波形(或特征矢量序列)直接转换成单词、字符序列. 端到端的语音识别将声学模型、语言模型、发音词典等模块被容纳至一个系统, 通过训练直接优化最终目标, 如词错误率(word error rate, WER)、字错误率(character error rate, CER), 极大地简化了整个建模过程. 目前端到端的语音识别方法主要有基于连接时序分类(connectionist temporal classification, CTC)和基于注意力机制(attention model)两类方法及其改进方法.

3 语音识别的难点与热点

语音识别作为人机交互的关键技术一直是科技应用领域的研究热点. 目前, 语音识别技术从理论研究到产品的开发都已取得了很多的成果, 然而, 相关研究及应用落地仍然面临很大挑战, 具体可归纳为以下几方面:

鲁棒性语音识别: 目前, 理想条件下(低噪声加近场)的语音识别准确率已经达到一定程度. 然而, 在实际一些复杂语音环境下, 如声源远场等情景, 低信噪比、房间混响、回声干扰以及多声源信号干扰等因素, 使得语音识别任务面临很大挑战. 因此, 针对复杂环境研究鲁棒语音识别是目前语音识别领域的研究难点和热点.

低资源语音识别: 这是对各种小语种语言识别研究的统称. 小语种不同于方言, 有独立完整的发音体系, 各异性较强但数据资源匮乏, 难以适应以汉语、英语为主的语音识别系统, 声学建模需要利用不充分的数据资源训练得到尽可能多的声学特征. 解决这一问题的基本思路可以概括为从主流语言的丰富资源中提取共性训练出可以公用的模型, 在此基础上训练小语种模型.

语音的模糊性: 各种语言中都存在相似发音的词语, 不同的讲话者存在不同的发音习惯以及口音、方言等问题, 母语者和非母语者说同一种语言也存在不同的口音, 难以针对单独的口音构建模型. 针对多口音建模的问题, 现有的方法一般可以分为与口音无关和与口音相关两大类, 其中与口音无关的模型普遍表现更好一些.

低计算资源: 精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大, 但移动设备(如手机、智能家居等)计算能力和内存有限, 难以支撑, 因此需要对模型进行压缩及加速. 目前针对深度学习模型采用的压缩方法有网络剪枝、参数量化、知识蒸馏等.

4 总结与展望4.1 总结

本文主要对语音识别的发展、系统结构研究、热点及难点进行了阐述. 目前主流的语音识别方法大多基于深度神经网络. 这些方法大体分为两类: 一类是采用一定的神经网络取代传统语音识别方法中的个别模块, 如特征提取、声学模型或语言模型等; 另一类是基于神经网络实现端到端的语音识别. 相比于传统的识别方法, 基于深度神经网络的语音识别方法在性能上有了显著的提升. 在低噪音加近场等理想环境下, 当前的语音识别技术研究已经达到了商业需求. 然而, 在实际应用中存在各种复杂情况, 如声源远场、小语种识别、说话人口音、专业语言场景等, 这些情况使得复杂场景下的语音识别应用落地仍面临挑战. 此外, 尽管当前深度学习在语音识别的应用确实提高了识别率等性能, 但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余, 不适合用于移动设备(如手机、智能穿戴设备等); 此外, 小语种、多口音、不同方言等的识别性能仍然差强人意. 总之, 当前语音识别领域已取得丰富的研究成果, 但仍有很长一段路要走.

4.2 展望

在未来很长一段时间内, 基于深度神经网络的语音识别仍是主流; 面向不同应用场景, 根据语音信号特点对现有神经网络结构进行改进仍是未来研究重点. 大体上, 未来语音识别领域的研究方向可大致归纳如下.

(1)模型压缩与加速. 尽管当前深度学习在语音识别的应用确实提高了识别率等性能, 但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余, 不适合用于移动设备(如手机、智能穿戴设备等), 因此对基于深度神经网络的语音识别系统进行网络模型压缩和加速, 将是未来语音识别的研究方向之一.

(2)数据迁移. 在面对小样本数据或复杂问题时, 迁移学习是一种有效的方式. 在语音识别领域中, 采用迁移学习的方式对小语种、方言口音或含噪语音进行识别也是未来的研究方向之一.

(3)多模态数据融合. 对于一些复杂的语音场景(高噪声、混响、多源干扰等), 可以利用语音信号和其他信号(如图像信号、振动信号等)进行融合, 以提高语音识别性能, 也是未来研究研究方向之一.

(4)多技术融合, 提高认知智能. 当前大多数语音识别算法只关注识别文字内容的正确性; 然而, 许多智能语音交互的应用(如QA问答、多轮对话等)还涉及到语义的理解. 因此, 将语音识别技术结合其他技术如自然语言处理(natural language processing, NLP)相结合以提升识别性能也是未来研究方向之一.

参考文献

[1]	Lee KF, Hon HW, Reddy R. An overview of the SPHINX speech recognition system. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1990, 38(1): 35–45.
[2]	Young SJ, Young S. The HTK hidden Markov model toolkit: Design and philosophy. 1994. https://www.researchgate.net/publication/263124034
[3]	Mohamed AR, Dahl G, Hinton G. Deep belief networks for phone recognition. Nips Workshop on Deep Learning for Speech Recognition and Related Applications. 2009, 1(9): 39.
[4]	Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597
[5]	Wang D, Zhang XW. THCHS-30: A free Chinese speech corpus. arXiv: 1512.01882, 2015.
[6]	Qian YM, Bi MX, Tan T, et al. Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(12): 2263-2276. DOI:10.1109/TASLP.2016.2602884
[7]	Tan T, Qian YM, Hu H, et al. Adaptive very deep convolutional residual network for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(8): 1393-1405. DOI:10.1109/TASLP.2018.2825432
[8]	Hannun A, Case C, Casper J, et al. DeepSpeech: Scaling up end-to-end speech recognition. arXiv: 1412.5567, 2014.
[9]	马晗,唐柔冰,张义,等.语音识别研究综述[J].计算机系统应用,2022,31(01):1-10.DOI:10.15888/j.cnki.csa.008323.
[10]	Sriram A, Jun H, Satheesh S, et al. Cold fusion: Training Seq2Seq models together with language models. arXiv: 1708.06426v1, 2017.
[11]	Zhang WD, Zhang F, Chen W, et al. Fault state recognition of rolling bearing based fully convolutional network. Computing in Science & Engineering, 2019, 21(5): 55-63.
[12]	Zhang SL, Lei M, Yan ZJ, et al. Deep-FSMN for large vocabulary continuous speech recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary: IEEE, 2018. 5869–5873.
[13]	张学工. 模式识别. 3版. 北京: 清华大学出版社, 2010.
[14]	Graves A, Mohamed AR, Hinton G. Speech recognition with deep recurrent neural networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013. 6645–6649.
[15]	Abdel-Hamid O, Mohamed AR, Jiang H, et al. Convolutional neural networks for speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545. DOI:10.1109/TASLP.2014.2339736
[16]	王澳回,张珑,宋文宇,等.端到端流式语音识别研究综述[J].计算机工程与应用,2023,59(02):22-33.
[17]	Peddinti V, Povey D, Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts. Proceedings of Interspeech 2015, 2015. 3214–3218.
[18]	Sainath TN, Vinyals O, Senior A, et al. Convolutional, long short-term memory, fully connected deep neural networks. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). South Brisbane: IEEE, 2015. 4580–4584.
[19]	Li J, Lavrukhin V, Ginsburg B, et al. Jasper: An end-to-end convolutional neural acoustic model. arXiv: 1904.03288v3, 2019.
[20]	Pundak G, Sainath TN. Highway-LSTM and recurrent highway networks for speech recognition. Proceedings of Interspeech 2017. 2017. 1303–1307.
[21]	Xiang HY, Ou ZJ. CRF-based single-stage acoustic modeling with CTC topology. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton: IEEE, 2019. 5676–5680.
[22]	Bahl LR, Jelinek F, Mercer RL. A maximum likelihood approach to continuous speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983, PAMI-5(2): 179-190. DOI:10.1109/TPAMI.1983.4767370
[23]	Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[24]	王庆洁. 基于拼音建模的中文语音识别算法的研究[D].电子科技大学,2024.DOI:10.27005/d.cnki.gdzku.2023.002318.
[25]	Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh: Association for Computing Machinery, 2006. 369–376.
[26]	Bahdanau D, Cho KH, Bengio Y. Neural machine translation by jointly learning to align and translate. 3rd International Conference on Learning Representations, ICLR 2015. arXiv: 1409.0473v6, 2015.
[27]	时小虎,袁宇平,吕贵林,等.自动语音识别模型压缩算法综述[J].吉林大学学报(理学版),2024,62(01):122-131.DOI:10.13413/j.cnki.jdxblxb.2023058.
[28]	Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai: IEEE, 2016. 4960–4964.
[29]	Pang RM, Sainath TN, Prabhavalkar R, et al. Compression of end-to-end models. Proceedings of Interspeech 2018. Hyderabad, 2018. 27–31.
[30]	Chiu CC, Sainath TN, Wu YH, et al. State-of-the-art speech recognition with sequence-to-sequence models. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary: IEEE, 2018. 4774–4778. 实验总结对多通道用户界面的理解：通过此次实验，我系统地了解了多通道用户界面的概念和各种输入方式的特点。这些技术不仅能够提高用户体验，还可以解决一些传统交互方式中的问题。例如，语音识别可以解放用户的双手，使交互更加自然和便捷。研究语音识别的收获：在研究语音识别的过程中，我学到了其技术实现的基本流程，包括语音信号的采集、预处理、特征提取、模式匹配和后处理等。这些知识不仅让我理解了语音识别的工作原理，还使我认识到其中存在的技术挑战，如环境噪音、口音差异和数据隐私保护等。资料查找和整合能力的提升：在查找和整理资料的过程中，我学会了如何高效地获取和筛选信息，并将零散的知识整合成一篇结构清晰的综述文章。这对我今后的学习和研究工作有很大帮助。撰写技术综述的经验：撰写综述文章让我了解了如何构建一篇技术文献，从引言、技术原理、应用领域、优势与挑战到未来发展方向，层层递进，逻辑清晰。这不仅提升了我的写作能力，还增强了我的逻辑思维和表达能力。此次实验使我对多通道用户界面有了全面的认识，特别是对语音识别技术有了深入的理解。通过查找资料和撰写综述，我不仅掌握了相关技术知识，还提升了信息整合和技术写作的能力。未来，我将继续关注多通道用户界面的发展动态，深入研究其在不同领域的应用和发展前景。

人机交互系统实验三 多通道用户界面

悦读

人机交互系统实验三多通道用户界面