交互模式的变革贯穿了整个 IT 产业的发展史,语音交互很有可能成为下一代人机交互的主要模式。
语音识别与自然语音处理是机器能够“听懂”用户语言的主要技术基础,其中语音识别注 重对用户语言的感知,目前在中文语音识别上,国内已经达到 97%的语音识别准确率,这要 归功于深度神经网络的应用、算力的提高以及大数据的积累。语音识别是机器感知用户的基础, 在听到用户的指令之后,更为重要的是如何让机器懂得指令的意义,这就需要自然语言处理将 用户的语音转化为机器能够反应过来的机器指令,包括自然语言理解、多轮对话理解、机器翻 译技术等。对于自然语言处理方面,虽然深度学习能起到的作用还有待观察,但在语义理解和 语言生成等领域都有了重要突破。很多提供语音技术服务的公司也突破了原有 的单纯语音识别或者语义理解的业务框架,开始提供整体的智能语音交互产品。
1. 语音识别技术 语音识别技术已趋于成熟。语音识别的目标是将人类语音表达的内容转换为机器可读的输 入,用于构建机器的“听觉系统”。语音识别技术经历了长达 60 年的发展。近年来,机器学 习和深度神经网络的引入,使得语音识别的准确率提升到足以在实际场景中应用。早在 2016 年年初,美国麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》评选出了“2016 年十大突破技术”,语音识别位列第三,与其他技术一起“到达一个里程碑式的阶段或即将到 达这一阶段”。 深度神经网络声学模型的几个重大发展阶段如下: 2006 年,Geoffrey Hinton 提出深度置信网络(DBN),促进了深度神经网络的研究。 2009 年,Geoffrey Hinton 将深度神经网络应用于声音的声学建模,当时在 TIMIT 上 获得了很好的结果。 2011 年底,微软研究院又把深度神经网络技术应用在了大词汇连续识别任务上,大 大降低了语音识别的错误率。从此以后,基于深度神经网络声学模型技术的研究变得 异常火热。 微软 2016 年 10 月发布的 Switchboard 语音识别测试中,更是取得了 5.9%的词错误率,第 一次实现了和人类一样的识别水平,这是一个历史性突破。 语音识别整个过程(见图 2-8)包含语音信号预处理、声学特征提取、声学和语言模型建 模、解码等多个环节。简单来说,声学模型用来模拟发音的概率分布,语言模型用来模拟词语 之间的关联关系,而解码阶段就是利用上述两个模型将声音转化为文本。
深度神经网络声学模型主要应用于声学、语言模型建模、解码等各个主要环节,模型主要 包括深度神经网络、长短时记忆网络(LSTM)、双向长短时记忆网络(BLSTM)、深度卷 积神经网络(Deep CNN)、Residual/Highway 网络等模型。
总之,语音识别作为一类重要的基础技术,应用十分广泛,并且己有不少产品为人们所 熟知,语音识别产业的增长主要靠渗透率的提升和应用的突破,主要的应用包括语音助手、 语音输入、语音搜索等,可应用在各类移动 APP 应用和终端应用等对人机交互有较高要求 的领域。对于语音识别技术而言,率先发展起来的服务机器人和语音助手已占据数据积累的 领先地位,在家居、出行、运动等多个场景中,语音交互正在爆发,智能音箱、智能车载、 智能手表等产品中,通过接入语音交互技术,实现随身陪伴、语音助理的功能。国内现已涌 现出一批发展较好的智能语音相关企业,其中技术领先和产品成熟的企业主要有科大讯飞、 百度、小米等。语音识别经过几年的技术积累己相对成熟,厂商仍在发展方言识别等更为精 准的识别方式。