谷歌推出基于RNN-T的全神经元设备端语音识别器解决识别延迟难题

新知榜官方账号

2023-11-30 16:13:30

在近二十年来,尤其是引入深度学习以后,语音识别取得了一系列重大突破,并一步步走向市场并搭载到消费级产品中。然而在用户体验上,「迟钝」可以算得上这些产品最大的槽点之一,这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前,谷歌推出了基于循环神经网络变换器(RNN-T)的全神经元设备端语音识别器,能够很好地解决目前语音识别所存在的延迟难题。谷歌也将这项成果发布在了官方博客上,AI科技评论进行编译如下。

2012年,语音识别研究表明,通过引入深度学习可以显著提高语音识别准确率,因此谷歌也较早地在语音搜索等产品中采用深度学习技术。而这也标志着语音识别领域革命的开始:每一年,谷歌都开发出了从深度神经网络(DNN)到循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积网络(CNNs)等一系列新的架构,进一步地提高了语音识别的质量。然而在此期间,延迟问题依旧是该领域需要攻克的主要难点——当语音助手能够实现快速回答问题时,用户会感觉它有帮助得多。

日前,谷歌正式宣布推出端到端、全神经元的设备端语音识别器,为Gboard中的语音输入提供支持。在谷歌AI最近的一篇论文《移动设备的流媒体端到端语音识别》(StreamingEnd-to-EndSpeechRecognitionforMobileDevices,论文阅读地址:https://arxiv.org/abs/1811.06621)中,其研究团队提出了一种使用循环神经网络变换器(RNN-T,https://arxiv.org/pdf/1211.3711.pdf)技术训练的模型,该技术也足够精简可应用到手机端上。这就意味着语音识别不再存在网络延迟或故障问题——新的识别器即便处于离线状态也能够运行。该模型处理的是字符水平的语音识别,因此当人在说话时,它会逐个字符地输出单词,这就跟有人在实时键入你说的话一样,同时还能达到你对键盘听写系统的预期效果。

该图对比了识别同一句语音时,服务器端语音识别器(左边)以及新的设备端语音识别器(右边)的生成情况。图源:AkshayKannan,ElnazSarbar

循环神经网络变换器(RNN-T)是不采用注意力机制的序列到序列模型的一种形式。与大多数序列到序列模型需要处理整个输入序列以生成输出不同,RNN-T能持续地处理输入的样本和数据流,并进行符号化的输出,这种符号化的输出有助于进行语音听写。在谷歌研究人员的实现中,符号化的输出就是字母表中的字符。当人在说话时,RNN-T识别器会逐个输出字符,并进行适当留白。在这一过程中,RNN-T识别器还会有一条反馈路径,将模型预测的符号输回给自己以预测接下来的符号,具体流程如下图所示:

RNN-T的表示:用x表示输入语音样本;用y表示预测的符号。预测的符号(Softmax层的输出)y(u-1)通过预测网络被输回给模型,确保预测同时考虑到当前的语音样本以及过去的输出。预测和解码网络都是LSTMRNN,联合的模型则是前馈网络(feedforwardnetwork,相关论文查看地址:https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF)。预测网络由2个拥有2048个单元的层和1个有着640个维度的投射层组成。解码网络则由8个这样的层组成。图源:ChrisThornton

谷歌全新的全神经元设备端Gboard语音识别器,刚开始仅能在使用美式英语的Pixel手机上使用。考虑到行业趋势,同时随着专业化硬件和算法的融合不断增强,谷歌表示,希望能够将这一技术应用到更多语言和更广泛的应用领域中去。

本页网址:https://www.xinzhibang.net/article_detail-21521.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌 RNN-T 语音识别 延迟问题 全神经元 设备端

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯