转载

95188：BLSTM-DNN hybrid语音识别声学模型的第一个工业应用

双十一当天，蚂蚁金服客户中心整体服务量超过500万人次，94%以上都是通过人工智能技术驱动的自助服务解决。在整个自助服务中，非常重要的一环是呼叫中心的语音转文本服务，这是一个典型的电话语音识别问题。

电话语音识别是当今语音识别领域最复杂最困难的问题之一。对话过程中说话人风格自然随意、口音、不流利（重复、修改自己的说法）、传输信道复杂多样等各种不利因素都集中在这个场景中。随着深度学习等技术的发展，当今电话语音识别的准确率已经达到了不错的水平，这在几年前都是难以想象的。

我们使用的是基于LC-BLSTM-DNN hybrid的语音识别声学模型，为了检测该模型的效果，我们特别邀请一位技术特别牛、普通话口音也挺牛的同学，拨打支付宝95188客服热线，体验了一次阿里巴巴iDST于不久前升级上线的最新语音识别技术。结果让人惊讶。据我们所知（to the best of our knowledge），这也是该种模型结构在语音识别领域上线的第一个工业界应用。本文将会介绍这一声学模型的背景，及我们的具体实现工作。

传统上语音识别声学模型一般采用GMM-HMM进行建模。近年来，随着深度学习技术的发展，基于DNN-HMM的建模方法取得了长足发展，相比传统方法可以使语音识别的准确率相对提升20%-30%，已取代前者成为学术界和工业界的主流配置。DNN的优点在于通过增加神经网络的层数和节点数，扩展了网络对于复杂数据的抽象和建模能力，但同时DNN也存在一些不足，例如DNN中一般采用拼帧来考虑上下文相关信息对于当前语音帧的影响，这并不是反映语音序列之间相关性的最佳方法。自回归神经网络（RNN）在一定程度上解决了这个问题，它通过网络节点的自连接达到利用序列数据间相关性的目的。进一步有研究人员提出一种长短时记忆网络（LSTM-RNN），它可以有效减轻简单RNN容易出现的梯度爆炸和梯度消散问题，而后研究人员又对LSTM进行了扩展，使用双向长短时记忆网络（BLSTM-RNN）进行声学模型建模，以充分考虑上下文信息的影响。

BLSTM可以有效地提升语音识别的准确率，相比于DNN模型，相对性能提升可以达到15%-20%。但同时BLSTM也存在两个非常重要的问题：

句子级进行更新，模型的收敛速度通常较慢，并且由于存在大量的逐帧计算，无法有效发挥GPU等并行计算工具的计算能力，训练会非常耗时；
由于需要用到整句递归计算每一帧的后验概率，解码延迟和实时率无法得到有效保证，很难应用于实际服务。

对于这两个问题，文献[1]首先提出Context-Sensitive-Chunk BLSTM（CSC-BLSTM）的方法加以解决，而此后文献[2]又提出了Latency Controlled BLSTM（LC-BLSTM）这一改进版本，更好、更高效的减轻了这两个问题。我们在此基础上采用LC-BLSTM-DNN混合结构配合多机多卡、16bit量化等训练和优化方法进行声学模型建模，取得了相比于DNN模型约17-24%的相对识别错误率下降。目前该套模型已在电话语音识别中率先应用，并将陆续在我们支持的其他语音识别业务上线。

什么是“Latency Controlled BLSTM”

典型的LSTM节点结构下图所示，与一般DNN或simple RNN采用简单的激活函数节点不同，LSTM由3个gate：input gate、forget gate、output gate和一个cell组成，输入、输出节点以及cell同各个门之间都存在连接；input gate、forget gate同cell之间也存在连接，cell内部还有自连接。这样通过控制不同门的状态，可以实现更好的长短时信息保存和误差传播。