SFFAI 78 | 语音识别专题《田正坤：流式与非自回归语音识别综述》

关注公众号：【人工智能前沿讲习】，回复【SFFAI78】获取讲者PPT资料，入交流群，推荐论文下载。

语音识别作为人机互动的重要接口，长期受到学界和业界的关注。从隐马尔可夫模型，到深度神经网络，再到端到端技术的兴起；从对准确率的竞争，再到用户体验的关注，语音识别的能力正在被逐步提升并实际应用。本期论坛我们邀请到了来自中科院自动化研究所的田正坤同学，对流式端到端技术和非自回归模型进行综述。

讲者介绍

田正坤：中科院自动化研究所在读博士生，研究兴趣语音识别。在语音领域顶会ICASSP和Interspeech上发表多篇文章。

报告题目：流式与非自回归语音识别综述

报告摘要：端到端语音识别已经从实验室走到了台前，尤其是基于注意力机制的端到端模型在很多大公司已经进行了应用。但是基于注意力机制的模型依赖于全部的上下文信息进行识别，必须等一句话结束后再进行识别，这样就不能实现边听边识别，影响了交互体验。流式端到端语音识别就是解决这个问题。本次分享对目前的流式语音识别思路进行了分类总结。此外对于最新的基于非自回归模型的语音识别模型也进行了简单的阐述。

Spotlight：

总结了流式端到端语音识别方法；
对不同的流式语音识别模型进行了分析比较；
介绍了最新的非自回归语音识别思路。

论文推荐

MONOTONIC CHUNKWISE ATTENTION
推荐理由：本文介绍单调注意力机制，通过限制注意力机制的单调性，实现了语音识别的流式解码。
Triggered Attention for End-to-End Speech Recognition
推荐理由：本文的思路与百度SMLTA相似，利用CTC的尖峰对编码序列进行切分，在切分块上计算注意力机制来实现流式解码。
CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION
推荐理由：本文是信息累积的思路。通过判断是否达到触发的阈值，如果达到阈值则在当前位置进行切分，如果没有达到阈值，则记录当前位置所包含的信息量，然后跳转到下一时刻并重复上述计算。
SYNCHRONOUS TRANSFORMERS FOR END-TO-END SPEECH RECOGNITION
推荐理由：本文通过逐块解码的方式来实现流式解码，将编码序列切分为等长的块，在块内进行注意力的计算，如果预测得到空格标记则表示当前块解码完成，并跳转到下一个块，重复上述计算直到最后一个块解码结束。
Listen and Fill in the Missing Letters: Non-Autoregressive Transformer for Speech Recognition
推荐理由：本文最先将非递归网络引入语音识别任务，并提出了使用两种非递归网络的解码思路。
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition
推荐理由：本文将CTC模型引入非递归网络的计算中，使用CTC的尖峰来预测目标序列的长度，并辅助模型收敛。

参考资料

https://www.bilibili.com/video/BV1xf4y1n7ND/