SFFAI 18 | 语音关键词检测方法综述

关注微信公众号：人工智能前沿讲习班，公众号对话框回复“白烨”获取PPT。

随着智能音箱、语音助手等应用的出现，普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术，被广泛地应用于各类智能设备、语音检索系统当中。

讲者介绍

白烨：中国科学院自动化研究所博士生，本科毕业于中国农业大学。研究兴趣为语音识别、语言模型、语音关键词检测。

报告题目：语音关键词检测方法综述

报告摘要：随着智能音箱、语音助手等应用的出现，普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术，被广泛地应用于各类智能设备、语音检索系统当中。语音关键词检测可以分成两种，一种是用于设备唤醒、设备控制keyword spotting；一种是应用于语音文档检索的spoken term detection，二者虽然名字类似，但从功能侧重和技术路线上都有所区别。本次分享介绍语音关键词检测的主要方法与最新进展。

Spotlight：

语音关键词检测介绍；
基于隐马尔可夫模型的语音关键词检测；
基于样例查询的语音关键词检测；
基于大词汇量语音识别系统的语音关键词检测；
总结。

论文推荐

Query-by-example keyword spotting using long short-term memory networks
推荐理由：此篇文章是第一篇使用深度神经网络，直接将音频序列编码为固定长度向量进行QbE KWS的文章。在这之前的KWS基本上都是基于DTW计算序列之间的距离，而这篇文章首次使用了LSTM对序列进行编码，最后直接计算距离即可，速度快，效果好。基于这种范式，还诞生了关键词检测的应用SnowBoy（内部具体模型可能不一样）。
Lattice Indexing for Spoken Term Detection
推荐理由：语音检索（Keyword Search, or Spoken Term Detection）中，如何将语音识别的结果建立倒排索引，快速定位到关键词发生的位置，是语音检索中重要问题。基于加权有限状态转换器的时间因子自动机方法，因为其计算高效（检索时线性复杂度），准确，框架优雅，已经成为了语音检索中的标准方法。在流行的开源语音工具包Kaldi中也已经集成了这一方法。

参考资料

https://www.bilibili.com/video/BV1Cb4116754/
https://bbs.sffai.com/d/48-rnn-transducer