关注微信公众号:人工智能前沿讲习班,公众号对话框回复“白烨”获取PPT。
随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中。
讲者介绍
白烨:中国科学院自动化研究所博士生,本科毕业于中国农业大学。研究兴趣为语音识别、语言模型、语音关键词检测。
报告题目:语音关键词检测方法综述
报告摘要:随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中。语音关键词检测可以分成两种,一种是用于设备唤醒、设备控制keyword spotting;一种是应用于语音文档检索的spoken term detection,二者虽然名字类似,但从功能侧重和技术路线上都有所区别。本次分享介绍语音关键词检测的主要方法与最新进展。
Spotlight:
- 语音关键词检测介绍;
- 基于隐马尔可夫模型的语音关键词检测;
- 基于样例查询的语音关键词检测;
- 基于大词汇量语音识别系统的语音关键词检测;
- 总结。
论文推荐
Query-by-example keyword spotting using long short-term memory networks
推荐理由:此篇文章是第一篇使用深度神经网络,直接将音频序列编码为固定长度向量进行QbE KWS的文章。在这之前的KWS基本上都是基于DTW计算序列之间的距离,而这篇文章首次使用了LSTM对序列进行编码,最后直接计算距离即可,速度快,效果好。基于这种范式,还诞生了关键词检测的应用SnowBoy(内部具体模型可能不一样)。
Lattice Indexing for Spoken Term Detection
推荐理由:语音检索(Keyword Search, or Spoken Term Detection)中,如何将语音识别的结果建立倒排索引,快速定位到关键词发生的位置,是语音检索中重要问题。基于加权有限状态转换器的时间因子自动机方法,因为其计算高效(检索时线性复杂度),准确,框架优雅,已经成为了语音检索中的标准方法。在流行的开源语音工具包Kaldi中也已经集成了这一方法。
参考资料
https://www.bilibili.com/video/BV1Cb4116754/
https://bbs.sffai.com/d/48-rnn-transducer