Approximate Nearest Neighbour Phrase Mining for Contextual Speech
Recognition
解决问题:本文旨在通过一种简单而有效的方法,即从上下文编码器的潜在空间中挖掘困难的负短语,扩展训练端到端上下文感知变压器转录器(CATT)模型。在训练期间,给定一个参考查询,我们使用近似最近邻搜索挖掘一些相似的短语作为负样本。这些采样短语随机与真实上下文信息一起用于上下文列表中。通过在上下文列表中包含近似最近邻短语(ANN-P),我们鼓励学习表示在类似但不完全相同的偏见短语之间进行区分。这提高了当偏见库中存在几个类似的短语时的偏见准确性。本文的贡献是提出了一种新的方法来改进上下文感知变压器转录器模型的性能。
关键思路:本文的关键思路是使用近似最近邻搜索来挖掘困难的负短语,并将其用作上下文列表中的负样本,以提高上下文感知变压器转录器模型的性能。与当前领域的研究相比,本文的思路是新颖的,因为它使用了近似最近邻搜索来挖掘负短语,这在先前的研究中并不常见。
其他亮点:本文的实验在大规模数据集上进行,对测试数据的上下文部分获得了高达7%的相对词错误率降低。此外,本文还扩展并评估了CATT方法在流应用中的性能。本文没有提到数据集是否开源,也没有提到是否有可用的代码。本文的工作值得进一步深入研究。
关于作者:Maurits Bleeker、Pawel Swietojanski、Stefan Braun和Xiaodan Zhuang是本文的主要作者。他们分别来自荷兰鹿特丹Erasmus大学、爱丁堡大学、微软和华盛顿大学。Maurits Bleeker之前的代表作包括“Unsupervised Learning of Morphological Paradigms with Word Embeddings”;Pawel Swietojanski之前的代表作包括“Unsupervised Cross-lingual Knowledge Transfer in End-to-End ASR”;Stefan Braun之前的代表作包括“End-to-End ASR for Low-Resource Code-Switched Speech with Multilingual Pre-Training and Fine-Tuning”;Xiaodan Zhuang之前的代表作包括“End-to-End Speech Recognition using Multi-Task Learning with Connectionist Temporal Classification and Sequence Discriminative Training”。
相关研究:最近的相关研究包括“End-to-End Contextual Biasing for Neural Machine Translation”(作者:Shuo Ren、Jinchao Li、Xiaodan Zhuang、Kehai Chen、Katharina Kann),以及“Contextual Speech Recognition with Neural Language Models”(作者:Yao Qian、Frank Seide、Gang Li、Dong Yu)。这些论文的作者都来自微软。
论文摘要:本文提出了一种扩展方法,通过使用从上下文编码器的潜在空间中挖掘困难负短语的简单而有效的方法来训练端到端上下文感知变压器转录器(CATT)模型。在训练过程中,给定一个参考查询,我们使用近似最近邻搜索挖掘一些类似的短语。这些采样的短语然后与随机和基本事实的上下文信息一起用作上下文列表中的负面示例。通过在上下文列表中包括近似最近邻短语(ANN-P),我们鼓励学习表示在类似但不完全相同的偏见短语之间进行区分。当偏见库中存在多个类似的短语时,这提高了偏见准确性。我们在大规模数据情况下进行了实验,对测试数据的上下文部分获得了高达7%的相对词错误率降低。我们还扩展并评估了CATT方法在流应用中的应用。