一项利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

419次阅读
没有评论

An Empirical Study of Leveraging Knowledge Distillation for Compressing
Multilingual Neural Machine Translation Models

解决问题:论文主要探讨如何使用知识蒸馏(Knowledge Distillation,KD)来压缩多语言神经机器翻译(MNMT)模型。作者指出,尽管MNMT模型非常流行且表现优异,但目前几乎没有关注从大型MNMT模型中提取知识以压缩它们的研究。

关键思路:论文的关键思路是使用知识蒸馏来压缩MNMT模型。作者进行了实证研究,以Indic到English的翻译为例,展示了常用的语言无关和语言感知的KD方法可以将模型压缩4-5倍,但翻译质量也会下降3.5 BLEU。为了缓解这个问题,作者尝试了一些设计考虑,如浅层与深层模型、重参数共享、多阶段训练和适配器等。作者观察到,较深的紧凑模型往往与较浅的非紧凑模型一样好,而在高质量子集上微调蒸馏模型可以略微提高翻译质量。

其他亮点:论文的实验设计非常详细,使用了多个数据集和模型,作者还提供了开源代码。作者指出,压缩MNMT模型是具有挑战性的,需要进一步的研究。此外,论文还提供了一些有价值的启示,例如深层模型可以更好地适应知识蒸馏。

关于作者:论文的主要作者是Varun Gumma、Raj Dabre和Pratyush Kumar。他们都来自印度理工学院(Indian Institute of Technology)的计算机科学系。根据我的数据库,他们之前的代表作包括:

  • Varun Gumma:《A Study of the Effect of Data Augmentation on Learning Representations from Unlabeled Data》
  • Raj Dabre:《A Study of the Impact of Data Augmentation on Learning Representations for Natural Language Processing Tasks》
  • Pratyush Kumar:《A Comprehensive Study of Convolutional Neural Network Architectures for Spoken Language Identification》

相关研究:最近还有一些相关的研究,包括:

  • “Distilling Task-Specific Knowledge from BERT into Simple Neural Networks”,作者:Tianyu Gao、Xing Fan、Fei Wu,机构:Zhejiang University、Microsoft Research Asia
  • “Multi-Task Knowledge Distillation for Low-Resource Machine Translation”,作者:Xuanli He、Gholamreza Haffari、Miles Osborne,机构:The University of Edinburgh、Monash University
  • “Compressing Neural Machine Translation Models via Knowledge Distillation”,作者:Yiren Wang、Fandong Meng、Jinhua Zhu、Jie Zhou,机构:Tencent AI Lab

论文摘要:本文研究了利用知识蒸馏方法压缩多语言神经机器翻译(MNMT)模型的实证研究。虽然MNMT的普及和优越性,但是专注于将大型MNMT模型的知识蒸馏到较小模型的研究实际上并不存在。我们以印地语到英语翻译为案例研究,证明了常用的语言无关和语言感知的知识蒸馏方法可以生成比原模型小4-5倍的模型,但翻译质量会下降高达3.5 BLEU。为了缓解这种情况,我们进行了设计考虑,如浅层与深层模型、重度参数共享、多阶段训练和适配器。我们观察到,深度紧凑模型往往与浅层非紧凑模型一样好,并且在高质量子集上微调蒸馏模型稍微提高了翻译质量。总体而言,我们得出结论,通过知识蒸馏压缩MNMT模型具有挑战性,表明有巨大的进一步研究空间。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy