Google发布大规模多语言数据集MADLAD-400,涵盖419种语言、3万亿词汇

650次阅读
没有评论

Google发布的大规模多语言数据集MADLAD-400

Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat

推出MADLAD-400,一个涵盖419种语言、包含3万亿词汇的单语数据集,通过从CommonCrawl中挖掘获得。手工审核了原始的5万亿词汇初步数据集,删除了噪声和不良内容,在此过程中删除了79种语言。

应用了过滤器来处理误渲染文字、色情内容、模板文本等问题。对使用virama字符和Zawgyi编码的语言做了特殊处理。

论文地址:https://arxiv.org/abs/2309.04662

使用MADLAD-400和其他平行数据训练了高达107亿参数的多语言机器翻译模型,以验证该数据集的有效性。模型的性能与更大模型相媲美。

Google发布大规模多语言数据集MADLAD-400,涵盖419种语言、3万亿词汇

 

训练了一个80亿参数的语言模型,在少样本翻译任务上进行了评估。

对模型的记忆和过拟合进行了分析。引入了“Canaries”以便于进一步研究这些问题。

阐明了精心创建大规模多语言数据集的迭代过程,并证明了它在训练高性能模型方面的效用,同时也突出了需要改进的领域。MADLAD-400的公开发布有望推动更包容的自然语言处理研究。

GitHub: github.com/google-research/google-research/tree/master/madlad_400 

 

Google发布大规模多语言数据集MADLAD-400,涵盖419种语言、3万亿词汇

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy