标题:ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning
作者:Viet Dac Lai, Nghia Trung Ngo, Amir Pouran Ben Veyseh, Hieu Man, Franck Dernoncourt, Trung Bui, Thien Huu Nguyen
[ University of Oregon&Adobe Research]
简介:
背景:在过去的几年里,大型语言模型(LLMs)已经成为自然语言处理(NLP)领域最重要的突破,从根本上改变了该领域的研究和发展。ChatGPT代表了最近开发的最令人兴奋的LLM系统之一,展示了令人印象深刻的语言生成技能,并高度吸引了公众的关注。在为ChatGPT发现的各种令人兴奋的英语应用中,由于其多语言训练数据,该模型可以处理和生成多种语言的文本。鉴于ChatGPT在不同问题和领域的广泛采用,一个自然的问题是ChatGPT是否也能有效地应用于其他语言,或者有必要开发更多特定语言的技术。要回答这个问题,需要对ChatGPT在不同语言和大型数据集的多个任务上进行彻底的评估(即超越报道的轶事),而这一点在目前的研究中仍然缺失或有限。
目的:我们的工作旨在填补这一空白,对ChatGPT和类似的LLM进行评估,为多语言NLP应用提供更全面的信息。虽然这项工作将是一个持续的努力,在未来包括更多的实验,但我们目前的论文在7个不同的任务上评估了ChatGPT,涵盖了37种不同的语言,有高、中、低和极低的资源。我们还关注ChatGPT的零次学习设置,以提高可重复性,更好地模拟一般用户的互动。与以前的模型性能相比,我们广泛的实验结果表明,ChatGPT在不同的NLP任务和语言中的性能较差,这就要求我们进一步研究,为多语言学习开发更好的模型和理解。
https://arxiv.org/pdf/2304.05613.pdf