LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze
Abdullatif Köksal剑桥学生;Anna Korhonen是剑桥大学自然语言处理教授
指令调整使语言模型能够更有效地泛化,并更好地遵循用户的意图。然而,获得指令数据可能是昂贵的和具有挑战性的。之前的工作采用的方法包括昂贵的人类注释、存在对齐问题的众包数据集,或通过LLMs生成噪声实例。我们介绍了LongForm数据集,该数据集是通过利用带有增强指令的英语语料库实例创建的。我们从现有的语料库(如C4和维基百科)中选择了一组不同的人写的文件,并通过LLMs为给定的文件生成指令。这种方法提供了一个更便宜、更干净的指令调整数据集,而且适合于长文本的生成。
我们在我们的数据集上对T5、OPT和LLaMA模型进行了微调,并表明即使是较小的LongForm模型也具有良好的文本生成的泛化能力。我们的模型在各种任务上的表现优于10倍大的语言模型,如故事/菜谱生成和长文本问题回答。此外,LongForm模型在很大程度上超过了先前的指令调优模型,如FLAN-T5和Alpaca。最后,我们的模型能够有效地遵循和回答多语言指令;我们在新闻生成中证明了这一点。
论文地址:https://arxiv.org/abs/2304.08460
数据和模型:https://github.com/akoksal/LongForm