用类人开发数据语料库预训练大语言模型

396次阅读
没有评论

Pre-training LLMs using human-like development data corpus

K Bhardwaj, R S Shah, S Varma
[Georgia Institute of Technology]

用类人开发数据语料库预训练大语言模型

要点:

  • 探索了用一个小型的、类似人类的数据集(1000-1亿个token)来预训练大型语言模型,而不是通常使用的更大的数据集。
  • 目的是更好地理解人类语言获取,在人类行为特征上评估模型,并使模型与人类认知保持一致。
  • 共享任务分为严格、小规模严格和宽松三个track,允许不同的数据集大小,本文重点关注严格和小规模严格track。
  • 本文从头训练了RoBERTa、DistilBERT和GPT-2,并在各种基准测试上进行评估,更多训练轮次通常能改进性能。
  • 在相同训练轮次下,架构变化的影响较小,本文提供了每个训练轮次的检查点,以方便未来研究。
  • 在SuperGLUE上,预训练优于多数类基线,与以前的认识不同,BLIMSP任务的表现随着训练轮次的增加而提高。
  • 复制发表的基线结果是困难的,这表明训练缺乏鲁棒性并对超参数敏感。

动机:评估使用与儿童所见的语言Token数量相当的语料库对大型语言模型(LLM)进行预训练的能力。这样的预训练方法可以更好地模拟人类学习过程,并在新的LLM训练技术、模型评估以及人类认知模型方面提供更好的基础。
方法:使用了不同的模型架构,在与儿童所见的语言Token数量相当的语料库上对LLM进行了预训练,并通过多个任务的评估来比较它们的性能。同时,论文还尝试复现了任务组织者提供的RoBERTa基线,并观察了模型对超参数选择和可复现性的鲁棒性。
优势:通过使用与儿童相似数量的语言Token进行预训练,可以更好地模拟人类学习过程,并为LLM的发展提供更好的基础。此外,论文还提供了对不同模型架构的强大基线和评估方法,以及对预训练指标的详细报告。

一句话总结:
通过使用与儿童相似数量的语言Token进行预训练,评估了大型语言模型在不同任务上的性能,并提供了对模型鲁棒性和可复现性的观察,以更好地模拟人类学习过程。

https://arxiv.org/abs/2311.04666 

用类人开发数据语料库预训练大语言模型

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy