标题:A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models
链接:https://arxiv.org/abs/2303.10420v1
作者:Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang
单位:复旦大学
摘要:
GPT 系列模型,如 GPT-3、Codex、InstructGPT、ChatGPT 等,由于其出色的自然语言处理能力而受到相当大的关注。然而,尽管对 GPT 系列模型和微调模型之间的性能差异进行了大量的研究,但人们对 GPT 系列模型功能随时间的演变的关注有限。为了全面分析 GPT 系列模型的性能,本文选择了 6 个具有代表性的模型:包括 2 个 GPT-3 系列模型(DaVinci、Text-DaVinci-001)和 4 个 GPT-3.5 系列模型(Code-DaVinci-002、Text-DaVinci-002、Text-DaVinci-003 和 GPT-3.5-Turbo)。本文使用 21 个数据集评估了他们在 9 个自然语言理解(NLU)任务上的表现。特别是,研究者比较了不同模型在 zero-shot 和 few-shot 场景下的性能和稳健性。本文的大量实验表明,GPT 系列模型在 NLU 任务上的整体能力并没有随着模型的演化而逐渐增加,特别是随着 RLHF 训练策略的引入。虽然这一策略增强了模型产生类似人类反应的能力,但它也损害了它们解决某些任务的能力。此外,本文的研究结果表明,模型稳健性等方面仍有改进的空间。