大型语言模型综述｜从T5到GPT-4最全盘点，国内20余位研究者联合撰写

1,112次阅读

中国人民大学、浙江大学等院校机构的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展，尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源，讨论了未来发展方向等问题。对于领域内研究人员和工程师而言，这份综述是一份极其有用的学习资源。

论文链接：https://arxiv.org/abs/2303.18223

在进入正文前，我们先来看 2019 年以来出现的各种大语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

大型语言模型综述｜从T5到GPT-4最全盘点，国内20余位研究者联合撰写

LLMs 概览

在第一节中，研究者详细介绍了 LLMs 的背景、能力和关键技术。

LLMs 的背景

通常，大型语言模型（LLM）是指包含数千亿（或更多）参数的语言模型，这些参数是在大量文本数据上训练的，例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具体来说，LLM 建立在 Transformer 架构之上，其中多头注意力层堆叠在一个非常深的神经网络中。现有的 LLM 主要采用与小语言模型类似的模型架构（即 Transformer）和预训练目标（即语言建模）。作为主要区别，LLM 在很大程度上扩展了模型大小、预训练数据和总计算量（扩大倍数）。他们可以更好地理解自然语言，并根据给定的上下文（例如 prompt）生成高质量的文本。这种容量改进可以用标度律进行部分地描述，其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律，某些能力（例如，上下文学习）是不可预测的，只有当模型大小超过某个水平时才能观察到。

LLMs 的涌现能力

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」，这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时，它还引入了一个显著的特征：当规模达到一定水平时，性能显著高于随机的状态。以此类推，这种新模式与物理学中的相变现象密切相关。原则上，这种能力也可以与一些复杂的任务有关，而人们更关心可以应用于解决多个任务的通用能力。这里简要介绍了 LLM 的三种代表性的涌现能力：

上下文学习。GPT-3 正式引入了上下文学习能力：假设语言模型已经提供了自然语言指令和多个任务描述，它可以通过完成输入文本的词序列来生成测试实例的预期输出，而无需额外的训练或梯度更新。

指令遵循。通过对自然语言描述（即指令）格式化的多任务数据集的混合进行微调，LLM 在微小的任务上表现良好，这些任务也以指令的形式所描述。这种能力下，指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务，这可以大大提高泛化能力。

循序渐进的推理。对于小语言模型，通常很难解决涉及多个推理步骤的复杂任务，例如数学学科单词问题。同时，通过思维链推理策略，LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。据推测，这种能力可能是通过代码训练获得的。

关键技术

接下来来看 LLMs 的关键技术，包括了缩放、训练、能力激发、对齐调优、工具利用等。

缩放。缩放是增加 LLMs 模型容量的关键因素，最开始 GPT-3 将模型参数增至 1750 亿，随后 PaLM 进一步将模型参数增至 5400 亿。大规模参数对于涌现能力至关重要。缩放不仅针对模型大小，还与数据大小和总计算量有关。

训练。由于规模巨大，成功训练一个具备强大能力的 LLMs 非常具有挑战性。因此需要分布式训练算法来学习 LLMs 的网络参数，经常联合使用各种并行策略。为了支持分布式训练，DeepSpeed 和 Megatron-LM 等优化框架被用来促进并行算法的实现和部署。此外，优化技巧对训练稳定性和模型性能也很重要，例如重新启动训练损失尖峰和混合精度训练。最近的 GPT-4 开发了特殊的基础设施和优化方法，从而利用小得多的模型来预测大模型的性能。

能力激发。在大规模语料库上经过预训练后，LLMs 被赋予了解决一般任务的潜在能力。然而当 LLMs 执行某个特定任务时，这些能力可能不会显式地表现出来。因此设计适合的任务指令或特定的上下文策略来激发这些能力非常有用，比如思维链 prompt 有助于通过中间推理步骤等解决复杂推理任务。此外还可以进一步对具有自然语言任务描述的 LLMs 进行指令调优，以提高对未见过任务的泛化能力。

对齐调优。由于 LLMs 被训练用来捕获预训练语料库的数据特征（包括高质量和低质量的数据），它们很可能生成对有毒、有偏见和有害的文本内容。为了使 LLMs 与人类价值观保持一致，InstructGPT 设计了一种利用强化学习和人类反馈的高效调优方法，使得 LLMs 能够遵循预期指令。ChatGPT 是在类似 InstructGPT 的技术上开发的，在产生高质量、无害的响应方面表现出了强大的对齐能力。

工具利用。LLMs 本质上是基于大规模纯文本语料库训练的文本生成器，因此在数值计算等文本表达不佳的任务上表现没那么好。此外 LLMs 的能力受限于预训练数据，无法捕获最新信息。针对这些问题，人们提出使用外部工具来弥补 LLMs 的不足，比如可以利用计算器进行精确计算，使用搜索引擎检索未知信息。ChatGPT 更是利用外部插件来联网学习新知识，这种机制可以广泛扩展 LLMs 的能力范围。

LLMs 资源

考虑到具有挑战性的技术问题和巨大的计算资源需求，开发或复制 LLMs 绝不是一件容易的事情。一个可行的方法是从现有的 LLMs 中学习经验，并重新使用公开的资源来进行渐进式的开发或实验研究。

在第三节中，研究者主要总结了开源的模型检查点或 API、可用的语料库以及对 LLM 有用的库。下表 1 为近年来百亿参数以上大模型的统计数据。

大型语言模型综述｜从T5到GPT-4最全盘点，国内20余位研究者联合撰写

下表 2 列出了常用的数据源。

大型语言模型综述｜从T5到GPT-4最全盘点，国内20余位研究者联合撰写

理论和原理：为了理解 LLM 的基本工作机制，最大的谜团之一是信息如何通过非常大的深度神经网络进行分配、组织和利用。揭示建立 LLMs 能力基础的基本原则或元素是很重要的。特别是，缩放似乎在提高 LLMs 的能力方面发挥了重要作用。已有研究表明，当语言模型的参数规模增加到一个临界点（如 10B）时，一些新兴能力会以一种意想不到的方式出现（性能的突然飞跃），典型的包括上下文学习、指令跟随和分步推理。这些「涌现」的能力令人着迷，但也令人困惑：LLMs 何时以及如何获得这些能力？最近的一些研究要么是进行广泛的体验，调查新兴能力的效果和这些能力的促成因素，要么是用现有的理论框架解释一些特定的能力。一个有见地的技术帖子将 GPT 系列模型作为目标也专门讨论了这个话题，然而仍然缺少更正式的理论和原则来理解、描述和解释 LLM 的能力或行为。由于涌现能力与自然界中的相变有着密切的相似性，跨学科的理论或原则（例如 LLMs 是否可以被视为某种复杂系统）可能对解释和理解 LLMs 的行为有帮助。这些基本问题值得研究界探索，对于开发下一代的 LLMs 很重要。

模型架构：由于可扩展性和有效性，由堆叠的多头自注意力层组成的 Transformer 已经成为构建 LLMs 的普遍架构。人们提出了各种策略来提高这个架构的性能，如神经网络配置和可扩展的并行训练（见 4.2.2 节讨论）。为了进一步提高模型的容量（如多轮对话能力），现有的 LLMs 通常保持较长的上下文长度，例如，GPT-4-32k 具有 32768 个 token 的超大上下文长度。因此，一个实际的考虑是减少标准的自注意力机制所产生的时间复杂性（原始的二次成本）。

此外，研究更高效的 Transformer 变体对构建 LLMs 的影响是很重要的，例如稀疏注意力已经被用于 GPT-3。灾难性遗忘也一直是神经网络的挑战，这也对 LLMs 产生了负面影响。当用新的数据调整 LLMs 时，原先学到的知识很可能被破坏，例如根据一些特定的任务对 LLMs 进行微调会影响它们的通用能力。当 LLMs 与人类的价值观相一致时，也会出现类似的情况，这被称为对齐税（alignment tax）。因此有必要考虑用更灵活的机制或模块来扩展现有的架构，以有效支持数据更新和任务专业化。

模型训练：在实践中，由于巨大的计算量以及对数据质量和训练技巧的敏感性，预训练可用的 LLMs 非常困难。因此，考虑到模型有效性、效率优化和训练稳定性等因素，开发更系统、更经济的预训练方法来优化 LLMs 变得尤为重要。开发更多的模型检查或性能诊断方法（例如 GPT-4 中的可预测缩放），便于在训练中发现早期的异常问题。此外，它还要求有更灵活的硬件支持或资源调度机制，以便更好地组织和利用计算集群中的资源。由于从头开始预训练 LLMs 的成本很高，因此必须设计一个合适的机制，根据公开的模型检查点（例如 LLaMA 和 Flan-T5）不断地预训练或微调 LLMs。为此，必须解决一些技术问题，包括数据不一致、灾难性遗忘和任务专业化。到目前为止，仍然缺乏具有完整的预处理和训练日志（例如准备预训练数据的脚本）的开源模型检查点以供重现的 LLM。为 LLMs 的研究提供更多的开源模型将是非常有价值的。此外，开发更多的改进调整策略和研究有效激发模型能力的机制也很重要。

模型的使用：由于微调在实际应用中的成本很高，prompt 已经成为使用 LLMs 的突出方法。通过将任务描述和演示例子结合到 prompt 中，上下文学习（prompt 的一种特殊形式）赋予了 LLMs 在新任务上良好的表现，甚至在某些情况下超过了全数据微调模型。此外，为了提高复杂推理的能力，人们提出了先进的 prompt 技术，例如思维链（CoT）策略，它将中间的推理步骤纳入 prompt。然而，现有的 prompt 方法仍然有以下几个不足之处。首先，它在设计 prompt 时需要大量的人力，因此为解决各种任务而自动生成有效的 prompt 将非常有用；其次，一些复杂的任务（如形式证明和数字计算）需要特定的知识或逻辑规则，而这些知识或规则可能无法用自然语言描述或用例子来证明，因此开发信息量更大、更灵活的任务格式化的 prompt 方法很重要；第三，现有的 prompt 策略主要集中在单圈的表现上，因此开发用于解决复杂任务的交互式 prompt 机制（如通过自然语言对话）非常有用，ChatGPT 已经证明了这一点。

安全和对齐：尽管 LLMs 具备相当的能力，但它的安全问题与小型语言模型相似。例如，LLMs 表现出产生幻觉文本的倾向，比如那些看似合理但可能与事实不符的文本。更糟糕的是，LLMs 可能被有意的指令激发，为恶意的系统产生有害的、有偏见的或有毒的文本，导致滥用的潜在风险。要详细讨论 LLMs 的其他安全问题（如隐私、过度依赖、虚假信息和影响操作），读者可以参考 GPT-3/4 技术报告。作为避免这些问题的主要方法，来自人类反馈的强化学习（RLHF）已被广泛使用，它将人类纳入训练循环，以发展良好的 LLMs。为了提高模型的安全性，在 RLHF 过程中加入安全相关的 prompt 也很重要，如 GPT-4 所示。然而，RLHF 在很大程度上依赖于专业标签人员的高质量的人类反馈数据，使得它很难在实践中得到正确的实施。因此，有必要改进 RLHF 框架，以减少人类标签员的工作，并寻求一种更有效的注释方法，保证数据质量，例如可以采用 LLMs 来协助标注工作。最近，红色团队被采用来提高 LLMs 的模型安全性，它利用收集的对抗性 prompt 来完善 LLMs（即避免红色团队的攻击）。此外，通过与人类交流建立 LLMs 的学习机制也很有意义，人类通过聊天给出的反馈可以直接被 LLMs 利用来进行自我完善。

应用和生态系统：由于 LLMs 在解决各种任务方面表现出强大的能力，它们可以被应用于广泛的现实世界的应用（例如，遵循特定的自然语言指令）。作为一个显著的进步，ChatGPT 已经潜在地改变了人类获取信息的方式，这带来了新必应的发布。在不久的将来，可以预见，LLMs 将对信息搜索技术产生重大影响，包括搜索引擎和识别系统。

此外，随着 LLMs 的技术升级，智能信息助理的发展和使用将得到极大的促进。在更广泛的范围内，这一波技术创新倾向于建立一个由 LLMs 授权的应用程序的生态系统（例如，ChatGPT 对插件的支持），这将与人类生活密切相关。最后，LLMs 的崛起为通用人工智能（AGI）的探索提供了启示。它有希望开发出比以往更多的智能系统（可能有多模态信号）。同时，在这个发展过程中，人工智能的安全性应该是首要关注的问题之一，也就是说，让人工智能为人类带来好处而不是坏处。

部分内容选摘自机器之心，阅读原文请点击这里