在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益?
本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联合创始人,他们就开源的重要性与核心价值进行了探讨。
(本文由OneFlow编译发布,转载请联系授权。原文:https://generatingconversation.substack.com/p/why-open-source-llms-matter)
作者 | Vikram Sreekanti & Joseph E. Gonzalez
OneFlow编译
翻译|宛子琳
开源确实令人着迷。作为拥有悠久开源传统的伯克利大学的一员,我们普遍都是开源软件的忠实拥护者。但坦白来讲,人们关于开源的众多讨论都显得极其模糊。开源的倡导者往往强调开源LLM毋庸置疑的优势,却鲜有说明他们希望看到的具体内容。
这促使我们开始思考开源LLM的重要性,以及它们可能带来的益处。
但首先让我们锚定一个具体的讨论主题,对于LLM来说,究竟什么是开源?以下是几种定义:
-
公开可用的权重:LLaMa 2和Mistral这样的模型属于这一类别。这些模型基于相当宽松的许可证发布构成模型的权重文件,以便用户能够获取这些模型并进行自定义部署。
-
公开可用的数据集:据我们所知,目前还没有任何主流的开源LLM这样做,但公开模型数据将会产生重要影响,它将使社区了解模型的潜在偏见和缺陷。
-
公开可用的训练代码及基础设施:迄今为止,大部分大模型构建者都将这一点严格保密。因为模型训练过程中包含大量的配置参数,再加上人类反馈强化学习(RLHF)的过程,因此公开这类信息有助于社区从基本原理层面理解模型。
正如其他地方所讨论的那样,数据集的创建过程和嵌入在模型训练过程中的专业知识都被严格保密。主流的开源模型供应商很少(或不)发布有关用户数据集的信息,这让开源社区很失望。因此,到目前为止,我们主要见到的是公开可用的模型权重,但关于数据集、训练代码和基础设施的信息却少之又少。
让我们回到最初的问题。假设开源倡导者赢得了这场战役,如果我们拥有真正开源的语言大模型,其权重、数据集以及代码和基础设施都可获取,那么我们将从中获得哪些重要价值?
-
社区监督: 了解模型的盲点和缺陷对于未来的模型改进和对齐研究至关重要。通过简单地与GPT这样的模型进行聊天交互或使用其API,就已经能够发现很多盲点,研究人员可以通过托管模型来推动边界,用于测试策略。在洞察模型的偏见方面,模型底层数据集的可见性能否提供有价值的见解,这一点仍有待探讨。显然,模型构建者所做的编辑选择(如删除或包含数据)十分重要;然而,鉴于数据使用的大规模投资和潜在的法律风险,我们看到这些数据集完整公开的可能性非常小(除非政府干预)。
-
重构模型:在缺乏相关数据集和代码信息的情况下,这一点让开源社区感到非常沮丧。理想情况下,社区通过重新创建现有模型可以让研究人员尝试不同的模型参数和对齐方式。但现实情况是,这些模型的规模使得重新创建变得不大可能,甚至完全不可行。仅仅是训练所需的GPU成本就令人望而却步,而RLHF所需的基础设施和人力成本更是难以负担。与普通的存储基础设施不同,用户实际上可以使用Minio来代替AWS S3,但重新创建模型所需的硬件和时间成本使得这一有效的实验变得无法完成。社区所付出的努力不足以重新创建GPT(甚至是LLaMA)规模级别的模型———公共部门或大型研究机构可能会取得一定进展,但自下而上的实验仍然不可能实现。对齐研究很可能必须被视为现有模型的附加内容。
-
自托管与定制部署:这是一个关注热点,尽管在某些高度敏感的安全场景下,企业可能需要定制的大模型。我们确信OpenAI和Azure(以及相应的AWS + Athropic和GCP)会解决这一问题。由于模型质量存在巨大差距,用户如果可以安全部署私有模型(特别是具备适当的数据共享保护),那么他们选择开源LLM的意愿就会降低。就在本周,我们与一家市值约1000亿美元的科技公司进行了交流,他们正与一家主要的云服务供应商洽谈共享私人信息的条款,用于云服务供应商的LLM部署。现实情况是,主流的模型供应商具备规模经济与高效部署的优势,其他的竞争对手难以超越。
-
专有化:这在我们在之前的文章中提到过,也是最具说服力的观点。开源LLM模型是开发专有化模型的良好基础。虽然GPT微调API功能强大,但它仅能通过LoRA进行微调(而不是完全权重更新),并且限制用户应用更高级的模型专有技术(如RLHF或RLCF),这些技术在专有化模型日益成熟时很可能极具价值。这就是未来几年中开源模型最有可能蓬勃发展的领域。
开源模型在专有化方面已经十分强大。有人指出,Code-LLaMA 34B已经是目前最好的代码模型,对此我们非常赞同!这是领域专用模型的一个绝佳的成功案例。不幸的是,由于训练模型所需的GPU和时间投资,微调可能仍然非常昂贵。幸运的是,我们已经从许多实际案例中得知(包括我们自己的工作中),微调模型不需要达到GPT-4等模型的规模和通用性。
这一思路引出一个显而易见的的结论:开源模型不需要变得更好,只需要变得更小和更专用。此前的文章曾指出,开源LLM需要在成本和规模方面提升大约两个量级,才能赶上GPT。如果它们能够跨越这一障碍,就可以提高企业对模型进行有效专用化的水准,并为开源软件的发展提供一条可行的路径。
我们对开源的价值有着坚定的信念,但结果很明显,开源模型无法与托管的通用模型的质量相抗衡。不过,这并不意味着失败,而是新的机会。做微调模型的用户并不需要最通用的模型,而是需要一个能够为他们的任务进行良好训练的模型。如果开源模型能够在轻量级的同时保持高质量,这就是未来市场的机会所在,将会有一个崭新的专有化领域静候开启。
其他人都在看
试用OneFlow: github.com/Oneflow-Inc/oneflow/