Mistral 可以说是欧洲目前最有代表性的 AI 公司,开源小模型、MoE、专注欧洲多语言市场等等,都让它与美国的几家大模型公司如 OpenAI、Anthropic 截然不同。
最近,Mistral CEO Arthur Mensch 与硅谷最知名的个人创业者 Elad Gil 进行了一场对谈,对于 Mistral 的商业路线、大模型本身的技术路线、长文本及 RAG 都有针对性的回答。在他看来,模型的开源才是保证大模型技术安全的正确方式,而 RAG 的优势,正在被长文本所取代。
文章编译自视频采访,Founder Park 略有增删。
采访原文:https://blog.eladgil.com/p/discussion-w-arthur-mensch-ceo-of
01
Llama 7B 还不够好
4 个月超越 Llama
Elad Gil:你在机器学习方面获得了博士学位,曾是 DeepMind 的研究员,然后你创立了 Mistral,而且是和一些来自 Google、以及 Meta 的 Llama 项目的人一起创立的。我很好奇,一开始是什么原因促使你创立 Mistral?是如何决定这样做的?公司成立的初始动机是怎样的?
Arthur Mensch:是的,这是我、Guillome 和 Timothe 一直在思考的。我在 DeepMind,他们在 Meta,我们一直在等待时机,而这个时机随着 GPT 的出现而到来,我们意识到有机会迅速创建一个公司,并且第一天就可以雇佣到优秀团队,尝试进快速冲刺,因为我们并不是第一个开始的。
Elad Gil:从创立公司到发布产品用了多长时间?
Arthur Mensch:7B 模型用了大约四个月时间。
Elad Gil:这太了不起了。最引人注目的是 Mistral 推出其首款产品的速度之快,以及 7B 发布后迅速获得的广泛赞赏。突然之间,人们意识到 Mistral 拥有这些小型高性能模型,它们的推理时间非常快,Token 非常便宜。对于那些正在以高吞吐量做事情的人来说,这将产生很大的不同。你是如何如此迅速地构建一些东西的?或者你是如何如此迅速地让团队专注于这样一个单一目标的?
Arthur Mensch:我们认真考虑了这个领域缺少的东西,并且我们意识到小型模型实际上对人们来说很有吸引力。我们当时看到一个基于 Llama 上的开源社区,但 Llama 7B 还不够好,我们意识到我们可以做得更好。因此,这是我们向世界介绍自己的最佳时机。而且我们必须从头开始构建整个堆栈。因此,获取数据、构建训练代码、获取计算资源,对于四个月来说这有点挑战,因为我们一直在增长。从零 GPU 开始,我们实际上在 500 个 GPU 上训练了 7B,我们进展很快,因为团队非常有动力,四个月内基本没什么假期。
一般来说,成功并继续前进的 AI 团队通常由四到五个人组成。而且持续有成果的 AI 团队一直都是这个规模。因此,我们尝试建立一个组织,在这个组织中,有五人小组从事数据工作,从事预训练工作,到目前为止,这进展得非常好。
Elad Gil:接下来在你们的产品路线图上,你们打算做什么?
Arthur Mensch:我们会有新的开源模型,既有通用的,也有专注于特定垂直领域的。这些很快就会发布。
我们正在向平台引入一些新的微调功能,我们推出了一个名为 Le Chat 的 chatbot,目前使用了 Mistral 的开源模型。所以它相当原始,有点像 ChatGPT V0,我们正在积极构建数据连接器,丰富它的各种功能使其能成为面向企业的解决方案。
02
部署在微软 Azure 上之后,
立刻获得 1000 个客户
Elad Gil:你们打算专注于哪些垂直领域?
Arthur Mensch:从金融服务开始,因为它们足够成熟,而且数字化程度很高。
我们有两个进入市场(go to market)的方向。从金融服务开始是因为它们足够成熟,并且是数字原生的。与 AI 公司或向非 AI 公司介绍 AI,这是我们正在谈论的进入市场的方式。第一个可以通过与云厂商的一些合作关系,因为事实证明,他们在这一方面有点控制力。第二个的话,通过我们的平台直接与开发人员交谈。
Elad Gil:在云方面,你们最近与 Microsoft Azure 达成了合作关系。它能为你提供进入企业市场的机会吗?
Arthur Mensch:是的,这为我们开辟了新的客户。很多企业实际上没法轻易更换第三方 SaaS 提供商,因为需要经过采购、风险评估等。但如果作为第三方提供商通过云端进来,实际上会得到一个加速的机会。所以当 Mistral Large Model 在 Azure 上部署后,我们立刻得到了大约 1000 个客户。
事实是,你需要适应企业正在使用云并且他们不想轻易引入新平台这一事实。至少在一开始,你需要通过云厂商。
Elad Gil:Mistral 最初是从一个以开发者为中心的产品开始的,推出了一个非常开源的东西。现在你们开始为各种企业提供服务。在面向开发者或者面向企业领域,有没有共同点?
Arthur Mensch:企业通常会因为一些特定的免费场景而采用新技术。
首先是开发者的生产力提速。他们往往发现市面上的现成解决方案并不符合他们的开发习惯。此外,他们还会使用知识管理工具,而且经常会定制自己的辅助工具来连接公司数据库。
最后一个关键应用是客户服务,一些较为成熟的企业在这方面已经取得显著进展,减少了与客户之间的人工互动,使得服务过程更加高效。这些就是企业中常见的免费用例。相比之下,AI 公司的应用场景要丰富得多,因为他们通常会更具有创新性。
不过,总的来说,企业确实存在这些免费的用例。这也促使我们开始考虑向上游价值链发展,提供一些更为即插即用的服务,因为有时候企业确实需要额外的支持。
Elad Gil:你认为现在是什么阻止了企业采用进一步使用AI?
Arthur Mensch:我们认为,企业仍然在努力评估和确认模型是否适合投入生产环境。目前缺少的是一整套支持持续集成的工具,以及能够自动优化大型语言模型(LLM)在具体应用场景中表现的工具。
因此,我觉得这些工具的缺失是限制了企业内部开发者采用这些技术的原因之一。至于企业内部用户对于这些技术的接受程度,我认为我们距离创造出能够理解并遵循指令、并且能够让用户轻松进行个性化定制的智能助手还有很长的路要走。所以,从用户的角度来看,这种智能助手的缺失是我们目前面临的主要问题。
03
RLHF 今天没有那么重要了
Elad Gil:行业关注的另一件事是扩大模型规模,越来越大,越来越强大的版本。你如何看待你们接下来六个月或一年的目标规模?这个计划是持续增大你们的模型,还是继续专注在 MoE 上?
Arthur Mensch:我们首先专注于效率,以便能够比当前能更有效地训练模型。一旦我们实现了更高的效率,就会开始扩展规模,这也是我们进行另一轮融资、以及增加算力的原因。
因此,我们可以期待更强大的新模型,因为我们投入了更多计算、模型可能会更大,当增加计算量时,需要增加模型的容量。但对我们来说仍然非常重要的一点是,在推理上非常高效,并拥有高压缩的模型。因此,这将是我们继续推出的模型,特别是向开源世界推出的。
Elad Gil:让我感兴趣的一件事是,当达到模型的某些能力时,可以开始加速构建下一个模型的速度,比如说,GPT-4 来做 RLHF,或者生成合成数据,或者做其他真正加速你当前研究的事情。比如说数据标记,各种各样的事情,甚至在某些情况下是超人类的表现。你如何看待使用模型来互相训练?这真的提速了模型发布的的节奏吗?
Arthur Mensch:两年前,RLHF 非常重要。今天它实际上不那么重要了,因为模型已经变得更好,有时候甚至可以进行自我监督。而我们注意到的是,随着规模的扩大,模型的能力在改进。这意味着通过人工进行注释的成本部分实际上在减少,这也降低了进入门槛。
Elad Gil:我想另一个类似的领域是推理。许多人认为,随着扩展模型,它们自然会获得推理能力。最近还有其他研究方法,以及很多新公司专注于模型的推理方面。你如何看待这一点?会训练用于推理的子模型,还是你认为这只是现有模型扩展的结果?这是两者的混合吗?
Arthur Mensch:目前,唯一经过验证的提高推理能力的方法是使用更大的数据训练模型,使它们变得更大。显然,通过构建一个自动循环,添加新功能,调用,添加数据等方式,让模型的推理关于具体方面而不是试图想象东西,这些都有可能性。
我们并不认为自己有做好推理的秘密配方,但我们已经通过专注于数据来训练出非常擅长推理的模型。并且非常擅长在数据中使用数学。因此,这是提高推理能力的好方法。有很多方法可以改进它。代码也有所帮助,所以没有神奇的秘诀,但只专注于小事情就能让它发挥作用。
04
长文本不会取代微调,
但会影响 RAG
Elad Gil:我觉得最近大家讨论的另一个热点是上下文窗口的长度问题。比如,我了解到在生物学模型的最新研究中,通过扩大上下文窗口的范围,可以得到更好的蛋白质折叠效果等。由此可见,上下文信息及其窗口的大小确实非常关键。
据我所知,Gemini 模型的上下文窗口达到了百万级别,甚至数百万。你怎么看待上下文窗口长度的重要性呢?这种趋势会不会取代其他技术,比如 RAG 或微调(Fine-tuning)?
Arthur Mensch:它不会取代 Fine-tuning,因为微调有一个非常不同的目的,即让模型跟人类对齐偏好。
然而,这样做确实简化了 RAG,因为你能够向模型中注入更多的知识。我们从用户那里得到的反馈是,使用长上下文的模型就像上瘾一样,一旦尝试过,就不愿意再回到小上下文的模型了。我们确实想要在这一点上做出改进和完善。要实现这一点,有多种不同的技术可供选择。但在基础设施方面,这确实是一个挑战,因为我们需要处理非常庞大的路径注意机制(attention machanism),尽管总能找到解决的方法。
Elad Gil:就像在 RAM、GPU上,基本上用完了空间,因为你正在构建越来越大的上下文文本。还是别的原因?
Arthur Mensch:是的,你需要重新思考一些技术,以便在处理大矩阵时进行分片和通信。这样做的确会带来一定的代价,因为对于质量成本的要求,会导致处理速度变慢。
Elad Gil:关于AI,过去有几种不同的方法。一种是基于 Transformer 的模型训练。另一种是更接近于 AlphaGo 等游戏相关方法,通过自我对弈来引导新策略或新能力。这些在某种意义上都是推理的形式。我知道在模型训练的背景下,有一些领域可能很自然采用某种特定做法。代码可能是一个例子。还有一些其他领域,你可以在真实标准下测试东西。我不知道你们是否考虑过这样的事情,或者这是否重要?
Arthur Mensch:Guillaume 和 Timote 曾经在 Meta 使用 LLM 进行定理证明。这与使用 LLM 作为推理模块非常相关,构建一个涉及采样的自动循环,涉及蒙特卡罗研究,所有这些类型的东西。我认为阻碍这一点的是模型具有非常高的延迟,如果想要大量采样,需要使它们更小。因此,它与效率密切相关。
随着我们提高效率,随着硬件容量的增加,能够探索更多内容并进行更多采样。通过自动循环开发,这是有效提高推理能力的好方法。
Elad Gil:另一个人们最近谈论更多的是记忆(memory),以及在复杂 agent 或者行动中保持记忆状态的能力,你们将来会走 agent 的方式,还是更关注以更多方式调用api的方式?
Arthur Mensch:这就是我们开始引入函数调用(function calling)的原因, 这是处理和创建具有状态存储的 agent 的一个好办法。当我们谈到像对话这样的记忆时,实现的方式是在中间件部分引入一些基本函数提供给模型, 从而模型可以使用这些函数来更新它的记忆和表征。
因此, 函数调用是创建复杂 agent 的一种多功能工具。但如何让它正常工作以及进行评估都很困难。所以我认为, 如何制造出行之有效、可评估并且可根据反馈不断改进的 agent, 将是最大的挑战之一。这也是我们在产品层面希望解决的一个挑战。
05
Transformer 模型未来仍会是主流路径
Elad Gil:大家对于 LLMs 非常关注,也有扩散模型用于图像生成,人们越来越多地转向基于图像或基于 Transformer 的方法来处理图像和视频等。
显然,有很多关注在 LLMs 上,也有扩散模型用于图像生成,尽管似乎人们越来越多地转向基于图像或基于 Transformer 的方法来处理图像和视频等。认为还有哪些重要的空白领域,人们尚未着手建立基础模型,但实际上他们应当开始着手了?
Arthur Mensch:我们在机器人方面看到了一些事情发生,但我认为在音频方面仍然处于非常早期的阶段,视频已经覆盖了。
那些能够执行动作并变得精于此道的模型,我觉得这方面的研究还不够充分。显然,还有很多工作需要我们去做。不过,总的来说,我预期这些不同的发展路径最终会汇聚到类似的架构上,随着时间的推移,我们将会越来越倾向于进行联合训练。
Elad Gil:所以你认为最终一切都将是基于 Transformer 的模型?
Arthur Mensch:Transformer 是表示 Token 之间或信息之间关联的非常好的方式,具体使用什么技术并不是最关键的。看起来,Transformer 提供的表达能力足以捕捉我们想要记录的大部分内容。我们已经知道如何高效地训练它们,从而能够在从文本到图像等各种学习场景中传递信息。
因此,我认为 Transformer 的地位将会非常稳固,难以被其他技术所替代。
Elad Gil:你认为这也适用于硬科学吗?比如,物理模拟,材料科学,纯数学。
Arthur Mensch:我不期望仅通过下一个 Token 预测就能解决这个问题。确实需要转向外部循环,还需要找到一种方法让模型与模拟器交互,因为最终你需要模型学习物理,所以你需要用模拟器来引导它。但这方面,我不是专家。
06
大语言模型的本地化
是一个独特竞争点
Elad Gil:我觉得 Mistral 特别引人注目的一点——事实上,整个欧洲目前的情况也是如此——就是这里拥有一个非常稳固的初创企业生态圈。如果我们着眼于目前全球AI领域中,初创企业成立的两大热点地区,基本上都是在硅谷这里,再就是巴黎-伦敦的这条走廊。在这条走廊上,有十一家实验室、Mistral和其他许多优秀的公司正在崛起。你认为是什么因素推动了这种发展呢?
Arthur Mensch:首先,伦敦一直以来都有 DeepMind 这样的公司,它吸引了全世界的顶尖人才。2018 年,巴黎迎来了 DeepMind 和 Google 的研究办公室,这进一步加强了当地的研究氛围。事实证明,法国以及其他几个欧盟国家有着出色的教育体系。因此,那里的初级机器学习工程师和科学家素质很高。正因为如此,如今我们在基础技术层面以及应用层面都有着强大的公司生态。
Elad Gil:我觉得还有一点很引人注目,那就是你开始看到许多AI公司都在关注各自的地区特色。比如,当你发布产品时,就包含了多种欧洲语言。我了解到目前有不少公司正为日本、印度以及其他不同地区定制模型。
可以想象一个场景,即地区性的龙头企业崛起。特别是,你可以将其比作波音和空中客车的竞争,各地政府决定支持或成为本地企业的客户。你认为未来的世界会是什么样子?在全球性与地区性平台之间,这种演变将如何发展?
Arthur Mensch:所以我们选择了一种全球性分销策略。
实际上,我们本可以选择另一条道路,那就是集中精力于欧洲市场,并假设这样做有某种防御性优势。但我们不这么看。技术本质上是流动的,能够轻易跨越国界。然而,我们正在开发的技术与语言紧密关联,而语言多种多样,英语只是其中的一种。
事实证明,LLM 处理英语的能力远超过其他语言。因此,通过专注于多种不同语言,与美国的模型相比,我们成功地开发出了特别适合处理欧洲语言的模型。这就形成了一个庞大的市场。同样,在亚洲,也有大量需求能够理解亚洲语言的模型。为满足这些市场,有许多科学问题需要解决,但这些市场巨大,而且并未成为美国公司的关注重点。因此,这为我们这家欧洲公司提供了机会,让我们能够更加聚焦于全球市场。
07
会发布闭源商业模型、
小模型应该专注于特定任务
观众提问:你们会发布模型的闭源版本,还是总是开源?
Arthur Mensch:我们目前已经推出了商业化的模型。在某种程度上,我们并没有开源所有东西。我们是一个非常年轻的公司,但我们的目的是发布最好的开源模型。
我们的策略基本上是,除了开源模型之外,还提供企业级服务和一些高级功能,以此作为商业模式的支撑。这个策略可能会随着时间推移而演变,目前我们是既提供强大的开源模型,也在提供性能更优越的闭源API模型。对于我们的商业模型,我们尤其注重让模型部署变得高度便携和灵活。我们会向客户交付模型权重,并允许他们对模型进行修改,进行客户端的微调,就像他们使用开源模型一样。所以,在这方面,我们确保了商业产品线与开源产品线的连贯性。
观众提问:小模型实际上能有多大的性能?
Arthur Mensch:我相信你可以将其压缩到很高的程度。但问题是,你是否能够打造一个拥有 7B 参数的模型,性能超越 Mistral Large 这样的大型模型。这会有一定的难度,但也许有可能实现。
硬件会有所提升,包括本地硬件的改进。这样也会为模型运行提供更多的空间和内存。我看到了更多的发展潜力,但实际上会受到模型规模扩展能力的限制。这表明,在某个点上,你的模型规模会达到一定的极限。
观众提问:什么是主要限制?
Arthur Mensch:如果你专注在某个特定任务上,可以打造出非常强大的 7b 参数模型。但如果你想把整个世界的知识都塞进 7GB 的存储空间里,好吧,这确实是一个非常宏大的计划。但在这种规模上做多语言模型并不是个好主意。所以,你需要专注于人类知识的某一个特定领域。你的目标可能是压缩这部分知识。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
更多阅读
古董级互联网产品终于上市,首日暴涨48%,YC创始人撰文回顾
对话 OpenAI COO:ChatGPT会继续免费、不要指望AI解决一切问题、从有限问题着手
转载原创文章请添加微信:geekparker