MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步

427次阅读
没有评论

MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步

在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题

允中 发自 凹非寺
量子位 | 公众号 QbitAI

MiniMax面向全球最新举办M1技术探讨会。作为中国团队,现场,来自十几个国家地区的观众从世界各地加入,与M1团队和全球学者进行了技术交流。

M1团队与来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题。嘉宾详见:

MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步

下面是本场闭门会的主要观点纪要:

RL能否赋予模型新能力?

RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。

首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模型思考过程的长度是无限的,RL什么也改变不了。根据定义,如果你有无限的上下文长度,那么所有能用自然语言表述的问题,理论上都可以通过有限次的采样尝试来解决。

如果针对一个有限上下文长度,RL是否能赋予模型新能力?答案是:能。因为RL所做的是改变模型输出的分布。预训练后,模型可能需要至少10W个token才能解决某个问题,但经过RL微调后,它可能只需要10K个token。如果模型有限上下文长度是50K个token,那么RL的确赋予了模型新能力。

在有限上下文长度下, pass@k 是一个好的衡量指标。K的取值很重要,这取决于如何定义模型能力,如果定义是“模型至少有一次能解决这个问题”,那么应该用尽可能大的k来衡量pass@k;但如果定义是“模型能否在4次尝试内解决问题”,那应该去衡量 pass@4。

目前 Reward 是RL scaling 的核心瓶颈,特别是如何为那些不基于结果的奖励(non-outcome-based reward)进行建模,这是全世界都还感到困惑的地方。比如,人类可以从别人写的一段文字或反馈中获得正面或负面的感受,但我们目前并没有很好的方法来对这种主观感受进行建模。

预训练的价值在于更多样化的数据分布

如何理解预训练在RL过程中的角色?如果预训练在某些技能,如编程或数学,上有所欠缺,后训练阶段仅凭RL能把这块短板补上吗?

原则上可以,只要有足够的信息源,我们就可以用RL来替代任何过程。某种意义上,预训练只是RL的一种特例。

任何监督学习都可以被看作是一种特殊的强化学习。现阶段,RL训练阶段的数据分布,要远比预训练数据的分布狭窄得多。这正是目前进行预训练能带来的最大收益——它让模型获得了范围远为广阔的知识。

但在当前阶段,预训练的价值在于,我们可以在预训练阶段接触到更多样化的数据分布。

因为目前RL训练数据的质量要求门槛相当高,我们主要知道如何在有限的环境中扩展RL训练,例如reward被清晰定义的环境。目前RL研究的核心挑战之一是如何拓展至reward清晰的环境之外。奖励建模(Reward Modeling)可能是一种解决方案,但更为通用的奖励信号依然是行业在探索的方向。

只在数学和代码上做RL训练,更容易产生幻觉

关于通用推理,至少在今年二月左右,大多数RL数据,都来自于数学或编程领域。而事实是,只在数学和代码上进行RL训练,模型更容易产生幻觉。在很多事实性基准,比如SimpleQA上的性能会显著下降,甚至在像MMLU这样的多学科问答基准上也会下降。

因此我们做通用推理数据集的一个动机,就是为了创建更多样化的RL训练数据。WebInstruct-verified旨在为所有领域构建更大规模的RL训练数据,以便模型能够在不同领域取得进步,而不仅是数学和编程。

现在我们甚至在尝试进一步扩大这个规模。

之前,通过在预训练数据集中搜索可用的RL数据来扩大规模,我们成功地把它扩展到了50万的量级。现在正尝试通过检索更大规模的预训练数据集,从中获取越来越多样的RL数据,并采用在mid-training进行RL的范式,而不仅仅是作为后训练。

如何让模型用图像思考?

目前很多视觉推理范式,核心大都集中在文本形式的思维链上,而视觉部分固化为一个 ViT编码器,没法让模型在编码图像上花费更多计算资源。而像 Pixel Reasoner 或其他一些工作,正试图帮模型重新审视图像的特定区域,并对其进行重新编码,从而在关键区域上投入更多算力。

但这并不是一个非常本质的提升模型能力的方法,在现阶段更像是一个权宜之计。因为现有的视觉编码器太弱了,无法很好地处理高分辨率图像,所以才尝试用zoom-in或其他操作来操纵图像表示,然后从输入中重新调用它,并在此基础上进行推理。在现阶段,大多数工具,比如zoom-in、重新调用帧或高亮显示,实际上都只是在增强感知能力。

也存在一些更复杂的工具,能从根本上改变图像,比如使用图像生成技术。这种做法就已经超越了单纯增强感知的范畴,比如在几何问题中画辅助线。最近还没太多这方面的成功案例,但如果有人能设法让这种方法奏效,那它将是“用图像思考”的一个更强大版本。

我们仍然需要解决根本的瓶颈问题:如何更好地编码视觉像素,以及如何以更好的方式在潜在空间(latent space)中进行视觉推理——注意,不是在实际的像素空间,而是在抽象的潜在空间。

Latent reasoning可能是一个非常好的机会。很多视觉推理,特别是在机器人或具身智能领域,真的需要在空间中思考。在这些涉及空间感的场景下,文本推理就不是一个好方法,很多推理过程是隐式的,无法被清晰地表述或言语化。

当前RL领域最令人兴奋的挑战

RL面临挑战之一,是Reward Modeling,特别是如何超越那些结果容易被评估的环境。这将会极大地扩展RL应用场景。

另一个可能很重要的领域是多智能体。不过,多智能体目前更多受限于基础设施,而非理论研究。对我来说,用一个中央模型调用子智能体和调用工具是同一回事,没有区别。当我说“多智能体”时,脑海中想的更多的是一个包含多个AI模型、并且它们在训练过程中相互交互的环境。

还有一个令人兴奋的领域就是AI自动化研究——让模型自己训练自己。这其实一直以来都与AGI的定义相关:当模型可以在没有人类干预的情况下,自我训练并自我提升。

还有刚刚提到的,非Token空间的推理,那里也存在着机会。

长上下文是Agent的Game changer

长上下文在Agent工作流中有巨大潜力。我们另一个客户正在构建复杂的智能体系统,长上下文窗口对他们来说是真正的game-changer。Agent完成某个任务时,能够将整个代码库、API参考文档、历史交互数据等等,全部一次性喂给它。这种任务你不能分几次调用来处理,因为当你让智能体完成任务时,它掌握的关于这个项目的信息越多,产出的质量就越高。

我们有望从目前在大多数情况下,只能处理相当孤立任务的智能体,发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。

对于Nebuis的客户,M1这样超长上下文模型的真正价值在于解锁了全新的企业级应用场景。这些场景以前用分块处理策略来解决,非常繁琐,甚至几乎不可能。

例如,一个法律行业客户需要把文件一块一块地喂给大语言模型,并用一些窍门来优化检索和上下文管理。这样问题在于,可能错过埋藏在某个随机法律文件某一页中的关键细节。而有了1M token的上下文窗口,就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源,这无疑能提升了服务质量。

Writer是一家服务于全球企业级客户的公司,长上下文模型在企业级应用需求非常广泛。它被应用得最多的领域之一是法律合规分析。比如,分析冗长的合同、电子健康记录或公司年报,从中提取关键条款、识别风险,然后附上引文进行总结,需要非常巨大的上下文窗口。另一个领域是客户研究洞察。比如,总结大量的调查问卷回复或研究论文,以发现其中的主题,并提取一些见解。

长上下文模型也被大量用于收入与报告相关的业务。比如,录入大量的项目招标书,从Salesforce中拉取数据,然后自动起草第一版的回应;或者处理一些基金报告,这需要将内部研究与第三方市场数据结合起来。还有技术支持与知识管理领域。这是每个开发者的负担——对工单进行分类,更新内容管理系统,或者为已有的工作流发布内容。要让智能体在这个领域里运作,就需要长上下文能力。

混合架构将成为主流

对比纯线性注意力和Full Attention,混合注意力机制(Hybrid Attention)无疑是最有前景的方案。

纯线性注意力机制有很多根本性局限,因为它的状态大小是固定的,因此,在处理长序列建模问题时表现不佳。而Full Attention虽然提供了灵活性,但其代价也显而易见:KV缓存大小会随着序列长度线性增长,并且训练复杂度也是平方级的。当序列不断变长时,高昂的推理和训练复杂度就会成为瓶颈。将这两种机制结合起来,也就显得顺理成章,混合模型(Hybrid Model)就应运而生了。

混合架构将会成为模型设计的主流,因为随着对大规模部署和低延迟需求的增长,人们会越来越关心推理效率和模型的推理能力。

MiniMax的模型也证明了这一点。至于如何进一步拓展混合注意力架构的空间,未来的研究者需要思考,不能只是简单地用固定的比例来交错堆叠Softmax注意力和线性注意力层,也许需要更多样的混合架构形式。

脱离硬件的纯粹算法研究,正逐渐失去关注度,尤其是在LLM领域。

如果一项技术无法规模化,或者不能被高效地部署,那它就很难获得关注、形成势能。一个算法不仅要在理论上站得住脚,还必须在硬件上——尤其是在GPU或TPU这类加速器上高效运行。如今的算法研究者们已经,并且也应当熟悉基本的硬件原理,比如内存层级(memory hierarchy)、并行计算(parallelism)、共享内存(shared memory)等等。他们还应该去掌握一些底层的GPU编程工具,比如 Triton。这才是当今在LLM领域做算法研究的正确方向。

混合架构目前的瓶颈在于基础设施。

混合模型的有效性在去年就已经得到了很好的验证,但没有公司投入更多资金进行大规模验证,直到 MiniMax 发布了他们的大模型 MiniMax Text-01,人们才意识到混合模型原来有这么大的潜力。当前算法层面已经趋于稳定了,我们应该专注于为这些新机制构建好的基础设施。

混合架构推理的前沿实践

在推理层面,随着混合注意力架构越来越流行,为了在SGLang或其他推理引擎中充分利用缓存感知和缓存复用等特性,我们需要为普通架构和混合架构设计一个统一的抽象层,这样才能简单地将所有优化应用到混合模型上。

此外当前MiniMax模型这种7+1层交错的架构可能会带来一些工程挑战,特别是在用计算图优化(Graph Optimization)进行部署时,因为不同层的计算和内存访问模式是不同的,这会导致GPU利用率不平衡。可能需要用一些技术来解决它,比如批处理重叠(batch overlapping)或者更先进的pipline策略。

从支持混合架构的技术层面来说,首先需要一个混合分配器(hybrid allocator),这个功能在vLLM中已经有了。它有助于管理混合架构的KV缓存——尽管对于某些部分我们不称其为KV缓存,但混合架构中仍然存在某种形式的状态。这些状态的生命周期与全注意力层的KV缓存并不同步,所以需要设计如何让它与现有的缓存机制、预填充、解码等环节协同工作。

其次,批处理重叠(batch overlapping)会很有帮助。采用了混合架构后,有些层是full attention,有些层只是简单的线性注意力,这就存在计算不平衡。如果按顺序计算,那么在计算线性注意力层时,计算资源可能就未被充分利用。但如果能将两个微批次(micro-batches)重叠起来处理,只要比例计算得当,理论上任意时刻都会有一个微批次在执行计算密集型的full attention 操作,从而最大化GPU利用率。

从生产部署的角度来看,混合架构的推理速度对现实应用至关重要。

例如,有一个客户,需要并发处理多个几十万token的请求。但对于使用二次方复杂度注意力的传统模型,在这种输入大小和并发量下,生成速度都会变得极慢。用 DeepSeeker-R1,在8个并发请求、每个请求10万token的情况下,平均要等待大约1分钟才能得到首个token。而用MiniMax的模型,大约是4到5秒,数字小了一个量级。这个速度完全可以接受,并且也为在生产负载下,用如此大的上下文进行在线应用解锁了可能性。

M1背后的Q&A

Q:混合线性注意力会如何影响使用RL的推理模型的性能?

A:在训练过程中,当我们扩展到可处理数万 token 上下文长度的模型时,遇到了重大问题:RL训练停滞不前,奖励信号在仅几百步后就不再增长。研究后,我们发现问题在于,线性注意力架构在这种规模下固有的训练不稳定性。这导致了一些问题,比如某些层激活值爆炸等,并使模型在训练和推理时的行为出现了严重错位。识别并修复了这个 bug 之后,我们才成功地使用RL训练该模型。

这个问题,也使得我们发现混合线性注意力的一个根本性权衡:它效率极高,单位 token 的计算成本非常低,但通常需要生成更多的 token(即更长的推理路径)才能达到与 full attention 模型相同的性能。然而,我们的工作证明了,通过适当规模的RL以及合适的推理时算力,混合注意力模型确实能媲美full attention架构性能

这对未来架构设计的一个关键启示,是评估方法的重要性。为了公平地比较混合模型与其他模型,我们应该基于在给定任务下、固定总计算预算内的性能来进行评估,而不仅仅是比较固定输出长度下的效果。这提供了一个更全面、更能反映模型真实效率和能力的视角。

Q:推理模型是否已经具备了System 2推理和自我反思能力?

A:System 2推理和自我反思,可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。

首先其核心驱动力,是有效利用更大的计算资源,即更长的输出,来获得更好性能的能力。我们观察到的高级推理能力,是扩展这些资源后的直接结果,而非其根本原因。本质上,为模型提供更多的计算能力去“思考”,使得这些复杂的模式得以涌现。

其次,这种高级推理可以被看作是一种自动化的Prompt Engineering。对于数学或编程等复杂任务,模型学会了生成自己的内部思考过程,这实际上取代了人类提供详尽、分步式指令的需要。

对于写作等任务,模型在思考过程中会先对问题进行分析,并对写作步骤进行专业化拆解。它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使得模型能够通过创建详细推理路径来“像专家一样思考”。

因此System2 推理和自我反思,实质上是如何高效地利用并扩展计算预算(computation budget),同时也是模型自动深化用户问题的体现

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...