阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

克雷西
2025-05-31
12:07:36

来源：量子位

兼容SFT、RL训练方法

通义实验室投稿
量子位 | 公众号 QbitAI

为提升大模型“推理+搜索”能力，阿里通义实验室出手了。

最新研究开源全新通用预训练框架——MaskSearch，在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。

小模型甚至能媲美大模型表现。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

在推理+搜索方向，通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作，通过在特定的下游任务进行强化学习训练，让大模型在与环境交互的过程中学习使用搜索引擎。

该团队认为，仅在特定任务上训练会导致模型的泛化能力受限，难以适应更多场景下的检索推理任务。

受BERT模型在预训练过程中使用的掩码（Mask）预测任务启发，MaskSearch引入了检索增强型掩码预测任务。

也就是让模型使用搜索工具，预测文本中被遮蔽的部分，在预训练过程中有效学习通用的任务分解、推理等智能体策略，同时熟练掌握搜索引擎的使用方法，为其后续适配多领域任务奠定基础。

不仅如此，MaskSearch可以兼容监督微调（SFT）和强化学习（RL）两种训练方法。

通过加入预训练的二阶段训练，MaskSearch相比只在下游任务进行训练的基线方法，在多个开放域问答数据集上有明显效果提升。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

MaskSearch长啥样？

接下来，一起来深入探究MaskSearch的核心架构与运作机制。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

任务定义

检索增强型掩码预测（RAMP） 作为 MaskSearch 的预训练任务，其核心要义在于：

在输入的文本序列中，对关键信息进行掩码处理，模型需主动借助外部知识库，调用搜索工具来预测这些被掩盖的文本片段。

为了提升被掩码部分的难度，除了在过去掩码预测任务中常被遮蔽的命名实体（如人名、地名、组织名等）、日期和数字，MaskSearch还考虑了以下几类关键信息：

本体知识：文本中涉及的分类体系或知识体系中的关键概念；
特定术语：针对特定领域或主题的专业术语；
数值：文本中涉及的具体数值，如统计数据、测量值等。

这不仅增加了任务的难度，还促使模型在检索和推理过程中更加精细化地处理信息，从而提升其在多领域任务中的适应能力和泛化能力。

训练方法

监督微调

为了生成用于监督微调（Supervised Finetuning, SFT）的思维链（CoT）数据，作者提出一种结合Agent合成与蒸馏（Distillation）的数据生成方法，具体包括：

Agent合成: 首先，搭建多智能体系统，纳入规划、搜索改写、观察分析等角色，协同进行思维链的生成任务。最终由一个LLM负责答案判断，仅保留正确答案的思维链。
蒸馏：为了快速扩展数据集并保持高质量，使用已有数据训练后的教师模型，直接生成推理轨迹，并逐步迭代教师模型，从而逐步提升数据质量。

强化学习

强化学习部分，作者采用了动态采样策略优化（DAPO）算法，构建混合奖励（Hybrid Reward）系统——格式奖励检查模型输出是否符合指定格式，回答奖励则评估生成答案与标准答案的一致性。

作者探索了多种回答奖励函数，最终选择基于模型的奖励函数，使用Qwen2.5-72B-Instruct模型作为评判，为生成答案和标准答案的一致性进行打分。

课程学习

为了帮助从易到难依次学习，作者提出依据掩码数量对训练样本进行难度分级，让模型首先通过简单样本学习基础推理技能，然后逐步提升能力以应对更具挑战性的场景。

实验结果如何？

主要结果

作者通过基于不同大小的Qwen和LLaMA模型的实验证明，两阶段MaskSearch训练框架显著提升了大模型的搜索和推理能力。

遵循以RAMP作为预训练任务，HotpotQA数据集作为下游任务的训练流程，MaskSearch在领域内（in-domain）数据集上稳定提升模型召回率；在Bamboogle等领域外数据集上，性能提升更为显著，小模型甚至能媲美大模型表现，验证了RAMP作为可扩展学习信号的有效性。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

实验进一步验证了监督学习（SFT）与强化学习（RL）两种训练方式与MaskSearch框架的兼容性。

其中，RL在RAMP任务上展现出更高性能上限，尤其在HotpotQA等领域内任务中，在所有大小的Qwen模型都取得了最优效果。

这表明RL通过动态采样策略和混合奖励机制，能更精准优化模型的多步搜索与推理流程，为提升检索增强模型的适应性提供了更强的训练范式。

Scaling性能

在监督学习的场景下，作者通过不同训练步数实验验证 MASKSEARCH 的可扩展性：

小模型（如1B）经预训练后性能提升显著，而大模型（如 7B）受限于自进化数据的多样性，性能增益相对平缓，但召回率分数仍相对仅微调模型有所增长。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

这证明 RAMP 对不同规模模型均有持续提升的潜力，也表明数据质量和多样性是决定 SFT 方法模型性能上限的关键因素。

监督课程学习效果

此外，实验验证了基于掩码数量设计的课程学习训练策略。

具体方法是训练时按掩码数量分层采样数据，每个数量对应10K训练样本，配合6K HotpotQA数据维持任务平衡。当掩码数量从1逐步增至4时，Qwen2.5-7B模型在验证集上的得分明显增加，且显著高于将不同数量掩码的数据混合训练时的表现。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

此外，在下游任务上课程学习也有进一步提升模型训练后表现的效果，验证了难度梯度设计对推理能力构建的促进作用。

更多分析

1、掩码策略影响

掩码策略是影响RAMP预训练任务难度的另一重要因素。

作者对比了随机掩码与基于困惑度（PPL）的难度导向掩码策略，也就是通过计算模型恢复掩码时的损失值（即困惑度），优先选择恢复难度高的部分进行遮蔽。

实验显示，PPL策略在FanoutQA数据集上提升模型召回率，但在其它数据集中也会因过度追求难度导致性能下降，表明任务难度仍需要与模型当前搜索和推理能力相匹配。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

因此，结合课程学习的训练策略平衡难度，能够在整体上获得更优效果。

2、RL奖励函数影响

在强化学习训练过程中，不同奖励函数对模型性能影响各异。

以Qwen2.5-7b模型为例，基于token级召回率的奖励函数促使模型为提升召回率，向答案中堆砌大量无关信息，致使回答长度大幅增加，相较于其它RL奖励函数实际性能显著下滑。

尽管引入惩罚项以抑制回答长度，能在一定程度上减少信息冗余，但模型仍可在有限长度内通过枚举方式钻规则漏洞。

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

相较而言，基于模型的奖励函数表现出最佳性能，在模型生成的回答长度、token级召回率以及经Qwen72b模型评判的分数上，均优于其它两种奖励方法，有效规避奖励欺骗问题，且RL训练全程表现出卓越的稳定性和高效性。

总之，MaskSearch致力于提升大型语言模型（LLM）的智能体推理+搜索能力。该框架依托检索增强型掩码预测（RAMP）预训练任务，赋能模型自主执行多步搜索与推理，填补文本中的掩码空白，实现外部知识的深度整合。经监督微调（SFT）与强化学习（RL）双重训练路径锤炼，并引入课程学习策略，MaskSearch在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。

Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch

2025 年 5 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

通义实验室投稿
量子位 | 公众号 QbitAI

MaskSearch长啥样？

任务定义

训练方法

实验结果如何？

主要结果

Scaling性能

监督课程学习效果

更多分析

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

通义实验室 投稿 量子位 | 公众号 QbitAI

MaskSearch长啥样？

任务定义

训练方法

实验结果如何？

主要结果

Scaling性能

监督课程学习效果

更多分析

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

通义实验室投稿
量子位 | 公众号 QbitAI