真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

867次阅读
没有评论

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

8500+LLM、12个榜单、2亿记录

MilkThink团队 投稿

量子位 | 公众号 QbitAI

事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了——

共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录!

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

先来简单科普一下路由LLM。

这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ,当给一个输入的时候,有分类能力的Router(路由器)就会把这个输入分配给合适的LLM处理。

如此一来,就能实现高性能、低计算消耗、低幻觉等目标。

而来自中山大学普渡大学的研究人员在基于上述海量的记录做了一番探索之后,发现了一个现象,叫做Model-level Scaling Up

一言蔽之,就是一个好的Router,可以让路由LLM范式的性能随着LLM候选数量的增加迅速变强。

随后,他们通过这些数据构建了针对Router设计的评测RouterEval

值得注意的是,其他研究人员,也可以通过RouterEval在很少的计算资源下(如笔记本单卡GPU上)就能参与到该路由LLM的研究当中。

2亿条记录中发现的新现象

当大多数研究人员和开发者第一次听到Mixture-of-Expert (MoE) 的时候,可能第一反应不是现在常见的对结构中的FFN层进行扩展,以FFN层作为”expert”。

而是直接将每一个成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

实际上,这种范式也称为路由LLM(Routing LLMs)。

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

简单地说,就是给定一个输入input,一个具有一定分类能力的Router (路由器)会将input分配给指定的LLM进行处理,以达到高性能、低计算消耗或者是低幻觉等各种各样的目标,或组合目标。

这类问题可以被认为是分类问题、推荐系统问题、Agent规划甚至是检索问题(注意,不是检索数据for LLM,而是检索LLM for 数据)。

一些典型的例子有:

  1. 人机客服切换:机器人客服无法解决问题的时候自动切换到更高级的客服,比如更智能的机器人,甚至人类;
  2. 强弱LLM切换:比如困难问题给GPT4解决(费用贵),简单问题给GPT3解决(费用低)
真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

△路由LLM (Routing LLMs)示意图

路由LLM具有很高的应用潜力和兼容性,不同LLM都可以被添加到LLM候选Pool中参与routing(包括异构LLM,各种tuning/pretraining方法下得到的LLM,等等),而且可以发挥很强的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的训练成本,以路由LLM的范式下实现和需要数十万个GPU训练得到的Grok3相当的性能,并登上Arena排行榜第一。

然而当前路由LLM领域仍然存在一些挑战影响了Router的发展:

  1. 缺乏统一的benchmark。各个研究都在小范围的构建各种的benchmark进行研究;
  2. 当前benchmark不够全面:当前的工作一般只涉及少量的LLM、evaluations,而且大多数是闭源不公开。

于是,研究团队收集并整理且开源了涉及8567个不同LLMs在12个evaluations下2亿条性能记录,并通过这些记录发现:

  1. Model-level Scaling Up现象:有一定能力的Router,可以使得routing llm范式下的性能随着llm pool的扩大而迅速上升。过去的研究由于涉及的不同LLM较少,不容易观察到这个现象。
  2. 通过这些数据,我们构建了全面的针对Router设计的评测RouterEval。其全面性可以大大帮助Router设计的探索。鉴于该测评已经整理良好且很简洁,可以被看做是传统的分类问题,所有研究者都可以以很少的计算消耗(甚至单卡或笔记本电脑)参与该大模型的研究当中。
真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

△Model-level Scaling Up现象示意图

利用2亿条性能记录,可以构建完美Router,即oracle Router ro:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

接着,根据上式可以构建不同性能的Router ro(p),其中wm为随机Router,当p→1时,Router ro(p)越解决上界分类性能,当p→0时,ro(p)越接近随机Router。

从上图结果来看,随着LLM候选的数量增加,不同的evaluation在具有一定能力的Router下呈现了Scaling Up现象。

而性能一般的Router,比如随机Router则几乎没有Scaling Up现象。

且快速超过参考模型Ref. LLM的性能(参考模型一般是GPT4)。

另外团队还可以发现两个有趣的现象:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

RouterEval涉及的LLM的参数分布

  1. 弱LLM也能组合出非常强的性能。上图给出了RouterEval中涉及的LLM的参数分布,LLM的参数为7B或以下的情况占优。文章发现,即使较弱的LLM也可以组合出不错的性能,比如5个性能在少于0.3的情况下,ro可以让他们互补优势在MMLU上达到0.95(超越GPT4)的性能。
  2. 少量的LLM候选已经足够。从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

当前Router的结果

通过测试当前的已有的Routers的性能,可以发现现在Router仍然有很大的提升空间。

不过幸运的是,RouterEval进行的Router设计的实验不需要大量的计算资源,且可以融入不同的已有技术,包括few-show learning,数据增强、推荐系统、正则化方法、预训练模型、额外数据等等.

因此Router将有希望快速得到实质性改进。

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

以及,和当前一些其他范式的区别和关系如下:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究
  1. 推荐系统:Routing LLM其实是特殊的推荐系统,LLM的input是推荐系统中的user信息,LLM候选是推荐系统中的商品item,而性能记录则是推荐系统中的历史用户书记记录;
  2. LLM集成:一般LLM集成是post-decision,即让多个LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要决定是哪个LLM来处理;
  3. LLM Fusion:LLM融合主要针对是同质的LLM的“合作”,而Routing LLM可以让“异质”(包括不开源)的LLM进行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

当然,研究团队也提出一些未来的挑战。

首先就是缺乏数据

要获得足够好的Router,当然的数据仍然远远不够,因为这些性能记录的数据一般不开源,且掌握在大公司手中,这需要全社区的共同努力。目前也可以通过算法一定程度缓解数据缺乏的问题。

其次是如何保持在多LLM候选情况下的Router性能的问题。

当LLM候选越多的时候,意味着Router要进行更多类的分类,这对于Router的训练来说具有很高的挑战性;

除此之外,还包括RouterEval目前只关注在性能

尽管routing llm可以考虑计算消耗、幻觉等其他目标。但是目前性能的水平还远远不够,如果现在就过度关注其他目标的话,可能言辞尚早。另外,计算消耗和幻觉等目标的数据不容易搜集,可能采集不到足够多的LLM的记录数据,仍然需要全社区的努力。

最后,就是部署的难度

即使足够强的Router可以获得,但是此时LLM候选的部署可能是新的瓶颈,这在计算机系统等领域中也有很多的研究角度,如计算负载,高效分配、动态模型激活等。幸运的是,从论文的观察来看,3-10个LLM已经能得到出色的结果。

GitHub和论文等地址放下面了,感兴趣的小伙伴可以深入研究一下哦~

代码地址:
https://github.com/MilkThink-Lab/RouterEval

论文地址:
https://arxiv.org/abs/2503.10657

论文合集:
https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...