Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

梦晨
2025-03-09
13:13:59

来源：量子位

开源复现潮出现了，商业闭源产品也卷起来了。

梦晨发自凹非寺
量子位 | 公众号 QbitAI

Manus背后公司名为“蝴蝶效应”，真的带火了整个智能体赛道——

开源复现潮出现了，商业闭源产品也卷起来了。

目前进度最快的两个项目，都是在Manus发布的第0天发布了复现代码。

除了之前介绍的OpenManus之外，另一个开源项目OWL已经把DeepSeek模型整合到多智能体协作框架中。

OWL来自国内开源社区CAMEL-AI团队。

OWL最新提交的结果在智能体测试基准GAIA的验证集上排名平均分第3，在开源项目中排第1。

其Level 1分数81.13同样超过了OpenAI的Deep Research，与Manus晒出的86.5已经非常接近。

虽然Level 2和Level 3分数还有差距，不过CAMEL-AI团队的李国豪在交流群中表示，有信心刷爆。

今日的GitHub热榜上，大多是Agent相关的项目和工具库，老牌Agent项目MetaGPT与AutoGPT双双被顶到前排。

Camel-AI、OpenManus所使用的代码库browser-use也现身，此外金融、编程等领域的垂直智能体也备受关注。

与此同时，有人注意到Claude团队推出的模型上下文协议MCP不是已经有小半年了么，为什么突然每个人都在讨论它？

原来是每个人都想知道如何造一个Manus，而MCP是一种有效的实现途径呀。

Manus火到海外

再来看看Manus本尊的进展。

官方社交媒体账号被短暂禁封后现已恢复，称将发布更多演示和更新。

Manus这个产品也成功火到了国外，方法很简单：发邀请码。

除了给海外大V单独发之外，Manus联创季逸超还与抱抱脸CEO取得联系，公开分享100个码，见者有份，先到先得。

两人的交流中季逸超谈到Agent能力可能更多的是对齐问题而不是基础能力问题，基础模型被训练为“无论任务有多复杂，都一次性回答所有问题”，而“只需对代理轨迹进行一点后期训练，就可以立即产生显著的变化”。

（顺便码不用去试了，半夜就抢光了。）

海外用户得到码之后的剧情和这边差不多，有不少试用之后被惊艳到的，变成“自来水”的。

并且海外用户的付费意愿确实要强一些，毕竟比起OpenAI两万美元一个月的博士级智能体总是要便宜许多。

很多人拿到Manus做的第一件事，都是让他收集自己的资料，编写并部署个人主页。

其中Rowan Cheung表示Manus收集到关于他的个人信息100%准确且是最新的。

类似的任务还有日本网友让Manus部署一个介绍他自己的网站。

他分享了体验中的一个细节：虽然Manus可以自己完成所有任务，但如果在执行过程中给出意见，它也可以灵活地改变计划并执行，就好像真的再给人下达指令一样。

更复杂的编程类任务还有制作一个javascript的飞行游戏。

也有人把它当做Deep Research类工具，寻找租房信息只花了不到10分钟时间。

主要的抱怨集中在速度有些慢，以及没有码。

One More Thing

作为Manus出圈的副作用之一，GAIA基准测试正在成为智能体类产品必争之地。

GAIA由Meta AI、HuggingFace和AutoGPT团队推出，图灵奖得主Yann LeCun和HuggingFace首席科学家Thomas Wolf参与，旨在解决现有大语言模型基准测试被快速突破、难以评估新模型的问题。

GAIA测试由450+具有明确答案的复杂问题组成，分为三个难度级别，考验智能体系统的工具使用能力以及自主性。

Level 1：通常解题步骤不超过5步，且不需要工具，或最多使用一种工具。如简单的信息检索和处理，任何优秀的语言模型都可以完成。

Level 2：需要在5-10步之间完成，并且需要组合使用不同工具。如“根据附件 Excel 文件计算当地快餐连锁店食品（不含饮料）的总销售额”。

Level 3：面向近乎完美的通用AI助手，要求AI能够执行任意长度的复杂动作序列，使用多种工具，并具备广泛的世界知识和信息获取能力。

如“在2006年1月21日NASA的每日天文图片中有两名宇航员，截至2023年8月，找出较小宇航员所在NASA宇航员小组中在太空停留时间最短的宇航员及其停留时间”，解答这类问题需要综合网络搜索、信息筛选、知识推理等多种能力。

人类在Level 2、和Level 3上的成功率分别是92%和87.3%，测试推出时最先进的语言模型GPT-4得分为9.7%和0。

此外GAIA排行榜分为测试集（Test）和验证集（Validation）两项，其中验证集是公开数据，测试集为私有数据，测试集的含金量更高一些。

目前测试集排行榜中，h2oGPTe Agent（来自H20.ai）、Trase Agent（来自Trase Systems）两个商业闭源系统的Level 2分数与Manus公布分数（70.1%）接近。

Manus团队公布的Level 3分数为57.7%，领先幅度比较大。

ImageNet数据集与竞赛开启了深度学习浪潮之后，每个时代都有自己的当红榜单指引着最前沿技术的发展。

在BERT时代是语言理解基准CLUE、SpuerCLUE。

随后ChatGPT、Claude、Gemini已经刷爆了考验各学科知识的MMLU、以及用户用脚投票的ChatBot Arena大模型竞技场。

o1/r1/QwQ类推理模型正在比拼数学（AIME、FrontierMath）、博士级别理科题（GPQA）、编程/软件工程能力（Codeforces、SWE-bench、LiveCodeBench）。

智能体刷GAIA，似乎正在成为行业最新共识。

或者不久以后，可以期待一下AgentArena智能体竞技场？

OpenManus
https://github.com/mannaandpoem/OpenManus

OWL
https://github.com/camel-ai/owl

GAIA Bencmark
https://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

2025 年 3 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

Manus火到海外

One More Thing

test

test

文心AIGC

test

test