Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

1,250次阅读
没有评论

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源

开源复现潮出现了,商业闭源产品也卷起来了。

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Manus背后公司名为“蝴蝶效应”,真的带火了整个智能体赛道——

开源复现潮出现了,商业闭源产品也卷起来了。

目前进度最快的两个项目,都是在Manus发布的第0天发布了复现代码。

除了之前介绍的OpenManus之外,另一个开源项目OWL已经把DeepSeek模型整合到多智能体协作框架中

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

OWL来自国内开源社区CAMEL-AI团队。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

OWL最新提交的结果在智能体测试基准GAIA的验证集上排名平均分第3,在开源项目中排第1。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

其Level 1分数81.13同样超过了OpenAI的Deep Research,与Manus晒出的86.5已经非常接近。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

虽然Level 2和Level 3分数还有差距,不过CAMEL-AI团队的李国豪在交流群中表示,有信心刷爆。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

今日的GitHub热榜上,大多是Agent相关的项目和工具库,老牌Agent项目MetaGPT与AutoGPT双双被顶到前排。

Camel-AI、OpenManus所使用的代码库browser-use也现身,此外金融、编程等领域的垂直智能体也备受关注。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

与此同时,有人注意到Claude团队推出的模型上下文协议MCP不是已经有小半年了么,为什么突然每个人都在讨论它?

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

原来是每个人都想知道如何造一个Manus,而MCP是一种有效的实现途径呀。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

Manus火到海外

再来看看Manus本尊的进展。

官方社交媒体账号被短暂禁封后现已恢复,称将发布更多演示和更新。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

Manus这个产品也成功火到了国外,方法很简单:发邀请码。

除了给海外大V单独发之外,Manus联创季逸超还与抱抱脸CEO取得联系,公开分享100个码,见者有份,先到先得。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

两人的交流中季逸超谈到Agent能力可能更多的是对齐问题而不是基础能力问题,基础模型被训练为“无论任务有多复杂,都一次性回答所有问题”,而“只需对代理轨迹进行一点后期训练,就可以立即产生显著的变化”。

(顺便码不用去试了,半夜就抢光了。)

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

海外用户得到码之后的剧情和这边差不多,有不少试用之后被惊艳到的,变成“自来水”的。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

并且海外用户的付费意愿确实要强一些,毕竟比起OpenAI两万美元一个月的博士级智能体总是要便宜许多。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

很多人拿到Manus做的第一件事,都是让他收集自己的资料,编写并部署个人主页。

其中Rowan Cheung表示Manus收集到关于他的个人信息100%准确且是最新的。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

类似的任务还有日本网友让Manus部署一个介绍他自己的网站。

他分享了体验中的一个细节:虽然Manus可以自己完成所有任务,但如果在执行过程中给出意见,它也可以灵活地改变计划并执行,就好像真的再给人下达指令一样。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

更复杂的编程类任务还有制作一个javascript的飞行游戏

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

也有人把它当做Deep Research类工具,寻找租信息只花了不到10分钟时间。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

主要的抱怨集中在速度有些慢,以及没有码。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

One More Thing

作为Manus出圈的副作用之一,GAIA基准测试正在成为智能体类产品必争之地。

GAIA由Meta AI、HuggingFace和AutoGPT团队推出,图灵奖得主Yann LeCun和HuggingFace首席科学家Thomas Wolf参与,旨在解决现有大语言模型基准测试被快速突破、难以评估新模型的问题。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

GAIA测试由450+具有明确答案的复杂问题组成,分为三个难度级别,考验智能体系统的工具使用能力以及自主性。

Level 1:通常解题步骤不超过5步,且不需要工具,或最多使用一种工具。如简单的信息检索和处理,任何优秀的语言模型都可以完成。

Level 2:需要在5-10步之间完成,并且需要组合使用不同工具。如“根据附件 Excel 文件计算当地快餐连锁店食品(不含饮料)的总销售额”。

Level 3:面向近乎完美的通用AI助手,要求AI能够执行任意长度的复杂动作序列,使用多种工具,并具备广泛的世界知识和信息获取能力。

如“在2006年1月21日NASA的每日天文图片中有两名宇航员,截至2023年8月,找出较小宇航员所在NASA宇航员小组中在太空停留时间最短的宇航员及其停留时间”,解答这类问题需要综合网络搜索、信息筛选、知识推理等多种能力。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

人类在Level 2、和Level 3上的成功率分别是92%和87.3%,测试推出时最先进的语言模型GPT-4得分为9.7%和0。

此外GAIA排行榜分为测试集(Test)和验证集(Validation)两项,其中验证集是公开数据,测试集为私有数据,测试集的含金量更高一些。

目前测试集排行榜中,h2oGPTe Agent(来自H20.ai)、Trase Agent(来自Trase Systems)两个商业闭源系统的Level 2分数与Manus公布分数(70.1%)接近。

Manus团队公布的Level 3分数为57.7%,领先幅度比较大。

Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜

ImageNet数据集与竞赛开启了深度学习浪潮之后,每个时代都有自己的当红榜单指引着最前沿技术的发展。

在BERT时代是语言理解基准CLUE、SpuerCLUE

随后ChatGPT、Claude、Gemini已经刷爆了考验各学科知识的MMLU、以及用户用脚投票的ChatBot Arena大模型竞技场。

o1/r1/QwQ类推理模型正在比拼数学(AIME、FrontierMath)、博士级别理科题(GPQA)、编程/软件工程能力(Codeforces、SWE-bench、LiveCodeBench)。

智能体刷GAIA,似乎正在成为行业最新共识。

或者不久以后,可以期待一下AgentArena智能体竞技场?

OpenManus
https://github.com/mannaandpoem/OpenManus

OWL
https://github.com/camel-ai/owl

GAIA Bencmark
https://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...