全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

610次阅读
没有评论

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

还有类似NotebookLM的在线私人知识库的功能。

白交 发自 凹非寺

量子位 | 公众号 QbitAI

左超Manus,右跨Genspark,GAIA榜单上又一家中国公司登顶!

天工超级智能体(Skywork Super Agents),出自昆仑万维,今日刚一上线即霸榜。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

Agent赛道开始热闹之后,GAIA就成为大家摩拳擦掌的竞技场。

作为一个评估Agent解决实际问题能力的基准,它包括450个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个Level水平。

结果能够看到,天工超级智能体(Skywork Super Agents)在前两个Level都以较大分数超过Manus和OpenAI的Deep Research,最后一个较高难度的Level 3,能力与Manus持平。

另外,它还在SimpleQA排行榜上,实现了对OpenAI和当前SOTA的超越。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

除了在排行榜表现惊艳,它还有很多与其他产品不同的细节点。

摘一个最重要的(对打工人最友好的)来说。

它支持五种模态一站式生成,包括Office三件套(Word、PPT、Excel)、网站、网页、播客,一应俱全。

而且生成的结果可溯源、可编辑,还有类似NotebookLM的在线私人知识库的功能。

要知道,以前Agent那么多,但对打工人都不是特别的友好,生成的报告无法溯源、支持的文件格式又有限……

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

现在似乎是一个真正强大且对打工人友好的Agent来了,具体来看看。

超越Genspark和Manus,GAIA榜单第一

在说天工超级智能体(Skywork Super Agents)之前,有必要说说GAIA的含金量。

它之所以能成为众多Agent/大模型屡试不鲜的通用Benchmark,主要在于它提出了真实世界中一系列需要基本能力的问题,如推理、多模态处理、网页浏览和一般工具使用熟练程度。

而且还很细致地区分了三个层次,分别代表着不同的难易程度,级别越高,难度越大。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

Level 1,往往不需要任何工具,或者有且最多只使用一种工具,但步骤不超过5步。

Level 2,涉及到的步骤在5-10步之间,需要结合不同的工具。

Level 3,这一级别的问题已经接近通用Agent了,要求采取任意长的行动序列,使用任意数量的工具,并能访问整个世界。

不过别看这么复杂,但其实这种难度只是「AI限定」,对人类来说很简单。他们的实验表明,人类答题者的得分率为92%,而装有插件的GPT-4的得分率仅为15%。

这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。

于是乎这也就成为了海内外Agent的擂台,结果没想到现在又出现一个国产Agent「天工超级智能体」(Skywork Super Agents)突出重围,实现SOTA。

另外,它还收获了SimpleQA上评分第一、Product Hunt日榜第一。

具体来看看产品

从入口上看,目前只有网页端口,界面相比其他Agent产品丰富和清晰不少,覆盖的模式和场景都更全面一些。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

在模式中有六种可以选择,其中Office三件套(文档、PPT、表格)还都是专家模式。

尤其是表格的首发,让AI生成数据表格和图标,这是其他Agent产品尚且还不具备的。

而这次通用模式,它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来,并且All in One

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

此外它还可以细分场景,基本上我们日常生活工作高频场景都覆盖了。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

这样拆分其实简化了用户的流程,不需要再去多思考如何想提示词,只需选定一个模式和场景,简单地提出一个需求就可以搞定,直接降低了使用门槛。

当然有一些详细需求且里面的场景没有涉及到,也跟其他Agent/AI助手一样,支持「通用」场景和模式。

比如生成个游戏/网页,研究报告啥的。

我是个技术小白,我想从零做一个小游戏的微信小程序,要真正能够上线分享给其他人的,请问我应该一步步怎么做,给我写一个详细完整的攻略和教程,要具有实际可操作性,步骤要清晰,阅读起来不要太费劲。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

给我做个网页,一个tab是微信聊天界面,另一个tab是朋友圈,模拟历史上的各位皇帝在聊天和发朋友圈,要符合各个皇帝的性格和特点,然后互相还会在朋友圈点赞,增加一个继续看的按钮,每次点击都会触发新的聊天和朋友圈事件。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

整体看下来,其他智能体有的它都有,而且产品功能设计得更贴合用户习惯,大大简化了用户使用门槛。

那就来看看它的真本事~彻底地来实测感受一下。

实测天工超级智能体:真正对打工人友好

这次天工超级智能体(Skywork Super Agents)支持了Office三件套,据说还做了专门的优化,那就来看看它的实力所在。

首先来看看PPT模式。

主题:大模型与智能体科普,目标:中小学生

在如此简单的提示词驱动下,它就开始运作了。当然除了Prompt,也可以投喂资料或你的个人知识库内容,可以是图片、在线文档、网页、PDF。

发起任务后,它会根据任务生成一个表单, 你可以跳过也可以修改,这样让需求更具体。

这样也能让它更能get你的需求,避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了(Bushi)。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

确认需求之后,它会生成一个「待办清单」,包括收集、整理、生成大纲到制作等详细步骤,这里也有一个「确认」的操作需要你来执行,有任何补充也都OK。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行,比如确认PPT大纲,当然也可以跳过。总之就是关键步骤更可控,而不是一股脑地完成,避免一步错步步错,让它最后完成的结果也能更符合你的预期。

在使用各种MCP依次完成步骤之后,来看看生成的结果,整体看上去还是不错。

风格和排版设计也很契合中小学生这一群体,仔细一看还会发现有动画效果?!可以说是很全面了,毕竟我就不会弄这个。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

里面的案例也不局限于文本这一形式,还有视频、图片等多种模态穿插,而且也都是可溯源的真实案例,是真正可以直接拿出去用的程度。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

这种高可用的特点,其实还挺惊艳的。

毕竟不是所有Agent平台都能生成这么丰富的多模态内容,也不是所有平台生成的内容都真实可用,但此处天工超级智能体(Skywork Super Agents)两者都实现了,不仅有用还好用,对于用户来说还敢直接在真实场景中使用。

而要是需要微调内容,它也支持「可编辑」,文字所到之处,都可以进行调整。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

最后支持PPT、PDF以及HTML导出。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

值得一提的是,在要完成其他的需求或者需要跳转其他的任务时,可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

之前使用其他Agent可能还会担心置于后台就不干活的情况,经过这一番实测来看,它生成过程以及结果都还挺稳定的。

这种「通知」的设置,真的就有种拥有一个打工助理的感觉:你忙你的,我做我的,我做完再跟你汇报~

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

接下来再来试试其他两件套:Excel和Word模式

Excel模式下,要求它统计GitHub上热门的MCP项目,要求有项目名称、作者、Star数。在确认具体需求之后,它就开始运作了。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

得到的结果是酱婶的~能够看到项目都是最新更新的,最后还附带了个Star排名表。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用
全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

再来看看word模式:AI产品经理的面试指南,要求给问答清单写优秀示例。

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

最后这些生成的内容,都可以储存在知识库中,也可以自己上传pdf、doc、ppt、xls等多种格式的文件,可以上传录音,也可以上传url和youtube视频播放地址。每个知识库支持上传最多50个文档,方便之后可以调用。

适合工作场景的「三件套」模式说完了,通用模式其实更有意思。它集成了十余个MCP,包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。

于是在各种工具混合之后,就可以生成一些酷炫的产物,比如MV、宣传片、有声书、绘本……

帮我生成一个小猫的旅行vlog,内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照,配乐轻松欢快。

最后,他们还考虑到了开发者,也就是今天,他们在GitHub上开源了DeepResearch Agent框架。并且把生成「三件套」的能力,集成MCP,供开发者调用。

DeepResearch Agent框架开源:https://github.com/SkyworkAI/DeepResearchAgent

MCP地址:https://mcp.so/server/skywork-super-agents/Skywork-ai

智能体从有用、敢用到好用

整个产品体验下来,能够感知到的是,AI Agent赛道从“技术秀场”向“真实生产力工具”的跨越。

首先,它不仅以GAIA榜单冠军和SimpleQA评分第一的成绩证明了技术能力的领先。

它还更通过一系列基于用户特点的产品设计,比如Office三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计,重新定义了智能体的价值标准:

从“有用”到“敢用”,最终实现“好用”

智能体虽然能够让AI开始触达到真实任务执行中去,但往往会因生成内容有限,结果不可控被职场人束之高阁,但天工超级智能体(Skywork Super Agents)正在打破这样的信任壁垒。

比如全链路可控,从“需求确认-大纲审核-内容溯源”,让用户随时介入关键决策点,而且交付流程稳定,后台任务持续运行的特点,解决了AI工具“半成品烂尾”的痛点……用户才敢真正将核心工作交付给智能体。

此外,天工的好用易用其实并非简单的界面优化,而是围绕“真实需求-可用结果”一整套的闭环设计。

场景化入口将“提示词工程”转化为“选模式-填需求”的极简操作,私人知识库支持导入企业文档、会议记录等私有数据,让输出结果天然贴合用户知识体系;真实场景中往往数据类型更为复杂,还会涉及跨模态联动,智能体能够做到多模态一站式生成,落地场景就可以进一步得到延伸和扩展。

当下,全球Agent赛道激战正酣,OpenAI、Google等巨头押注通用智能体,还有一群像Genspark、Manus争先恐后的创业玩家。

中国玩家们,以天工超级智能体(Skywork Super Agents)的突破为例,其实正在探索一条更本质的进化路径:

AI的价值不在于炫技刷榜,而是针对真实用户体验,甚至可以让人忘记技术所在。

这场“有用→敢用→好用”的进化,或许正是撬动AI大规模落地的终极密码。

目前海外版国内版均已上线,可戳下方链接体验哦~

海外版:https://skywork.ai
国内版:https://tiangong.cn

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...