AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

1,026次阅读
没有评论

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

突破Agent响应速度与认知能力平衡难题

西湖大学 投稿

量子位 | 公众号 QbitAI

人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。

以DeepSeek为代表的LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。

然而,LLM的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态——GUI代理(GUI Agents)。这类智能体不仅能理解指令,还能像人类一样直接操作计算机和手机,摆脱对预设规则或API的依赖,带来更自然、高效的交互方式,使AI真正融入软件生态,成为智能操作系统的一部分。

问题在于,目前的LLM代理虽然具备强大的推理能力,却在任务执行效率上存在明显瓶颈

为了解决这个问题,现在,西湖大学AGI实验室张驰团队推出了AppAgentX——一款具备自我进化能力的GUI代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。

AppAgentX的核心创新在于:

  • 自动归纳高效操作模式:代理能够在执行任务时,检测重复性操作模式,并自动总结成更高级别的“一键”操作。
  • 任务执行更快,减少重复计算:传统的LLM代理每次执行任务都需要重新思考操作流程,而AppAgentX能够记住并复用执行策略,从而避免重复推理,使得任务执行更加流畅高效。
  • 完全基于视觉操作,适用于各种软件:传统自动化方法通常需要访问后端API,而AppAgentX仅依赖屏幕视觉信息进行操作,无需后端访问,因此能够在不同软件、不同设备上通用,真正做到“即插即用”。

AppAgentX:让智能体学会“进化”

过去,计算机的自动化操作主要依赖RPA(机器人流程自动化),通过预设规则或API进行固定任务的执行。然而,这种方式需要大量手动配置,缺乏灵活性。

GUI代理的出现,改变了这一局面,被誉为软件世界中的具身智能。

GUI代理不依赖后端API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操作软件界面。这意味着,智能体可以自主学习如何操作各种应用程序,甚至能够在不同软件之间切换,执行复杂的跨应用任务。例如:

  • 办公场景:自动整理文档、批量发送邮件
  • 娱乐与创作:使用Photoshop处理图像、生成视频内容
  • 自动化操作:批量录入数据、自动处理订单
  • 跨应用任务:从网页爬取信息后填入Excel、在多个软件之间进行联动操作

正因如此,GUI代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案,但现阶段的挑战也很突出:现有的智能体聪明但不够高效

现有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次执行操作前,模型都要推理下一步动作。例如,在进行网页搜索时,它可能会这样决策:

  1. 识别需要搜索的信息;
  2. 点击搜索框;
  3. 输入关键词;
  4. 点击搜索按钮。

这种方式赋予了智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行低效、重复计算严重的问题。

AppAgentX解决这一痛点的核心思路,是让智能体学会“进化”

下面是一个AppAgentX执行播放音乐的一个例子示意图,当找到了“一键”操作,就不需要每一步都耗费大量时间思考下一步需要做什么,从而快速完成任务。

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

这里可以看出智能体进化出一个高级操作“搜索”,它取代了一系列低效的低级操作。这种进化避免了重复耗时的逐步推理,显著提高了代理的效率。

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

△AppAgentX的功能示意图

方法介绍

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

任务轨迹的分解

在执行任务时,AppAgentX会将整个过程分解成多个重叠的三元组(即由三个部分组成的组合)。这些三元组包含了页面内容和用户界面(UI)元素的功能描述。

具体来说,智能体会:

  • 生成功能描述:利用大语言模型(LLM),为每个页面和界面元素生成详细的功能描述。这些描述帮助智能体理解每个部分的作用。
  • 合并重复描述:如果某些页面的描述是重复生成的,智能体会将这些描述合并,以减少冗余信息。
  • 记录交互历史:整个交互过程会被记录成一个节点链,形成一个完整的操作历史,便于后续调用。

进化机制与执行过程

在任务执行过程中,AppAgentX还引入了一种进化机制,使得智能体能够更高效地执行操作。这个机制的核心在于生成“捷径节点”,允许智能体在执行一系列操作时,跳过逐步推理的过程。具体步骤如下:

  • 生成捷径节点:当智能体识别到某些操作具有固定的执行顺序时,它会创建捷径节点。这些节点将多个底层操作整合为一个更高级的动作。
  • 高效执行:通过调用这些捷径节点,智能体可以快速执行一系列操作,而无需逐步推理每一步。这大大提高了任务执行的效率。
AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

从实验结果来看,AppAgentX从单步的执行效率到总体的API token消耗,在多个GUI交互任务上展现出了显著的“降本增效”。

总体来说,AppAgentX作为一项创新的移动终端交互技术,通过构建链式知识存储架构与动态匹配执行机制,在保持大型语言模型代理灵活性的同时显著提升执行效能,实现了无需后端访问的图形界面智能操作系统。

该技术突破性地解决了传统智能体在响应速度与认知能力间的平衡难题,为移动端AI应用开辟了新的技术路径。此项研究不仅标志着智能体技术在效率与智能动态平衡方面取得重要突破,更为人机交互领域提供了可扩展的技术范式。

项目地址:https://appagentx.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址:https://arxiv.org/abs/2503.02268

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...