下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

1,626次阅读
没有评论

白交 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

下一代Windows操作系统提前曝光了??

微软首个为Windows而设的智能体(Agent) 亮相:

基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。

比如,删除PPT演示文稿上的所有备注。

几个简单步骤就可完成。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。

网友表示:这才是Windows级别应有的创新能力

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

第一个Windows Agent来了

这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。

用户就可以通过自然语言指令,来操作App的用户界面。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。

但UFO得到指令后,简化了整个过程。

它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。

而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。

紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。

考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。

用户一旦确认,所有笔记就“下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO”的一下都没有了~

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。

比如读一篇PDF:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

设计PPT格式:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

下载Docker拓展:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

发条推文:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

搜索总结:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

读篇paper:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。

研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。

对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。

也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。

在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。

为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。

考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。

值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4——因此UFO可以被定位为一个高效的Agent。

而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

最后,9个场景从4个角度在WindowsBench的详细得分如下:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

三个模块组成

既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?

首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。

既然如此,又是如何实现的呢?

架构上看,UFO是个双Agent框架,主要有三个模块:

  • 应用智能体(AppAgent),选择一个应用程序满足用户请求。

  • 行动智能体(ActAgent),负责在所选应用中反复执行任务。

  • 交互控制,无需人工干预,全自动执行。

在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。

其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。

然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。

在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。

这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。

如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。

研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。

主要有这些控制类型。
下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

微软全球资深副总裁、MSRA副院长领衔

最后介绍一下UFO的研究团队,其中大多数都为华人。

通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。

他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习

Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

作者Liqun Li,现为微软DKI组首席研究员。

他先毕业于清华大学计算机科学技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。

他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。

她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

作者张祺,微软全球资深副总裁。

此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。

同时,他也是微软中国首位“全球杰出工程师”。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

最后,简单介绍一下多位作者的工作单位:MSRA的DKI组

DKI是Data、Knowledge、Intelligence的简写。

该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。

团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。

参考链接:
[1]https://github.com/microsoft/UFO

[2]https://arxiv.org/abs/2402.07939
[3]https://twitter.com/_akhaliq/status/1757625641724215585

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 2 月
 1234
567891011
12131415161718
19202122232425
26272829  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...