港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

409次阅读
没有评论

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

性能与成本双破纪录

VistaWise团队 投稿

量子位 | 公众号 QbitAI

在大多数人眼中,《我的世界》(Minecraft)只是一款自由度极高的沙盒游戏

而在香港科技大学(广州)与腾讯联合团队的眼中,它却是一座可以演练通用人工智能的“数字练兵场”。

为了用“小数据办大事”,研究团队提出VistaWise框架,首次将“跨模态知识图谱+轻量化视觉微调”系统性引入开放世界智能体。

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

实验结果显示,在“获取钻石”完整链条上,VistaWise以33%成功率刷新非API类方法纪录,较前SOTA提升8个百分点,9个连续子任务全部达到73%以上的成功率。

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

近日,由双方共同完成的成果被自然语言处理领域顶级会议EMNLP 2025主会正式录用。

VistaWise:图谱“外挂”,四两拨千斤

随着大模型在游戏、数字孪生、线上运营等场景的落地,腾讯发现:要让AI在复杂开放世界中自主决策,传统做法需要千万级标注样本与数百张高端显卡,训练成本动辄百万。

在此背景下,港科大(广州)团队提出“视觉专家微调+外挂知识库”的极简路线:

1、仅采集471张游戏画面,用一张24G显存的消费级显卡即可完成视觉专家模型微调,完整框架可直接部署在笔记本电脑上;

2、将文本攻略、百科知识构建成轻量化知识图谱,实时注入大模型,显著降低幻觉;

3、设计“检索式图池化”机制,让大模型在毫秒级时间内精准锁定任务所需信息。

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

VistaWise以“低成本 + 跨模态”为突破口,提出一套“图-检-控”三位一体的极简框架,核心创新可概括为“一图谱、两增强、三协同”:

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

图谱级知识外挂

首次将开放世界的文本攻略与实时视觉感知融合成“跨模态知识图谱”。图谱仅保留实体名称与关系,剔除冗余描述,单张1080p画面即可在20 ms内完成动态更新。

视觉增强的轻量化检测

仅使用471张截图微调YOLOv10-L,实现多类游戏实体的像素级定位;引入“经验阈值”距离估计,用像素宽高代替深度估计网络,节省算力的同时减少推理延迟。

推理增强的检索式池化

设计Path-Searching+Entity-Matching双阶段池化,先锁定“玩家→目标”全局路径,再按任务提示与视觉属性局部裁剪以去除冗余信息,减少30%推理tokens。

控制增强的桌面级技能库

基于PyAutoGUI封装多个原子动作函数,支持键鼠混合输入,让大模型直接生成带参调用,摆脱MineFlayer等API束缚,实现“零仿真”真机操作。

VistaWise的决策闭环可抽象为“感知-检索-推理-执行”四步:

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
  • 感知:YOLO同时检测环境与物品面板,输出实体坐标、尺寸及类别;
  • 检索:将感知结果实时写入知识图谱,触发双阶段池化,得到任务相关的子图;
  • 推理:GPT-4o基于任务描述、子图、记忆栈与技能库,生成“下一步动作+参数”的自然语言指令;
  • 执行:指令映射为PyAutoGUI调用,驱动Minecraft客户端完成点击、拖拽、合成等操作,并实时刷新环境与记忆。

整套系统仅依赖单张24 GB GPU完成训练,推理阶段完全在本地配备8 GB显卡的笔记本电脑上闭环运行。

小数据撬动大模型,性能与成本双破纪录

实验结果表明,VistaWise训练数据量可缩减5个数量级(471 vs 160M帧),GPU显存需求下降87.5%(24 GB vs 192 GB)。

不仅如此,与使用多模态大模型 (MLLM) 进行视觉感知相比,VistaWise使用轻量化视觉检测和检索式池化可减少冗余信息,在实现了更高性能的同时降低了30.7%的tokens使用,而性能并未出现明显下降。

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

在“获取钻石”完整链条上,使用GPT-4o进行推理,最终开销仅为Voyager的5%($1.28 vs $25)。

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

作者信息:

王浩,通讯作者,香港科技大学(广州),人工智能学域助理教授、博士生导师。

2023年博士毕业于新加坡南洋理工大学,曾在TikTok、地平线等公司科研工作。主要研究兴趣为大模型生成式智能体和三维重建。

发表TPAMI、IJCV、CVPR、NeurIPS等领域顶级会议期刊论文50余篇。主持国家自然科学基金青年项目,参与国家科技部国家重点研发计划项目,获2023年SMP-IDATA晨星青年基金、2024年腾讯犀牛鸟专题项目。

论文链接:https://arxiv.org/abs/2508.18722

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...