又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

875次阅读
没有评论

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

离贾维斯又近了一步

时令 发自 凹非寺

量子位 | 公众号 QbitAI

只靠说话和AI眼镜互动,确实有点不方便。

现在新玩法来了!数字替身帮你“隔空抓物”,混合现实即时选择现实世界的物体作为上下文。

书籍检索,轻松get~

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

建筑导航?手拿把掐。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

多无人机协作?也是毫不逊色。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

技术被称为Reality Proxy——一种直接操控界面,让你可以瞬间选中现实世界中的物体。

研究者Xiaoan Liu甚至表示,这使我们离贾维斯又进了一步。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

Reality Proxy打破物理条件限制

混合现实(XR)正在重塑人机交互的边界。通过头戴设备,它有望将物理世界与数字世界融合,让用户能同时操控现实与虚拟中的对象。

然而,传统的XR设备通常通过光线投射来选择物体,但由于目标在视野中尺寸较小、视线不稳定以及手部颤抖等原因,这一过程往往容易出错。

因此,研究团队提出Reality Proxy(现实代理)——现实物体的抽象数字表示。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

他们将交互目标从物体无缝转移到其代理上,选择代理等同于选择实际物体,便于用户摆脱距离或大小等限制,实现轻松选择物体。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

如上所示,Reality Proxy流程包括三个主要步骤:

激活代理:捕获层级和语义场景结构

当用户捏合确认选择时,它会自动检测用户视线范围内的真实世界物体,并将其抽象为手部的交互代理。

如果用户成功选中目标物体(用户视线默认瞄准的物体),他们可以继续执行预期操作;否则,他们可以使用手边的代理优化选择。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

生成代理:保留空间关系

在这一步骤中,系统可以将上一步骤中场景的层级、语义表示转换为代理 —— 用户可操作的对象。

默认情况下,系统仅为用户扩展视线范围内的1级物体生成代理。这些代理保留彼此的相对空间关系。

每个代理可通过长按和双手缩放等标准手势操作,即使在用户释放捏合后也保持在原位。

由于代理仅作为交互的抽象表示,所以其物理大小并不关键。因此,在实现过程中,每个代理表示为固定大小的矩形3D对象。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

与代理交互:保持对现实世界的关注

为使用户能主要关注现实物体, Reality Proxy在与代理交互时,将关键视觉反馈直接显示在物理物体上。

例如,当一个物体被选中时,它会以亮色高亮显示,相应的代理也会高亮,提供双重反馈。

为确保代理易于访问且无需持续视觉关注,研究应用 “延迟跟随”机制,将代理放在用户手部附近。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

当手保持在特定阈值内时,代理保持静止;如果手移动超出该范围,代理会平滑跟随 —— 使其保持在可达范围内,而不会对轻微的手部抖动做出反应。

这种设计减少了用户低头查找代理的需求,并实现在关注现实世界与快速查看代理信息之间的平滑切换。

此外,Reality Proxy还支持多种交互功能,使用户与现实物体的互动更加灵活。

1、浏览预览物体:用户手指在多个代理上滑动,就能快速浏览物体的信息,比如快速查看多本书的内容。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

2、多对象刷选:用双手捏合的手势划定一个区域,就能选中多个代理对应的现实物体。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

3、按属性过滤物体:长按一个物体的代理,调出属性面板,滑动手指到某个属性的代理上,就能选中所有有相同属性的物体,比如筛选出所有红色的杯子。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

4、借助物理特征的交互:代理可结合真实世界的物理功能促进直观交互。

例如,放在物理表面(如桌子)上的代理可以将这些表面转换为自然的触摸板。

用户可以使用熟悉的触摸设备手势与真实世界物体交互,如在表面上拖动手指选择多个物体、分开手指扩大选择范围,或回溯路径调整选择等。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

5、语义分组:双击一个代理,就能把有相同属性的物体归为一组。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

6、空间缩放分组:用双手缩放的手势,在层级结构中导航,比如从查看整栋楼缩小到查看某一层的间。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

7、自定义分组:在空处用刷选的手势画一个立方体容器,把选中的代理放进里面,就能创建自定义分组,方便进行整体操作,比如计算一组书的总价。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

除此之外,研究者还通过几个场景展示了此技术的实用性。

日常信息检索

在办公室里,老师可以用它快速找到特定的书,计算书的总价。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

在厨房里也能实现与不同粒度级别的物体交互,比如选中微波炉的不同部件。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

建筑导航

Reality Proxy让在大型建筑中高效导航和交互成为可能。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

无人机控制

Reality Proxy还允许控制动态真实世界物体。

为展示这一点,研究者开发了一个基于混合现实的无人机控制应用,该应用用无人机中嵌入的跟踪器代替AI场景理解组件。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

此研究招募了12名经验丰富的XR开发者和研究人员(7名男性,5名女性,年龄在18岁到38岁之间)。

由于两名参与者参与了完善研究方案的预试验环节,因此被排除在以下报告的评分中。

评估结果显示,这个系统在实用性、易学性和易用性方面评价普遍积极。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

参与者认为Reality Proxy在实用性上表现突出,能有效解决与遥远、密集或难触及物体的交互问题。

相比传统方式更快捷,可减少身体疲劳、扩展交互能力(如批量选择、按属性筛选),对行动不便或视线不稳定用户也更友好。

不过参与者也指出了一些问题,比如新手可能需要一定的学习时间,代理的定位精度还有待提高等。

团队介绍

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

Xiaoan Liu,本科毕业于江南大学,硕士毕业于纽约大学。

他于2019年3月创立了Fusion Reality。2023在清华大学担任研究助理。2024年11月至2025年5月期间在谷歌工作。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

他最近的一项比较有意思的研究还包括RealiTips(稿件准备中)——一款可以指导你一步步煮咖啡的助手。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

值得一提的是,他本科时期就设计出很多XR设备和游戏

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

Mar Gonzalez-Franco,2014年,她在英国创建了沉浸式技术实验室,研究航空背景下的AR、VR和混合现实。

2015年,她以高级研究科学家的身份加入初创公司Traity,该公司完成了470万美元的A轮融资,拥有超过450万用户,是硅谷500 Startups和Seedcamp(全球知名的风险投资基金和创业加速器)的校友企业。2016年,她还曾担任微软EPIC团队的首席研究员。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

Xianhao Carton Liu,本科就读于浙江大学竺可桢学院,曾获图灵班的人工智能荣誉学士。博士就读于明尼苏达大学计算机科学专业,研究方向为人机交互。曾在斯坦福大学和哈佛大学任研究实习生。

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

Chen Zhu-Tian,本科毕业于华南理工大学,博士毕业于香港科技大学,现任明尼苏达大学双城分校CSE系(计算机科学与工程系)助理教授。

参考链接:
[1]https://x.com/_seanliu/status/1952770318034190420
[2]https://arxiv.org/abs/2507.17248

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...