微软等|交互式模型SEEM,在图像中可一次将所有东西都分割开来

1,041次阅读
没有评论

Segment Everything Everywhere All at Once

Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee

一作威斯康星大学,微软研究实习生邹雪妍

二作微软研究院高级研究员杨建伟

https://arxiv.org/pdf/2304.06718.pdf 

微软等|交互式模型SEEM,在图像中可一次将所有东西都分割开来

尽管对交互式人工智能系统的需求越来越大,但在视觉理解(如分割)方面,关于人与人工智能的交互的全面研究还很少。受为LLMs开发的基于提示的通用界面的启发,本文提出了SEEM,一个可提示的交互式模型,用于在图像中一次将所有东西都分割开来。

SEEM有四个目标:i)通用性:通过引入一个通用的提示引擎,用于不同类型的提示,包括点、框、涂鸦、面具、文本和另一个图像的参考区域;ii)组合性:通过学习视觉和文本提示的联合视觉-语义空间,在推理中快速组成查询,如图1所示;iii)互动性: iii)交互性:通过面具引导的交叉注意力,将可学习的记忆提示用于保留对话历史信息;以及iv)语义意识:通过使用文本编码器来编码文本查询和用于开放词汇分割的面具标签。

微软等|交互式模型SEEM,在图像中可一次将所有东西都分割开来

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy