智源LIVE38期|X-Decoder&SEEM:从开放词库的图像理解到像素分割 如何用一个模型做N个任务理解M个模态

753次阅读
没有评论

智源Live第37期将于2023年04月27日11:00-12:00线上召开,邀请了威斯康辛大学麦迪逊分校的博士研究生邹雪妍进行分享。本期作者将介绍在X-Decoder和SEEM中探索了如何统一多种任务和多个模态,使用同一个模型同一组参数理解多种任务和模态成为可能。


课前材料

论文标题:Segment Everything Everywhere All at Once

论文链接:https://arxiv.org/pdf/2304.06718.pdf   

社区链接:https://hub.baai.ac.cn/view/25457

智源LIVE38期|X-Decoder&SEEM:从开放词库的图像理解到像素分割 如何用一个模型做N个任务理解M个模态

邹雪妍

邹雪妍就读于威斯康辛大学麦迪逊分校的博士研究生,主要研究兴趣为图像分割,多模态模型,以及大型语言和图像模型。

她的一作论文曾获*BMVC最佳论文奖*,也有多篇论文发表于CVPR, IJCV会议与期刊中。在学生期间,她曾在微软研究院,卡内基梅隆大学,字节跳动作为研究实习生工作学习。

随着大型语言模型 (GPT3, LLaMA) 和多模态 (CLIP, GPT4) 的发展,人工通用智能已经逐渐从想象走向落地,与此同时,对多模态的模型的研究也变的更加重要。过去有很多工作探索了开源词库的多模态的图像识别 (UniCL),理解 (FIBER),到物体识别(GLIP),图像分割 (OpenSeg),这些模型虽然都实现了多模态在不同任务上的理解,但是却不能实现用一个简单统一的模型完成多种任务,我们在X-Decoder和SEEM中探索了如何统一多种任务和多个模态,使用同一个模型同一组参数理解多种任务和模态成为可能。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy