智源Live第37期将于2023年04月27日11:00-12:00线上召开,邀请了威斯康辛大学麦迪逊分校的博士研究生邹雪妍进行分享。本期作者将介绍在X-Decoder和SEEM中探索了如何统一多种任务和多个模态,使用同一个模型同一组参数理解多种任务和模态成为可能。
课前材料
论文标题:Segment Everything Everywhere All at Once
论文链接:https://arxiv.org/pdf/2304.06718.pdf
社区链接:https://hub.baai.ac.cn/view/25457
邹雪妍
邹雪妍就读于威斯康辛大学麦迪逊分校的博士研究生,主要研究兴趣为图像分割,多模态模型,以及大型语言和图像模型。
她的一作论文曾获*BMVC最佳论文奖*,也有多篇论文发表于CVPR, IJCV会议与期刊中。在学生期间,她曾在微软研究院,卡内基梅隆大学,字节跳动作为研究实习生工作学习。
随着大型语言模型 (GPT3, LLaMA) 和多模态 (CLIP, GPT4) 的发展,人工通用智能已经逐渐从想象走向落地,与此同时,对多模态的模型的研究也变的更加重要。过去有很多工作探索了开源词库的多模态的图像识别 (UniCL),理解 (FIBER),到物体识别(GLIP),图像分割 (OpenSeg),这些模型虽然都实现了多模态在不同任务上的理解,但是却不能实现用一个简单统一的模型完成多种任务,我们在X-Decoder和SEEM中探索了如何统一多种任务和多个模态,使用同一个模型同一组参数理解多种任务和模态成为可能。
正文完
可以使用微信扫码关注公众号(ID:xzluomor)