谷歌|自回归解码器在计算机视觉多任务中的应用

747次阅读
没有评论

研究了计算机视觉中的多任务自回归解码器,包括分类、描述、视觉问答和OCR等任务,通过大量实验研究了任务和数据混合、训练和正则化超参数、条件类型和特异性、多模态组合等因素对自回归解码器性能的影响,提出了一种名为Locked-image Tuning with Decoder(LiT Decoder)的解码器结构。

A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

Lucas Beyer, Bo Wan, Gagan Madan, Filip Pavetic, Andreas Steiner, Alexander Kolesnikov, André Susano Pinto, Emanuele Bugliarello, Xiao Wang, Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai
[Google Research]

https://arxiv.org/abs/2303.17376 

自回归解码器在计算机视觉多任务中的应用

谷歌|自回归解码器在计算机视觉多任务中的应用

  • 动机:近年来,越来越多的计算机视觉模型涉及多种任务,使用图像编码器和自回归解码器组成,但现有研究大多只介绍了一种模型和其结果,缺乏关于设计决策和系统权衡的细节。该论文旨在填补这一空白。

  • 方法:深入研究了在计算机视觉中使用自回归解码器进行多任务学习的影响因素,包括任务和数据混合、训练和正则化超参数、条件类型和特异性、模态组合等。提出一种新的模型架构,即锁定图像编码器并在其上添加自回归解码器进行微调(LiT解码器),该解码器可以看作是通过自然语言引导解码器与预训练的视觉模型进行交互。

  • 优势:通过大量的系统实验和与单任务基准的对比,揭示了多任务学习的成本,并展示了在预训练的编码器上使用小型自回归解码器的效果非常好。

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy