AutoTaskFormer: Searching Vision Transformers for Multi-task Learning
解决问题:这篇论文旨在解决现实世界中的多任务视觉问题,提出了一种名为AutoTaskFormer的神经架构搜索框架,以自动化这个过程。
关键思路:AutoTaskFormer不仅可以自动识别在多个任务之间共享的权重,而且还可以为在各种资源限制下部署的成千上万个经过良好训练的视觉转换器提供各种参数(例如头数和网络深度)。与当前手工制作的多任务视觉转换器相比,AutoTaskFormer提供了一种新的自动化解决方案。
其他亮点:论文的实验结果表明,AutoTaskFormer在小规模(2个任务Cityscapes和3个任务NYUv2)和大规模(16个任务Taskonomy)数据集上均优于现有手工制作的视觉转换器。整个代码和模型将被开源。
关于作者:主要作者包括Yang Liu、Shen Yan、Yuge Zhang、Kan Ren、Quanlu Zhang、Zebin Ren、Deng Cai和Mi Zhang。他们来自于香港科技大学、南京大学、清华大学和加州大学洛杉矶分校等机构。他们之前的代表作包括“Learning Deep Compact Image Representation for Visual Tracking”、 “Deep Forest: Towards an Alternative to Deep Neural Networks”等。
相关研究:近期其他相关的研究包括“Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics”(作者:Xiaolong Wang、Ruohan Gao、Yiwen Guo等,机构:斯坦福大学)、“Multi-Task Learning Using Task-Specific Importance Sampling”(作者:Yongxi Lu、Jun Zhu、Bo Zhang等,机构:清华大学)等。
论文摘要:本文介绍了一种名为AutoTaskFormer的神经网络结构搜索框架,可以自动化地生成适用于多任务学习的视觉Transformer模型。现有的多任务视觉Transformer模型都是手工设计的,且需要人类专家的经验。AutoTaskFormer不仅可以自动识别多个任务之间可以共享的权重,还可以提供数千个训练良好的视觉Transformer模型,这些模型具有不同的参数(例如头数和网络深度),适用于各种资源限制下的部署。在小规模(2个任务的Cityscapes和3个任务的NYUv2)和大规模(16个任务的Taskonomy)数据集上的实验结果表明,AutoTaskFormer在多任务学习方面优于现有的手工设计的视觉Transformer模型。作者将公开发布代码和模型。