Apple | FastViT:一种使用结构重参数化的快速混合视觉Transformer

802次阅读
没有评论

【推荐理由】本文介绍了FastViT,这是一种混合视觉变换器架构,可以实现最先进的延迟-准确性权衡。

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization
Pavan Kumar, Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

【论文链接】https://arxiv.org/pdf/2303.14189.pdf

【摘要】最近将Transformer和卷积设计融合在一起,导致模型的准确性和效率稳步提高。在本文中,作者介绍了FastViT,一种混合视觉Transformer体系结构,可以获得最先进的延迟-准确度权衡。为此,作者引入了一种新的令牌混合运算符RepMixer,它是FastViT的构建块,使用结构重参数化来降低网络中跳过连接的内存访问成本。作者进一步应用训练时过参数化和大内核卷积来提高准确性,并经验证明这些选择对延迟的影响极小。展示了本文的模型比最近的最先进的混合Transformer体系结构CMT快3.5倍,比EfficientNet快4.9倍,比ConvNeXt快1.9倍,在ImageNet数据集上获得相同的准确性。在类似的延迟下,该模型在ImageNet上获得比MobileOne更好的Top-1准确度。该模型在几个任务上始终优于竞争体系结构 – 图像分类,检测,分割和3D网格回归,在移动设备和桌面GPU上具有显着的延迟改进。此外,该模型对于超出分布和损坏的样本非常稳健,优于竞争的稳健模型。

Apple | FastViT:一种使用结构重参数化的快速混合视觉Transformer

Apple | FastViT:一种使用结构重参数化的快速混合视觉Transformer

 

 

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy