SpectFormer: Frequency and Attention is what you need in a Vision Transformer
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
[Microsoft]
SpectFormer:频率和注意力对视觉Transformer来说是最重要的
Vinay P.Namboodiri,安特卫普贝尔实验室的IIT Kanpur计算机科学与工程系工作
要点:
- 动机:旨在探究频谱层和多头自注意力层对Transformer架构的作用,以及如何将它们结合起来,提高图像识别的性能。
- 方法:提出一种新的Transformer架构SpectFormer,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。通过对比实验发现,SpectFormer在ImageNet上的Top-1准确率比GFNet-H和LiT分别提高了2%,SpectFormer-S在ImageNet-1K数据集上的Top-1准确率达到了84.25%(小型版本的最先进水平),Spectformer-L实现了85.7%的Top-1准确率(与Transformers的基本版本相当的最先进水平)。
- 优势:SpectFormer将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。实验结果表明,SpectFormer在多个数据集上表现出色,达到了最先进的水平。
提出一种名为SpectFormer的新的Transformer架构,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。
https: //badripatro.github.io/SpectFormers/
https://arxiv.org/abs/2304.06446
正文完
可以使用微信扫码关注公众号(ID:xzluomor)