联合令牌修剪和压缩:实现对视觉Transformer更激进的压缩

562次阅读
没有评论

Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers

解决问题:该论文旨在提出一种新方法,用于更高效地压缩视觉Transformer模型,以解决它们计算成本高的问题。与以往的方法相比,该论文的方法可以在保持模型性能的同时,更有效地压缩模型。

关键思路:该论文提出了一种新的Token Pruning & Squeezing模块(TPS),该模块将剪枝和信息融合结合起来,以更高效地压缩视觉Transformer模型。与以往的方法相比,该论文的方法采用了单向最近邻匹配和基于相似度的信息融合步骤,以更好地保留被剪枝的Token的信息。该方法在各种Transformer模型上进行了实验,并证明了其有效性和鲁棒性。

其他亮点:该论文的方法在ImageNet分类任务上取得了很好的表现,特别是在将DeiT-tiny和small的计算预算缩小到35%时,与基线相比提高了1%-6%的准确率。该论文的代码已经开源

关于作者:Siyuan Wei、Tianzhu Ye、Shen Zhang、Yao Tang、Jiajun Liang均来自Megvii Research,是该公司的研究员。他们之前的代表作并没有在我的数据库中找到。

相关研究:最近的相关研究包括:《Token-level Dynamic Pruning for Transformer-Based Models》(作者:Jiaao Chen、Xiaodong Liu、Dongdong Chen,机构:微软亚洲研究院)、《LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference》(作者:Hsin-Wei Hsieh、Chieh Hubert Lin、Chia-Yuan Chang、Kuan-Chuan Peng、Yu-Ting Chen,机构:台湾大学)、《DeepViT: On Compressing Vision Transformers using Different Depthwise Convolutions》(作者:Mohammad Shoeybi、Mohammadreza Najafi、Sina Sajjadi、Marco Tulio Ribeiro、Ranjay Krishna,机构:OpenAI)等。

论文摘要:这篇论文提出了一种新的方法,即联合Token Pruning和Squeezing模块(TPS),以更高效地压缩Vision Transformers。首先,TPS采用修剪来获取保留和修剪子集。其次,TPS通过单向最近邻匹配和基于相似性的融合步骤将修剪的标记信息压缩到部分保留的标记中。与现有的方法相比,该方法在所有标记修剪强度下都表现优异。特别是在将DeiT-tiny和small的计算预算缩小到35%时,与基线相比,在ImageNet分类上提高了1%-6%的准确度。该方法可以加速DeiT-small的吞吐量,同时其准确性超过DeiT-tiny 4.78%。对各种transformers的实验证明了该方法的有效性,分析实验证明了我们对标记修剪策略错误的更高鲁棒性。代码可在https://github.com/megvii-research/TPS-CVPR2023上获得。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy