学习鲁棒的视觉-语义嵌入以实现可推广的人物再识别

757次阅读
没有评论

Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification

解决问题:论文旨在解决通用人员再识别中的泛化问题,即在新领域中应用时的性能下降。此问题并非新问题,但之前的方法主要关注视觉表示学习,忽略了语义特征的潜力。

关键思路:论文提出了一种名为MMET的多模态等效变压器,用于在视觉、文本和视觉文本任务中进行更强大的视觉-语义嵌入学习。为了进一步增强变压器上的鲁棒特征学习,引入了一种名为MMM的动态遮罩机制,用于遮盖图像补丁和文本标记,可以联合作用于多模态或单模态数据,并显著提高通用人员再识别的性能。

其他亮点:论文的实验设计充分,使用了多个基准数据集,并在这些数据集上进行了广泛的实验,表现出优异的性能。此外,作者还提供了源代码,以供其他研究人员使用。值得深入研究的工作包括更广泛的实验和更多的数据集测试,以及在其他领域中应用该方法。

关于作者:主要作者包括Suncheng Xiang、Jingsheng Gao、Mengyuan Guan、Jiacheng Ruan、Chengfeng Zhou和Ting Liu。他们分别来自中国科学技术大学和清华大学。他们之前的代表作包括“Deep Spatial-Temporal Neural Networks for Click-Through Rate Prediction”和“Dual-Attention Network for Scene Segmentation”。

相关研究:近期的其他相关研究包括“Generalizable Person Re-Identification with Adversarial Examples”(作者:Xuanyi Dong、Shoumeng Yan和Shengfeng He,机构:南京大学)和“Learning to Transfer: Unsupervised Meta-Domain Translation”(作者:Yifan Ding、Haoxuan You、Yifan Xu和Tong Zhang,机构:浙江大学)。

论文摘要:本文提出了一种名为MMET的多模态等效Transformer,用于更加健壮的视觉-语义嵌入学习,分别针对视觉、文本和视觉-文本任务。为了进一步增强Transformer上下文中的强健特征学习,引入了一种动态遮罩机制,称为遮罩多模态建模策略(MMM),可联合作用于多模态或单模态数据,并显著提高可推广的人员再识别性能。在基准数据集上的广泛实验表明,我们的方法比以前的方法具有竞争性能。我们希望这种方法能够推动视觉-语义表示学习的研究。我们的源代码也公开在https://github.com/JeremyXSC/MMET上。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy