RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models
解决问题:
该论文旨在解决图像-文本匹配模型的鲁棒性问题。目前,大规模视觉语言预训练模型和视觉语义嵌入方法已经显著提高了在MS COCO 5K测试集上的ITM准确性,但是这些最先进的模型在实际应用中的鲁棒性仍不清楚。因此,该论文提出了一种新的评估基准来测试ITM模型的鲁棒性。
关键思路:
该论文的关键思路是添加各种欺骗性的图像和标题到检索池中,以测试ITM模型的鲁棒性。具体来说,论文通过插入无关图像和替换名词来更改标题,发现仅仅将这些新创建的图像和标题添加到测试集中就可以降低广泛范围内最先进模型(例如,BLIP的81.9%降至64.5%,VSE$infty$的66.1%降至37.5%)的性能(即Recall@1)。相比于当前该领域的研究状况,该论文的思路在于提出了一种新的评估基准来测试ITM模型的鲁棒性。
其他亮点:
该论文的实验设计非常严谨,使用了大规模的数据集进行测试,并且开源了源代码和数据集。该论文的研究结果对于改善视觉语言模型的鲁棒性和设计更多样化的跨模态检索任务的压力测试方法提供了有价值的见解。需要进一步深入研究的是如何提高ITM模型的鲁棒性,以及如何设计更多样化的压力测试方法。
关于作者:
该论文的主要作者包括Seulki Park、Daeho Um、Hajung Yoon、Sanghyuk Chun、Sangdoo Yun和Jin Young Choi。他们所在的机构是KAIST和Clova AI Research。Seulki Park和Sanghyuk Chun曾经发表过一篇名为“Two-Stream Self-Attention for Context-Aware Semantic Matching”的论文,该论文提出了一种基于双流自注意力机制的上下文感知语义匹配模型。
相关研究:
近期其他相关的研究包括:
- “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”,作者:Jiasen Lu、Dhruv Batra、Devi Parikh等,机构:Georgia Institute of Technology、Facebook AI Research。
- “Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”,作者:Li Dong、Pengcheng Yang、Wenhui Wang等,机构:Microsoft Research、Tsinghua University。
- “Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks”,作者:Li Dong、Nan Yang、Wenhui Wang等,机构:Microsoft Research。
论文摘要:本文提出了一种新的评估基准,以测试图像-文本匹配模型的鲁棒性。为此,我们向检索池中添加了各种欺骗性图像和标题。具体来说,我们通过插入不相关的图像来更改图像,并通过替换名词来更改标题,从而改变句子的含义。我们发现,仅仅将这些新创建的图像和标题添加到测试集中就可以降低各种最先进模型的性能(例如,在BLIP中从81.9%降至64.5%,在VSE∞中从66.1%降至37.5%)。我们期望我们的研究结果可以为改进视觉语言模型的鲁棒性以及设计更多样化的跨模态检索任务的压力测试方法提供启示。源代码和数据集将在https://github.com/pseulki/rococo上提供。