CLIPScore: A Reference-free Evaluation Metric for Image Captioning

1,092次阅读
没有评论

Motivation

  • image captions 通常用reference-based的评价指标(即利用人写的caption来作为GT评估生成字幕的好坏),本文提出了无需reference caption 的一个评价标准。

Proposal

  • 本文提出了一种reference-free的评价指标——CLIPScore,这种评价标准更具鲁棒性,不再是单纯用人标注的caption来评估。
  • 本文的方法比reference-based的评价指标CIDEr和SPICE,和人类的判断一致性更强。与现在text-text的评价标准相比,image-text的评价更为完善。

Method

  • 直接计算图文相似度,作为评价标准~
CLIPScore: A Reference-free Evaluation Metric for Image Captioning
  • 找了特例来说明原来reference-based的方法的缺点

Evaluation With CLIP

  • 固定住text的prompt为 A photo depicts (原始论文显示这样的效果也更好?)
  • 其中�是一个scaling系数, 文中设置为25; �为caption的 CLIPembedding; �为CLIP image embdding
  • 需要强调的是, 这个评价指标只用了reference的图片, 并没有reference的文本, 所以是reference-free的评价方法.

RefCLIPScore

  • 把reference的文本也拿过来做evaluation, 最后结果取harmonic mean

Benchmark

  • Flickr8K-Expert和Flickr8K-CF都是由人进行二次判断的数据集,判断字幕是否和图像对应。(human ratings)。因而我们可以计算评价指标的结果和human rating结果的相关性,从而评估这个指标的好坏。
  • 实验结果:
CLIPScore: A Reference-free Evaluation Metric for Image Captioning
image-20220803153021059
正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)