【推荐理由】本文通过将基于文本的过程知识数据库和未标记的教学视频语料库的信息组合来预训练模型,用于教学视频理解。
Procedure-Aware Pretraining for Instructional Video Understanding
Honglu Zhou, Roberto Mart´ın-Mart´ın, Mubbasir Kapadia, Silvio Savarese and Juan Carlos Niebles
[Salesforce Research & Rutgers University & UT Austin]
【论文链接】https://arxiv.org/pdf/2303.18230.pdf
【项目链接】https://github.com/salesforce/paprika
【摘要】本文的目标是学习一种视频表示,用于指导视频中的下游程序理解任务。由于可用注释数量较少,程序理解的一个关键挑战是能够从未标注的视频中提取出程序知识,例如任务的身份(例如“制作拿铁”),其步骤(例如“倒牛奶”)或在执行过程中给出部分进展的可能下一步。作者的主要见解是指导性视频描述了在相同或不同任务的实例之间重复出现的步骤序列,这种结构可以通过程序知识图(PKG)很好地表示,其中节点是离散的步骤,边连接在指导活动中按顺序出现的步骤。然后,可以使用此图生成伪标签来训练视频表示,以更易于访问的形式编码程序知识,以推广到多个程序理解任务。通过将基于文本的程序知识数据库和未标注的指导视频语料库的信息相结合来构建PKG,然后使用它来生成四个新颖的预训练目标的训练伪标签。文章称这个PKG基于预训练过程和结果模型为Paprika,即面向程序的指导知识获取的预训练。作者在COIN和CrossTask上评估Paprika,用于程序理解任务,如任务识别,步骤识别和步骤预测。 Paprika提供了一种视频表示,其精度优于现有技术水平:在12个评估设置中,精度提高了高达11.23%。