StepFormer:自监督式步骤发现与定位在教学视频中的应用

1,415次阅读
没有评论

StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos

解决问题:这篇论文旨在解决在教学视频中自动发现和定位关键步骤的问题,而且是在无需人工干预的情况下进行的。这个问题在以前的研究中已经得到了一定的关注,但是传统的方法需要人工标注,不适用于大规模数据集。

关键思路:论文提出了一种自监督学习的模型StepFormer,它是一个Transformer解码器,通过可学习的查询来关注视频,并生成一个包含视频中关键步骤的序列。该模型使用自动生成的字幕作为唯一的监督来源,并通过一种有序感知的损失函数对文本叙述序列进行监督。相比以前的研究,该模型的主要创新之处在于无需人工标注即可实现关键步骤的自动发现和定位,并且在多步骤定位方面表现出了出色的性能。

其他亮点:论文的实验结果表明,StepFormer模型在三个具有挑战性的基准测试中均优于以前的无监督和弱监督方法。此外,该模型还展现了解决零样本多步骤定位的新颖性质,并在此任务中优于所有相关基线。该论文没有提供开源代码,但是使用的数据集是公开可用的,这为相关研究提供了便利。

关于作者:主要作者包括Nikita Dvornik、Isma Hadji、Ran Zhang、Konstantinos G. Derpanis、Animesh Garg和Richard P. Wildes。他们来自加拿大的多伦多大学和约克大学。这些作者以前的代表作包括:Nikita Dvornik在CVPR 2021上发表的论文“Instance-Aware, Context-Focused, and Memory-Efficient Weakly Supervised Object Detection”;Animesh Garg等人在ICRA 2021上发表的论文“Unsupervised Learning of Manipulation Sequences with Spatial and Temporal Consistency Constraints”。

相关研究:近期其他相关的研究包括:1)“Weakly Supervised Learning of Human-Object Interaction Detection Using Incomplete Annotations”(作者:Xueting Yan等,机构:香港科技大学);2)“Learning to Localize Steps in Instructional Videos Using Self-supervision and Multi-modal Attention”(作者:Nikhil Churamani等,机构:印度理工学院);3)“Temporal Localization of Key Steps in Instructional Videos Using Weakly Supervised Learning”(作者:Yunpeng Li等,机构:加州大学洛杉矶分校)。

论文摘要:这篇论文介绍了一种名为StepFormer的自监督模型,可以在没有人类监督的情况下发现和定位教学视频中的关键步骤。教学视频是学习过程中的重要资源,但其中的指导步骤通常很短且稀疏,大部分视频内容与过程无关。因此,需要对这些视频中的指导步骤进行时间定位,即所谓的关键步骤定位。传统的关键步骤定位方法需要视频级别的人工注释,因此不适用于大型数据集。本文的StepFormer模型通过学习可学习的查询来关注视频,并生成一系列槽,捕捉视频中的关键步骤。作者使用自动生成的字幕作为唯一的监督来源,在大型教学视频数据集上对系统进行训练。具体而言,作者使用有序感知损失函数对文本叙述序列进行监督,过滤掉无关短语。作者展示了他们的模型在三个具有挑战性的基准测试中在步骤检测和定位方面优于所有以前的无监督和弱监督方法。此外,作者的模型表现出了解决零样本多步骤定位的新颖性质,并在这项任务上优于所有相关基线。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...