Reconstructing Signing Avatars From Video Using Linguistic Priors
解决问题:本文旨在从手语视频中自动重建表情丰富、自然的三维手语人物形象。以往的研究中,由于遮挡、噪声和运动模糊等因素,这一任务一直很难实现。本文提出了一种新的语言先验方法,可以对手部姿势进行细粒度捕捉,并提供对手势中的歧义性进行约束的方法。
关键思路:本文提出的SGNify方法通过引入新的语言先验方法,可以从野外单眼手语视频中自动捕捉手部姿势、面部表情和身体动作。与现有的3D身体姿势和形状估计方法相比,SGNify的表现更好,能够更准确地捕捉手语视频中的细节信息,并产生更自然、更易理解的三维手语人物形象。
其他亮点:作者通过商业运动捕捉系统对SGNify进行了定量评估,并进行了感知研究。结果表明,SGNify的三维重建结果比以往的方法更易理解、更自然,与源视频的表现相当。此外,作者还提供了代码和数据,可以在$href{http://sgnify.is.tue.mpg.de}{text{sgnify.is.tue.mpg.de}}$上获得。
关于作者:Maria-Paola Forte、Peter Kulits、Chun-Hao Huang、Vasileios Choutas、Dimitrios Tzionas等作者均来自德国马克斯·普朗克智能系统研究所。Maria-Paola Forte等作者之前的代表作包括:《Real-time Hand-Tracking with a Color Glove》、《Efficient and Precise Interactive Hand Tracking through Joint, Continuous Optimization of Pose and Correspondences》等。
相关研究:近期的相关研究包括:《DeepSigns: Deep Sign Language Recognition for Multiple Signers Using Resampling Convolutional Neural Network》(作者:Yi Zhou等,机构:香港中文大学)、《Sign Language Recognition Using a Wearable Device and Deep Convolutional Neural Networks》(作者:Yunyi Liu等,机构:清华大学)、《Sign Language Recognition Using Convolutional Neural Networks and Long Short-Term Memory with Temporal Feature Integration》(作者:Feng Zhou等,机构:南京航空航天大学)等。
论文摘要:本文介绍了一种新的方法——SGNify,可以从现实中的手语视频中自动捕捉手部姿态、面部表情和身体动作,并重建出精细的三维手语人物形象。这种方法引入了新颖的语言先验知识,适用于各种手语,并提供了对三维手部姿态的约束,有助于解决孤立手语中的歧义。作者使用商业运动捕捉系统对SGNify进行了量化评估,并证明其优于现有的三维人体姿态和形状估计方法。感知研究表明,SGNify的三维重建结果比以前的方法更易理解、更自然,并且与源视频的效果相当。作者提供了代码和数据,可以在$href{http://sgnify.is.tue.mpg.de}{text{sgnify.is.tue.mpg.de}}$上获取。手语是全球7000万聋人的主要交流方式。视频词典是学习手语的核心工具,将其替换为三维人物形象可以帮助学习,并支持增强现实/虚拟现实应用,提高聋人使用技术和在线媒体的能力。然而,由于遮挡、噪声和运动模糊等原因,从手语视频中估计出表情丰富的三维人物形象一直是个难题。