使用多样而逼真的面部动画生成基于音频的说话人脸表情

900次阅读
没有评论

Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations

解决问题:该论文旨在解决语音驱动的人脸生成中存在的问题,即生成的唇部动作与面部表情不协调,导致生成的面部不够真实。同时,该论文还试图解决如何在同一驱动音频下生成不同但真实的面部表情动画的问题。

关键思路:该论文提出了一种名为DIRFA的新方法,可以从相同的驱动音频中生成具有多样性但真实的面部表情动画的说话人脸。为了处理同一音频下面部表情动画的变化,作者设计了一种基于变换器的概率映射网络,可以在输入音频的条件下模拟可变的面部表情分布,并自回归地将音频信号转换为面部动画序列。此外,作者还引入了一个时间偏置掩码到映射网络中,可以模拟面部动画的时间依赖性,并产生时间上平滑的面部动画序列。通过生成的面部动画序列和源图像,可以使用通用生成网络合成逼真的说话人脸。相较于当前领域的研究,该论文的思路在处理同一音频下面部表情动画的变化方面具有新意。

其他亮点:该论文的实验表明,DIRFA可以有效地生成具有逼真面部动画的说话人脸。作者使用了多个数据集进行实验,并开源了代码。值得进一步研究的工作包括如何在不同语种和口型下生成逼真的面部动画,以及如何将该方法应用于其他领域,如虚拟角色动画和人机交互。

关于作者:该论文的主要作者包括Rongliang Wu、Yingchen Yu、Fangneng Zhan、Jiahui Zhang、Xiaoqin Zhang和Shijian Lu,他们分别来自中国科学技术大学和腾讯公司。他们之前的代表作包括《基于生成对抗网络的人脸生成》和《基于深度学习的人脸属性分析》等。

相关研究:近期其他相关的研究包括《音频驱动的人脸生成:一种新的生成模型》(作者:Xin Wang、Mengyuan Yan、Changjie Fan、Changhong Fu、Chen Qian,机构:南京大学)和《基于条件生成对抗网络的音频驱动人脸生成》(作者:Yan Xu、Yinghao Xu、Jian Zhang、Yonghong Tian、Tianqi Wang,机构:华中科技大学)。

论文摘要:这篇论文介绍了一种名为DIRFA的新方法,可以从相同的语音输入中生成具有多样化但逼真的面部动画的说话人脸。为了适应相同音频的合理面部动画的公平变化,作者设计了一种基于变换器的概率映射网络,可以在输入音频的条件下建模变化的面部动画分布,并自回归地将音频信号转换为面部动画序列。此外,作者还引入了一个时间偏置掩码到映射网络中,允许建模面部动画的时间依赖性,并产生时间平滑的面部动画序列。通过生成的面部动画序列和源图像,可以使用通用生成网络合成照片般逼真的说话人脸。大量实验表明,DIRFA可以有效地生成具有逼真面部动画的说话人脸。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy