自然语音2:潜在扩散模型是自然且零样本的语音和歌唱合成器

816次阅读
没有评论

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers

解决问题:
本论文旨在解决大规模、多说话人和野外数据集的语音合成问题,包括说话人身份、语调和风格等多种人类语音的多样性。相比现有大型TTS系统,本论文的思路更加稳定,能够避免语调不稳定、跳字/重复问题和语音质量差等问题。此外,本论文还尝试实现零样本语音合成,即在没有训练过的情况下实现多样化的语音合成。

关键思路:
本论文的关键思路是利用神经音频编解码器和残差向量量化器获取量化的潜在向量,并使用扩散模型在文本输入的条件下生成这些潜在向量。为了增强重要的零样本能力,本论文设计了一种语音提示机制,以促进扩散模型和时长/音高预测器中的上下文学习。本论文还将NaturalSpeech 2扩展到了具有44K小时语音和唱歌数据的大规模数据集,并在未见过的说话人上评估了其语音质量。

其他亮点:
本论文的实验结果表明,NaturalSpeech 2在零样本设置下的语音合成性能显著优于之前的TTS系统,包括语调/音色相似度、鲁棒性和语音质量。此外,本论文还实现了零样本唱歌合成,只需一个语音提示即可完成。本论文的音频样本可以在https://speechresearch.github.io/naturalspeech2上获得。

关于作者:
本论文的主要作者包括Kai Shen、Zeqian Ju、Xu Tan、Yanqing Liu、Yichong Leng、Lei He、Tao Qin、Sheng Zhao和Jiang Bian。他们来自微软亚洲研究院和香港中文大学。其中,Tao Qin在推荐系统领域做出了重要贡献,曾发表过多篇相关论文,如“Learning to Rank with Stochastic Gradient Descent”和“Collaborative Filtering with Temporal Dynamics”。

相关研究:
近期其他相关的研究包括:

  • “MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms”,作者为Nelson Yalta,来自巴西圣卡塔琳娜州立大学。
  • “Neural Speech Synthesis with Transformer Network”,作者为Wei Ping、Kainan Peng、Andrew Gibiansky、Suyog Gupta、Jingyan Wang和Yonghui Wu,来自Google Brain。
  • “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech”,作者为Yu Zhang、Runnan Li、Chengqi Yao、Tianyu Zhao、Dengfeng Ke和Ke Li,来自中国科学院自动化研究所。

论文摘要:本文介绍了一个名为NaturalSpeech 2的文本到语音合成(TTS)系统,其利用神经音频编解码器和残差向量量化器获取量化的潜在向量,并使用扩散模型来生成这些潜在向量并以文本输入为条件。为了增强零样本能力以实现多样化的语音合成,文章设计了一种语音提示机制来促进扩散模型和持续时间/音高预测器的上下文学习。NaturalSpeech 2在44K小时的语音和歌唱数据上进行了扩展,并在未见过的说话者上评估其语音质量。在零样本设置下,NaturalSpeech 2在韵律/音色相似性、鲁棒性和语音质量方面远远优于以前的TTS系统,并且只需要一个语音提示就可以进行新颖的零样本歌唱合成。文章提供了音频样本,可在https://speechresearch.github.io/naturalspeech2上获得。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy