BIGVGAN: A UNIVERSAL NEURAL VOCODER WITHLARGE-SCALE TRAINING——TTS论文阅读-Abstract

时间:2024-01-25 08:16:16

背景:

  • 最近基于生成对抗网络(GAN)的声码器取得了一定的进展,这种模型可以基于声学特征生成原始波形。
  • 尽管如此,为大量说话者在不同录音环境中合成高保真音频仍然是一个挑战。

BigVGAN介绍

  • 提出了BigVGAN,这是一种泛用性声码器(universal vocoder)。
  • 它对各种超出训练分布的场景都有良好的泛化能力,而且无需微调。

技术创新

  • 在GAN生成器中引入了周期激活函数(periodic activation function)和抗混叠表示(periodic activation function)。
  • 这些创新带来了音频合成所需的归纳偏置(inductive bias),显著提升了音频质量。

规模扩展

  • 将GAN声码器的规模扩大到了最大112M参数,这在现有文献中是前所未有的。
  • 识别并解决了大规模GAN训练中的失败模式,同时保持了高保真输出而不过度规范化。

性能成就

  • 仅在干净的语音数据集LibriTTS上训练的BigVGAN,在各种零样本(超出训练分布)条件下都达到了最先进的性能。
  • 这包括未见过的说话者、语言、录音环境、歌声、音乐以及乐器音频。