Die Studie befasst sich mit dem Training eines auf generativen adversariellen Netzwerken (GAN) basierenden Vocoders unter Verwendung begrenzter Daten. Üblicherweise benötigen datengetriebene Modelle wie GAN-basierte Vocoders große Mengen an Trainingsdaten, was mit hohen Kosten verbunden ist. Eine vielversprechende Lösung ist die Erweiterung der Trainingsdaten durch Datenaug-mentierung, um Überanpassung zu vermeiden.
Allerdings ist ein Standard-Diskriminator unbedingt und gegenüber Verteilungsänderungen durch Datenaug-mentierung unempfindlich. Daher kann augmentierte Sprache (die außergewöhnlich sein kann) als echte Sprache angesehen werden.
Um dieses Problem anzugehen, schlagen die Autoren einen augmentations-bedingten Diskriminator (AugCondD) vor, der neben dem Spracheingang auch den Augmentationszustand erhält. Dadurch kann AugCondD den Spracheingang unter Berücksichtigung des Augmentationszustands beurteilen, ohne das Lernen der ursprünglichen nicht-augmentierten Verteilung zu behindern.
Die Experimente zeigen, dass AugCondD die Sprachqualität unter Bedingungen mit begrenzten Daten verbessert, während es unter Bedingungen mit ausreichenden Daten eine vergleichbare Sprachqualität erreicht. Die Autoren untersuchen auch die allgemeine Nützlichkeit von AugCondD unter verschiedenen Einstellungen wie unterschiedlichen Netzwerkarchitekturen, Datenaug-mentierungsmethoden und Sprechern.
To Another Language
from source content
arxiv.org
Дополнительные вопросы