แนวคิดหลัก
Durch die Anwendung des Slicing Adversarial Network (SAN)-Trainingsrahmens können die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit geringen Modifikationen verbessert werden.
บทคัดย่อ
In dieser Arbeit wird untersucht, wie effektiv der SAN-Trainingsrahmen für die Vocoder-Aufgabe ist. Dafür wird ein Verfahren zur Modifikation von Least-Squares GAN vorgeschlagen, damit es die Anforderungen von SAN erfüllt. Die Experimente zeigen, dass SAN die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit geringen Änderungen verbessern kann.
Der Beitrag ist wie folgt gegliedert:
- Einleitung in die Sprachsynthese und GAN-basierte Vocoder
- Überblick über verwandte Arbeiten zu GAN-basierten Vocodern
- Beschreibung der Methode:
- Überblick über das Gesamtframework von GAN-basierten Vocodern
- Ableitung von Least-Squares SAN durch "Soft Monotonisierung"
- Experimente:
- Anwendung von SAN auf den großen Vocoder BigVGAN, genannt BigVSAN
- Anwendung von SAN auf mittelgroße Vocoder wie MelGAN und Parallel WaveGAN
- Objektive und subjektive Evaluierungen zeigen, dass SAN die Leistung der Vocoder verbessert
สถิติ
Die Mel-Spektrogramm-Distanz (M-STFT) von BigVSAN beträgt 0,7881, was besser ist als die 0,8382 von BigVGAN.
Der Perceptual Evaluation of Speech Quality (PESQ)-Wert von BigVSAN beträgt 4,116, was ebenfalls besser ist als der Wert von 3,862 für BigVGAN.
Die Mel-Cepstral-Distanz (MCD) von BigVSAN beträgt 0,3381, was eine Verbesserung gegenüber 0,3711 für BigVGAN darstellt.
Der Periodizitätsfehler von BigVSAN liegt bei 0,0935, während er bei BigVGAN 0,1155 beträgt.
Der Voiced/Unvoiced F1-Score von BigVSAN ist 0,9635, verglichen mit 0,9540 für BigVGAN.
คำพูด
Keine relevanten wörtlichen Zitate identifiziert.