Core Concepts
Sprachunabhängige Sprecherreplikation durch mehrstufige Aufmerksamkeitsaggregation.
Abstract
Abstract:
Untersuchung der sprachunabhängigen Sprecherreplikation.
Einführung eines mehrstufigen Aufmerksamkeitsaggregationsansatzes.
Bewertung der vorgeschlagenen Methode in verschiedenen Szenarien.
Einführung:
Fortschritte in der Sprachsyntheseforschung.
Verschiebung des Fokus auf die Synthese von Sprache in den Stimmen von gesehenen und ungesehenen Sprechern.
Methodik:
Drei Hauptkomponenten des Modells: akustisches Modell, Sprechermodul, HiFi-Gan Vocoder.
Verwendung von SALN zur Fusion der Sprecherinformationen.
Mehrstufige Aufmerksamkeitsaggregation:
Verwendung von ECAPA-TDNN zur Extraktion sprachunabhängiger Sprecherrepräsentationen.
Betonung von Grundfrequenz und Timbre zur Verbesserung der Sprecherfidelität.
Experimente:
Verwendung des LibriTTS-Datensatzes für das Training des TTS-Systems.
Durchführung von MOS- und ABX-Bewertungen zur Qualitätsbewertung der synthetisierten Sprache.
Ergebnisse und Diskussion:
Vergleich mit Baseline-Modellen zeigt bessere Generalisierung und höhere Sprecherfidelität.
Visualisierung der synthetisierten Audios für verschiedene Modelle.
Schlussfolgerung:
Formulierung der sprachunabhängigen Sprecherreplikation.
Vorstellung eines mehrstufigen Aufmerksamkeitsaggregationsansatzes.
Beantwortung der grundlegenden Fragen zur Sprecherfidelität und Zero-Shot-Replikation.
Stats
Durch rigorose Bewertungen wurde festgestellt, dass das vorgeschlagene Modell eine signifikante Sprecherähnlichkeit erreichen kann.
Das Modell kann sich auf Out-of-Domain-Fälle verallgemeinern.
Quotes
"Kann hohe Sprecherfidelität erreicht werden, auch wenn die gesprochene Sprache des Referenzaudios von der Zieltext abweicht und nicht in den Daten vertreten ist?"
"Kann dies in einem Zero-Shot-Verfahren erfolgen?"