Die Studie stellt R-Spin vor, eine dateneffiziente domänenspezifische Selbstüberwachungsmethode, die störgeräuschinvariante und sprecherunabhängige Sprachrepräsentationen erzeugt. R-Spin baut auf der Speaker-invarianten Clusterung (Spin) auf und erweitert sie um das Lernen von akustischen Einheiten, um die Leistung zu verbessern.
Durch das Hinzufügen von Rauschen und Verzerrungen zu den Eingaben während des Feinabstimmungsprozesses lernt das Modell robuste Darstellungen, die sowohl Sprecher- als auch Rauscheinflüsse minimieren. Darüber hinaus ermöglicht eine zusätzliche Pseudoklassenlabel-Vorhersageverlustfunktion das Feintuning aller Modellschichten, ohne dass es zu einem Zusammenbruch kommt.
Die Ergebnisse zeigen, dass R-Spin im Vergleich zu anderen datenspezifischen Selbstüberwachungsmethoden eine deutlich höhere Dateneffizienz aufweist, während es gleichzeitig in stark verrauschten Sprachszenarien bessere Leistungen erzielt. Die Analyse der gelernten diskreten akustischen Einheiten zeigt, dass sie eng mit Phonemen und Zeichen korrelieren und so die Leistung der Spracherkennung verbessern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Heng-Jui Cha... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.09117.pdfDeeper Inquiries