Die Studie stellt R-Spin vor, eine dateneffiziente domänenspezifische Selbstüberwachungsmethode, die störgeräuschinvariante und sprecherunabhängige Sprachrepräsentationen erzeugt. R-Spin baut auf der Speaker-invarianten Clusterung (Spin) auf und erweitert sie um das Lernen von akustischen Einheiten, um die Leistung zu verbessern.
Durch das Hinzufügen von Rauschen und Verzerrungen zu den Eingaben während des Feinabstimmungsprozesses lernt das Modell robuste Darstellungen, die sowohl Sprecher- als auch Rauscheinflüsse minimieren. Darüber hinaus ermöglicht eine zusätzliche Pseudoklassenlabel-Vorhersageverlustfunktion das Feintuning aller Modellschichten, ohne dass es zu einem Zusammenbruch kommt.
Die Ergebnisse zeigen, dass R-Spin im Vergleich zu anderen datenspezifischen Selbstüberwachungsmethoden eine deutlich höhere Dateneffizienz aufweist, während es gleichzeitig in stark verrauschten Sprachszenarien bessere Leistungen erzielt. Die Analyse der gelernten diskreten akustischen Einheiten zeigt, dass sie eng mit Phonemen und Zeichen korrelieren und so die Leistung der Spracherkennung verbessern.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies