Durch Multi-Task-Lernen können komprimierte Sprachrepräsentationsmodelle robuster gegenüber Umgebungsrauschen und Nachhall gemacht werden, ohne dabei die Leistung auf sauberen Daten zu beeinträchtigen.
R-Spin ist eine dateneffiziente domänenspezifische Selbstüberwachungsmethode, die störgeräuschinvariante und sprecherunabhängige Sprachrepräsentationen durch das Lernen diskreter akustischer Einheiten erzeugt.