Core Concepts
Unser Ansatz DistilWhisper ermöglicht es, die Leistung des kleinen Whisper-Modells durch den Einsatz von sprachspezifischen Modulen und Wissensübertragung vom großen Whisper-Modell deutlich zu verbessern, ohne dabei die Robustheit und Mehrsprachigkeit zu beeinträchtigen.
Abstract
In dieser Arbeit präsentieren wir DistilWhisper, einen effizienten Destillationsansatz, der die Leistung des kleinen Whisper-Modells (whisper-small) durch den Einsatz von sprachspezifischen Modulen und Wissensübertragung vom großen Whisper-Modell (whisper-large-v2) deutlich verbessert, ohne dabei die Robustheit und Mehrsprachigkeit zu beeinträchtigen.
Unser Ansatz umfasst zwei Schlüsselstrategien:
Feinjustierung des whisper-small-Modells durch leichtgewichtige, modulare sprachspezifische ASR-Experten
Wissensübertragung vom whisper-large-v2-Modell
Durch diese duale Herangehensweise können wir die ASR-Leistung effektiv steigern, während wir die Robustheit aus dem mehrsprachigen und multitask-Vortraining beibehalten. Die Ergebnisse zeigen, dass unser Ansatz effektiver ist als Standard-Feinjustierung oder LoRA-Adapter, da er die Leistung in den angestrebten Sprachen sowohl für In-Domain- als auch für Out-of-Domain-Testsets verbessert, ohne dabei einen nennenswerten Parameteraufwand bei der Inferenz zu verursachen.
Zusätzliche Ablationstests zeigen, dass unser Ansatz auch mit unterschiedlichen Mengen an Trainingsdaten umgehen kann. Wir demonstrieren, dass die Flexibilität, die durch den Gating-Mechanismus eingeführt wird, DistilWhisper mit einem effizienten Anpassungsansatz ausstattet, bei dem die sprachspezifischen Module nur dann genutzt werden, wenn sie relevant sind.
Stats
Die Whisper-Modelle decken 99 Sprachen ab und trainieren gemeinsam auf den Aufgaben der automatischen Spracherkennung (ASR), Sprachübersetzung (Viele-zu-Englisch), Sprachidentifikation und Sprachaktivitätserkennung.
Das whisper-large-v2-Modell ist 2-3 Mal langsamer als das whisper-small-Modell.
Quotes
"Whisper ist ein populäres mehrsprachiges und multitask-Sprachmodell, das für seine Robustheit (d.h. invariante Leistung über verschiedene Out-of-Domain-Daten) bei der automatischen Spracherkennung (ASR) bekannt ist."
"Wir beobachten, dass es einen wichtigen Leistungsunterschied zwischen whisper-large-v2 (größtes Modell) und whisper-small (zweitkleinestes Modell) bei einer großen Anzahl von Sprachen gibt, einschließlich ressourcenarmer Sprachen, aber auch vieler hoch- und mittelressourciger Sprachen."