Unser Ansatz DistilWhisper ermöglicht es, die Leistung des kleinen Whisper-Modells durch den Einsatz von sprachspezifischen Modulen und Wissensübertragung vom großen Whisper-Modell deutlich zu verbessern, ohne dabei die Robustheit und Mehrsprachigkeit zu beeinträchtigen.
Große Sprachmodelle können ihre Verständnisfähigkeiten durch parallele mehrsprachige Eingaben signifikant verbessern.
Die Leistung mehrsprachiger Sprachmodelle hängt nicht nur von der Trainingsdatengröße ab, sondern auch von der Wahl der zentralen Sprache. Andere Sprachen als Englisch könnten möglicherweise eine effizientere Grundlage für mehrsprachige Anwendungen bieten.
Durch zusätzliches Vortraining von bestehenden mehrsprachigen Sprachmodellen können vergleichbare Leistungen wie bei dedizierten Modellen erzielt werden, auch wenn nur begrenzte Rechenressourcen zur Verfügung stehen.