Mehrstufiges Multimodales Vortraining für Automatische Spracherkennung
Mehrstufiges multimodales Vortraining kann die Leistung der Automatischen Spracherkennung im Vergleich zu zufällig initialisierten Modellen deutlich verbessern, auch wenn die Modelle nur auf unimodalen Aufgaben feinabgestimmt werden.