Vorhersage der mikroskopischen Verständlichkeit durch Transfer Learning von Whisper
Unser Modell, das auf dem leistungsstarken Whisper-Spracherkennungssystem basiert, übertrifft die betrachteten Basislinien bei der Vorhersage der Wortwahrnehmung von Zuhörern in verrauschter Sprache, selbst in einem Zero-Shot-Szenario. Durch feines Abstimmen des Modells auf die Zuhörerreaktionen können wir die Leistung weiter steigern.