Alapfogalmak
Unser Modell, das auf dem leistungsstarken Whisper-Spracherkennungssystem basiert, übertrifft die betrachteten Basislinien bei der Vorhersage der Wortwahrnehmung von Zuhörern in verrauschter Sprache, selbst in einem Zero-Shot-Szenario. Durch feines Abstimmen des Modells auf die Zuhörerreaktionen können wir die Leistung weiter steigern.
Kivonat
In dieser Arbeit untersuchen wir den Einsatz von Transfer Learning von Whisper, einem state-of-the-art-Modell für automatische Spracherkennung, für die Vorhersage der mikroskopischen Sprachverständlichkeit auf Wortebene.
Mikroskopische Verständlichkeitsmodelle zielen darauf ab, die Wahrnehmung der Zuhörer im Detail vorherzusagen, z.B. die Verwechslung von Wörtern oder Lauten. Im Gegensatz dazu sagen makroskopische Modelle die durchschnittliche Wortfehlerrate für ein gegebenes Sprachsignal in Rauschen vorher.
Unser Ansatz verwendet Whisper, ein leistungsfähiges Modell für automatische Spracherkennung, um die Wahrscheinlichkeitsverteilung über die von den Zuhörern wahrgenommenen Wörter vorherzusagen. Wir evaluieren das Modell in einem Zero-Shot-Szenario sowie nach feinem Abstimmen auf die Zuhörerreaktionen.
Die Ergebnisse zeigen, dass unser Modell die betrachteten Basislinien deutlich übertrifft, selbst ohne feines Abstimmen. Durch das feine Abstimmen können wir die Leistung weiter steigern und eine relative Verbesserung von bis zu 66% erreichen. Unsere Ergebnisse zeigen das Potenzial von großen, tief lernenden Modellen für die Vorhersage mikroskopischer Sprachverständlichkeit.
Statisztikák
Die Wahrscheinlichkeit der beobachteten Zuhörerreaktionen unter dem Vorhersagemodell ist im Durchschnitt um 66% höher als bei den Basislinien.
Das fein abgestimmte Modell erreicht eine Genauigkeit von 13% bei der Vorhersage der am häufigsten genannten Reaktion, verglichen mit 0% bei den Basislinien.
Das fein abgestimmte Modell deckt im Durchschnitt 48% der beobachteten Reaktionen unter den Top-n Vorhersagen ab, verglichen mit 0-2% bei den Basislinien.
Die Korrelation zwischen den vorhergesagten und beobachteten Rangfolgen der Reaktionen beträgt 0,42 für das fein abgestimmte Modell, verglichen mit 0,05-0,11 bei den Basislinien.
Idézetek
"Unser Modell übertrifft die betrachteten Basislinien deutlich, selbst in einem Zero-Shot-Szenario."
"Durch feines Abstimmen des Modells auf die Zuhörerreaktionen können wir die Leistung weiter steigern und eine relative Verbesserung von bis zu 66% erreichen."
"Unsere Ergebnisse zeigen das Potenzial von großen, tief lernenden Modellen für die Vorhersage mikroskopischer Sprachverständlichkeit."