In dieser Arbeit untersuchen wir den Einsatz von Transfer Learning von Whisper, einem state-of-the-art-Modell für automatische Spracherkennung, für die Vorhersage der mikroskopischen Sprachverständlichkeit auf Wortebene.
Mikroskopische Verständlichkeitsmodelle zielen darauf ab, die Wahrnehmung der Zuhörer im Detail vorherzusagen, z.B. die Verwechslung von Wörtern oder Lauten. Im Gegensatz dazu sagen makroskopische Modelle die durchschnittliche Wortfehlerrate für ein gegebenes Sprachsignal in Rauschen vorher.
Unser Ansatz verwendet Whisper, ein leistungsfähiges Modell für automatische Spracherkennung, um die Wahrscheinlichkeitsverteilung über die von den Zuhörern wahrgenommenen Wörter vorherzusagen. Wir evaluieren das Modell in einem Zero-Shot-Szenario sowie nach feinem Abstimmen auf die Zuhörerreaktionen.
Die Ergebnisse zeigen, dass unser Modell die betrachteten Basislinien deutlich übertrifft, selbst ohne feines Abstimmen. Durch das feine Abstimmen können wir die Leistung weiter steigern und eine relative Verbesserung von bis zu 66% erreichen. Unsere Ergebnisse zeigen das Potenzial von großen, tief lernenden Modellen für die Vorhersage mikroskopischer Sprachverständlichkeit.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Paul Best,Sa... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01737.pdfשאלות מעמיקות