Centrala begrepp
Automatische Bewertung von Satzübersetzungsübungen ist eine herausfordernde Aufgabe, selbst für modernste Sprachmodelle.
Statistik
Die Baseline-Modelle konnten korrekte Antworten mit etwa 90% Genauigkeit klassifizieren.
GPT-Modelle zeigten schlechtere Ergebnisse als BERT.
Die Modelle hatten Schwierigkeiten bei der Bewertung von falschen Antworten.
Citat
"STE-Bewertung bleibt selbst für modernste Sprachmodelle eine herausfordernde Aufgabe."