Основные понятия
Automatische Bewertung von Satzübersetzungsübungen ist eine herausfordernde Aufgabe, selbst für modernste Sprachmodelle.
Статистика
Die Baseline-Modelle konnten korrekte Antworten mit etwa 90% Genauigkeit klassifizieren.
GPT-Modelle zeigten schlechtere Ergebnisse als BERT.
Die Modelle hatten Schwierigkeiten bei der Bewertung von falschen Antworten.
Цитаты
"STE-Bewertung bleibt selbst für modernste Sprachmodelle eine herausfordernde Aufgabe."