Core Concepts
Große Sprachmodelle wie GPT-4 übertreffen bestehende automatische Bewertungsmetriken bei der Bewertung der Korrektur grammatikalischer Fehler.
Abstract
In dieser Studie wurde die Leistung von Großen Sprachmodellen (LLMs) bei der Bewertung der Korrektur grammatikalischer Fehler (GEC) untersucht. Die Ergebnisse zeigen, dass GPT-4 eine Kendall-Rangkorrelation von 0,662 mit menschlichen Urteilen erreicht und damit alle bestehenden Methoden übertrifft.
Die Studie untersuchte den Einfluss verschiedener Bewertungskriterien in den Prompts auf die Bewertungsleistung. Es wurde festgestellt, dass die Berücksichtigung von Kriterien wie Flüssigkeit die Korrelation mit menschlichen Urteilen deutlich verbessert.
Darüber hinaus wurde beobachtet, dass mit abnehmender Größe der LLMs auch die Korrelation mit menschlichen Urteilen abnimmt. Kleinere LLMs tendieren dazu, extreme Bewertungen zu vermeiden, während größere LLMs dazu neigen, höhere Bewertungen zu vergeben.
Stats
Die Studie zeigt, dass GPT-4 eine Kendall-Rangkorrelation von 0,662 mit menschlichen Urteilen erreicht.
Quotes
"GPT-4 erzielte eine Kendall-Rangkorrelation von 0,662 mit menschlichen Urteilen, womit es alle bestehenden Methoden übertrifft."
"Mit abnehmender Größe der LLMs nimmt auch die Korrelation mit menschlichen Urteilen ab."