Die Arbeit befasst sich mit der Herausforderung, automatische Evaluationsmetriken für Sprachmodelle zu entzerren. Insbesondere wird der Längenverzerrung in der beliebten AlpacaEval-Metrik adressiert.
Zunächst wird erläutert, dass automatische Evaluationsmetriken wie AlpacaEval, die auf Sprachmodellen basieren, oft unter Verzerrungen leiden, wie z.B. einer Bevorzugung längerer Ausgaben. Dies kann dazu führen, dass Modelle, die ihre Ausgaben gezielt verlängern, in der Bewertung besser abschneiden, obwohl dies nicht der eigentlichen Qualität entspricht.
Um diese Verzerrung zu kontrollieren, wird ein regressionsbasierter Ansatz vorgestellt. Dabei wird ein generalisiertes lineares Modell verwendet, um die Präferenz des Evaluators vorherzusagen, basierend auf der Modellidentität, der Länge der Ausgabe und der Schwierigkeit der Instruktion. Durch Entfernen des Längenterms aus der Vorhersage erhält man dann eine längenkorrigierte Bewertung.
Die Experimente zeigen, dass die so erhaltene "AlpacaEval-LC" deutlich weniger anfällig für Manipulationen der Ausgabelänge ist und gleichzeitig eine höhere Korrelation mit menschlichen Bewertungen aus dem "Chatbot Arena"-Benchmark aufweist als die ursprüngliche AlpacaEval-Metrik. Zudem besitzt AlpacaEval-LC wünschenswerte Eigenschaften wie Interpretierbarkeit und Robustheit gegenüber Angriffen.
Abschließend wird diskutiert, wie der Ansatz auch auf andere Verzerrungen in automatischen Evaluationsmetriken angewendet werden kann.
To Another Language
from source content
arxiv.org
Deeper Inquiries