Die Studie untersucht die Limitationen von Kalibrierungstechniken bei der Ausrichtung von LLM-Evaluatoren an menschlichen Urteilen. Es wird festgestellt, dass die Diskrepanz hauptsächlich auf unterschiedliche Bewertungsstandards zwischen LLMs und Menschen zurückzuführen ist, anstatt auf Unterschiede in den Bewertungsprioren.
Inspiriert vom RLHF-Trainingsparadigma, in dem Präferenzdaten verwendet werden, um die Ausrichtung an menschlichen Werten zu verbessern, wird ein neuer Evaluierungsansatz vorgeschlagen. Dieser reformuliert die traditionelle Bewertung auf Basis von Scores in eine Reihe von paarweisen Vergleichen zwischen ausgewählten Kandidaten. Das vorgeschlagene Verfahren "Paarweise-Präferenz-Suche" (PAIRS) nutzt eine unsicherheitsgesteuerte Suchstrategie, um die Maximum-Likelihood-Schätzung (MLE) der Präferenzrangfolge effizient zu berechnen.
Die Experimente zeigen, dass PAIRS die Ausrichtung an menschlichen Urteilen deutlich verbessert und in repräsentativen Evaluierungsaufgaben wie Zusammenfassungen und offene Textgenerierung state-of-the-art-Leistung erzielt. Darüber hinaus liefert die Studie Erkenntnisse darüber, wie paarweise Präferenzen zur Quantifizierung der Transitivität von LLM-Evaluatoren verwendet werden können und wie sie von Kalibrierung profitieren.
翻譯成其他語言
從原文內容
arxiv.org
深入探究