Die Studie untersucht die Limitationen von Kalibrierungstechniken bei der Ausrichtung von LLM-Evaluatoren an menschlichen Urteilen. Es wird festgestellt, dass die Diskrepanz hauptsächlich auf unterschiedliche Bewertungsstandards zwischen LLMs und Menschen zurückzuführen ist, anstatt auf Unterschiede in den Bewertungsprioren.
Inspiriert vom RLHF-Trainingsparadigma, in dem Präferenzdaten verwendet werden, um die Ausrichtung an menschlichen Werten zu verbessern, wird ein neuer Evaluierungsansatz vorgeschlagen. Dieser reformuliert die traditionelle Bewertung auf Basis von Scores in eine Reihe von paarweisen Vergleichen zwischen ausgewählten Kandidaten. Das vorgeschlagene Verfahren "Paarweise-Präferenz-Suche" (PAIRS) nutzt eine unsicherheitsgesteuerte Suchstrategie, um die Maximum-Likelihood-Schätzung (MLE) der Präferenzrangfolge effizient zu berechnen.
Die Experimente zeigen, dass PAIRS die Ausrichtung an menschlichen Urteilen deutlich verbessert und in repräsentativen Evaluierungsaufgaben wie Zusammenfassungen und offene Textgenerierung state-of-the-art-Leistung erzielt. Darüber hinaus liefert die Studie Erkenntnisse darüber, wie paarweise Präferenzen zur Quantifizierung der Transitivität von LLM-Evaluatoren verwendet werden können und wie sie von Kalibrierung profitieren.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yinhong Liu,... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16950.pdfDybere Forespørgsler