Die Studie präsentiert eine effiziente Methode zur menschlichen Bewertung großer Sprachmodelle (LLMs), die auf dem Prinzip des Wettbewerbs mit maximaler Diskrepanz (MAD) basiert. Anstatt eine feste Testmenge manuell zu erstellen, wählt die Methode automatisch eine kleine Menge informativer und unvoreingenommener Anweisungen aus, um die Leistung der LLMs zu differenzieren. Die Ergebnisse der paarweisen Vergleiche durch menschliche Bewerter werden dann mit dem Elo-Bewertungssystem zu einer globalen Rangfolge der LLMs aggregiert.
Die Methode wurde auf acht repräsentative LLMs in vier Szenarien angewendet: Verständnis wissenschaftlichen Wissens, mathematisches Reasoning, kreatives und funktionales Schreiben sowie Code-Generierung und -Erklärung. Die Ergebnisse zeigen, dass die vorgeschlagene Methode eine zuverlässige und sinnvolle Rangfolge der LLM-Fähigkeiten liefert, ihre relativen Stärken und Schwächen identifiziert und wertvolle Erkenntnisse für deren weitere Verbesserung bietet.
Im Vergleich zu bestehenden Bewertungsmethoden zeichnet sich der Ansatz durch seine Effizienz und Fairness aus, indem er die Anzahl der benötigten menschlichen Bewertungen deutlich reduziert, ohne dabei an Aussagekraft einzubüßen.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies