Effiziente menschliche Bewertung großer Sprachmodelle durch Wettbewerb mit maximaler Diskrepanz
Eine effiziente und faire Bewertungsmethode für große Sprachmodelle, die eine zuverlässige Rangfolge ihrer Fähigkeiten liefert und wertvolle Erkenntnisse für deren weitere Verbesserung bietet.