Eine effiziente und faire Bewertungsmethode für große Sprachmodelle, die eine zuverlässige Rangfolge ihrer Fähigkeiten liefert und wertvolle Erkenntnisse für deren weitere Verbesserung bietet.
Durch die Modellierung von Denkprozessen als Graph anstatt als lineare Kette können Sprachmodelle komplexere, nicht-sequenzielle Denkstrukturen erfassen und so ihre Schlussfolgerungsfähigkeiten verbessern.