Leistung auf Ranglisten ist nicht immer gleichbedeutend mit Programmierfertigkeiten
Die Leistung von Großsprachmodellen auf gängigen Benchmarks ist nicht unbedingt ein zuverlässiger Indikator für ihre tatsächlichen Programmierfertigkeiten. Bestehende Benchmarks haben Einschränkungen in Bezug auf Menge, Vielfalt und Anfälligkeit für Datenlecks, was zu einer Überbewertung der Fähigkeiten führen kann.