Core Concepts
HumanEval-XL ist ein umfassender mehrsprachiger Benchmark, der die Leistung von Sprachmodellen bei der Codegenerierung über 23 Sprachen und 12 Programmiersprachen hinweg evaluiert.
Abstract
HumanEval-XL ist ein neuer mehrsprachiger Benchmark für die Evaluierung von Sprachmodellen bei der Codegenerierung. Er umfasst 22.080 Aufgaben in 23 natürlichen Sprachen und 12 Programmiersprachen.
Der Benchmark wurde entwickelt, um die Leistung von Sprachmodellen bei der Übertragung von natürlicher Sprache in Code über verschiedene Sprachen hinweg zu bewerten. Dazu wurde ein iterativer Prozess unter Verwendung von Rückübersetung eingesetzt, um eine parallele Datenmenge in verschiedenen Sprachen zu erstellen.
Die Experimente zeigen, dass große Sprachmodelle wie GPT-4 deutlich bessere Leistungen bei der mehrsprachigen Codegenerierung erzielen als spezialisierte Modelle wie CodeT5+. Allerdings haben alle Modelle noch Schwierigkeiten, die semantische Äquivalenz zwischen Sprachen bei der Codegenerierung zu erfassen.
Die Ergebnisse heben eine wichtige Herausforderung hervor: Trotz der beeindruckenden Fortschritte von Sprachmodellen in der Codegenerierung, haben sie noch Schwierigkeiten, die Bedeutung in verschiedenen Sprachen gleichwertig zu verstehen und in Code umzusetzen.
Stats
Die Leistung von GPT-4 auf Pythoncode liegt bei 78,54% für Sprachen der Kategorie 5, 78,75% für Kategorie 4 und 77,64% für Kategorie 3.
CodeGen2-16B erreicht 20,83% auf Pythoncode für Kategorie 5, 19,06% für Kategorie 4 und 19,58% für Kategorie 3.
GPT-3.5 erzielt 62,50% auf Pythoncode für Kategorie 5, 66,41% für Kategorie 4 und 60,42% für Kategorie 3.
Quotes
Keine relevanten Zitate gefunden.