Umfassender mehrsprachiger Benchmark für Code-Generierung: HumanEval-XL
HumanEval-XL ist ein umfassender mehrsprachiger Benchmark, der die Leistung von Sprachmodellen bei der Codegenerierung über 23 Sprachen und 12 Programmiersprachen hinweg evaluiert.