Das Papier präsentiert CodeBenchGen, ein Framework zur Erstellung von Ausführungsbasierten Codegeneration-Benchmarks. Das Framework verwendet einen großen Sprachmodell (LLM), um beliebige Codeausschnitte in Evaluationsbeispiele umzuwandeln, einschließlich Testfällen für die Ausführungsevaluierung.
Das Framework besteht aus vier Schritten:
Als Demonstration erstellt das Team den Exec-CSN-Benchmark, der 1.931 Beispiele aus 367 GitHub-Repositorys umfasst. Eine Analyse zeigt, dass Exec-CSN eine hohe Domänenvielfalt aufweist und Beispiele mit unterschiedlichen Schwierigkeitsgraden enthält, von denen 81,3% von Menschen gelöst werden können.
Experimente mit 10 Codegeneration-Modellen zeigen, dass das beste Modell nur eine Pass@1-Punktzahl von 37,21% erreicht, was die Komplexität des Datensatzes verdeutlicht. Die Analyse zeigt, dass die Modelle insbesondere bei Beispielen mit längeren Zielausdrücken, mehr Funktionsaufrufen oder externen Bibliotheken schlechter abschneiden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yiqing Xie,A... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00566.pdfConsultas más profundas