Das Papier präsentiert CodeBenchGen, ein Framework zur Erstellung von Ausführungsbasierten Codegeneration-Benchmarks. Das Framework verwendet einen großen Sprachmodell (LLM), um beliebige Codeausschnitte in Evaluationsbeispiele umzuwandeln, einschließlich Testfällen für die Ausführungsevaluierung.
Das Framework besteht aus vier Schritten:
Als Demonstration erstellt das Team den Exec-CSN-Benchmark, der 1.931 Beispiele aus 367 GitHub-Repositorys umfasst. Eine Analyse zeigt, dass Exec-CSN eine hohe Domänenvielfalt aufweist und Beispiele mit unterschiedlichen Schwierigkeitsgraden enthält, von denen 81,3% von Menschen gelöst werden können.
Experimente mit 10 Codegeneration-Modellen zeigen, dass das beste Modell nur eine Pass@1-Punktzahl von 37,21% erreicht, was die Komplexität des Datensatzes verdeutlicht. Die Analyse zeigt, dass die Modelle insbesondere bei Beispielen mit längeren Zielausdrücken, mehr Funktionsaufrufen oder externen Bibliotheken schlechter abschneiden.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yiqing Xie,A... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00566.pdfYêu cầu sâu hơn