Das Papier präsentiert CodeBenchGen, ein Framework zur Erstellung von Ausführungsbasierten Codegeneration-Benchmarks. Das Framework verwendet einen großen Sprachmodell (LLM), um beliebige Codeausschnitte in Evaluationsbeispiele umzuwandeln, einschließlich Testfällen für die Ausführungsevaluierung.
Das Framework besteht aus vier Schritten:
Als Demonstration erstellt das Team den Exec-CSN-Benchmark, der 1.931 Beispiele aus 367 GitHub-Repositorys umfasst. Eine Analyse zeigt, dass Exec-CSN eine hohe Domänenvielfalt aufweist und Beispiele mit unterschiedlichen Schwierigkeitsgraden enthält, von denen 81,3% von Menschen gelöst werden können.
Experimente mit 10 Codegeneration-Modellen zeigen, dass das beste Modell nur eine Pass@1-Punktzahl von 37,21% erreicht, was die Komplexität des Datensatzes verdeutlicht. Die Analyse zeigt, dass die Modelle insbesondere bei Beispielen mit längeren Zielausdrücken, mehr Funktionsaufrufen oder externen Bibliotheken schlechter abschneiden.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yiqing Xie,A... pada arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00566.pdfPertanyaan yang Lebih Dalam