이 논문은 실제 세계 코드 저장소와 일치하는 새로운 코드 생성 벤치마크 EvoCodeBench를 제안한다. EvoCodeBench는 다음과 같은 특징을 가진다:
이 논문은 또한 EvoCodeBench를 기반으로 저장소 수준의 코드 생성 작업을 제안하고, 10개의 인기 있는 대형 언어 모델을 평가한다. 실험 결과, 이러한 모델들의 실제 세계 저장소에서의 코드 생성 능력이 기존 벤치마크에 비해 크게 떨어지는 것으로 나타났다. 이는 기존 벤치마크가 실제 개발 환경을 충분히 반영하지 못한다는 것을 보여준다. 또한 논문은 실패 사례를 분석하고 현존 모델의 단점을 요약하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jia Li,Ge Li... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00599.pdfYêu cầu sâu hơn