LiveCodeBench는 LeetCode, AtCoder, CodeForces 등 3개의 코딩 대회 플랫폼에서 지속적으로 새로운 문제를 수집하여 구축된 벤치마크이다. 이를 통해 기존 벤치마크의 오염 문제를 해결하고 모델의 다양한 코드 관련 능력을 종합적으로 평가할 수 있다.
구체적으로 LiveCodeBench는 다음과 같은 4가지 시나리오로 구성된다:
이를 통해 기존 벤치마크에서 간과되었던 다양한 코드 관련 능력을 종합적으로 평가할 수 있다. 또한 문제 공개 시기를 기록하여 모델의 오염 여부를 확인할 수 있다.
실험 결과, LiveCodeBench를 통해 기존 벤치마크에서 드러나지 않았던 모델 간 성능 차이와 오염 문제를 확인할 수 있었다. 특히 DeepSeek 모델의 경우 2023년 9월 이후 공개된 문제에서 성능이 크게 떨어지는 것으로 나타나, 이전 문제에 대한 오염 가능성을 시사한다. 또한 HumanEval 벤치마크에서 우수한 성능을 보인 일부 모델들이 LiveCodeBench에서는 상대적으로 저조한 성과를 보여, 이들이 HumanEval에 과적합되었을 가능성을 보여준다.
이처럼 LiveCodeBench는 대규모 언어 모델의 코드 관련 능력을 보다 정확하게 평가할 수 있는 도구로, 향후 코드 관련 모델 개발 및 평가에 활용될 것으로 기대된다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Naman Jain,K... um arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.07974.pdfTiefere Fragen