핵심 개념
LiveCodeBench는 대규모 언어 모델의 코드 생성 능력뿐만 아니라 코드 수정, 실행, 테스트 출력 예측 등 다양한 코드 관련 능력을 종합적으로 평가하는 벤치마크이다. 이를 통해 기존 벤치마크의 한계를 극복하고 모델의 성능을 보다 정확하게 측정할 수 있다.
초록
LiveCodeBench는 LeetCode, AtCoder, CodeForces 등 3개의 코딩 대회 플랫폼에서 지속적으로 새로운 문제를 수집하여 구축된 벤치마크이다. 이를 통해 기존 벤치마크의 오염 문제를 해결하고 모델의 다양한 코드 관련 능력을 종합적으로 평가할 수 있다.
구체적으로 LiveCodeBench는 다음과 같은 4가지 시나리오로 구성된다:
- 코드 생성: 자연어 문제 설명을 바탕으로 올바른 코드를 생성하는 능력 평가
- 자가 수정: 오류가 있는 코드를 실행 정보를 활용하여 수정하는 능력 평가
- 코드 실행: 주어진 코드를 입력에 대해 실행하는 능력 평가
- 테스트 출력 예측: 자연어 문제 설명과 입력을 바탕으로 테스트 출력을 예측하는 능력 평가
이를 통해 기존 벤치마크에서 간과되었던 다양한 코드 관련 능력을 종합적으로 평가할 수 있다. 또한 문제 공개 시기를 기록하여 모델의 오염 여부를 확인할 수 있다.
실험 결과, LiveCodeBench를 통해 기존 벤치마크에서 드러나지 않았던 모델 간 성능 차이와 오염 문제를 확인할 수 있었다. 특히 DeepSeek 모델의 경우 2023년 9월 이후 공개된 문제에서 성능이 크게 떨어지는 것으로 나타나, 이전 문제에 대한 오염 가능성을 시사한다. 또한 HumanEval 벤치마크에서 우수한 성능을 보인 일부 모델들이 LiveCodeBench에서는 상대적으로 저조한 성과를 보여, 이들이 HumanEval에 과적합되었을 가능성을 보여준다.
이처럼 LiveCodeBench는 대규모 언어 모델의 코드 관련 능력을 보다 정확하게 평가할 수 있는 도구로, 향후 코드 관련 모델 개발 및 평가에 활용될 것으로 기대된다.
통계
DeepSeek-Ins-33B 모델의 경우 2023년 9월 이후 공개된 LeetCode 문제에서 성능이 크게 떨어졌다.
GPT-4-Turbo 모델은 다른 모델들에 비해 코드 생성, 자가 수정, 테스트 출력 예측 등 모든 시나리오에서 월등한 성능을 보였다.
HumanEval 벤치마크에서 우수한 성과를 보인 일부 모델들이 LiveCodeBench에서는 상대적으로 저조한 성과를 보였다.
인용구
"LiveCodeBench는 대규모 언어 모델의 코드 생성 능력뿐만 아니라 코드 수정, 실행, 테스트 출력 예측 등 다양한 코드 관련 능력을 종합적으로 평가한다."
"LiveCodeBench는 문제 공개 시기를 기록하여 모델의 오염 여부를 확인할 수 있다."
"DeepSeek 모델의 경우 2023년 9월 이후 공개된 문제에서 성능이 크게 떨어지는 것으로 나타나, 이전 문제에 대한 오염 가능성을 시사한다."