Core Concepts
HumanEval-XL은 23개 자연어와 12개 프로그래밍 언어를 연결하여 다국어 코드 생성 능력을 종합적으로 평가하는 벤치마크이다.
Abstract
HumanEval-XL은 다국어 코드 생성 능력을 종합적으로 평가하기 위해 23개 자연어와 12개 프로그래밍 언어를 연결한 대규모 벤치마크이다. 기존 벤치마크들은 영어 프롬프트를 다국어 코드로 번역하거나 제한적인 자연어만을 다루었지만, HumanEval-XL은 이를 극복하고자 한다.
데이터 구축 과정은 다음과 같다. 1) 영어 프롬프트에서 자연어 부분을 추출한다. 2) GPT-4를 활용하여 23개 언어로 번역하고 다시 영어로 번역한다. 3) BERTScore를 통해 번역 품질을 평가하고 기준을 충족하지 못하는 경우 재번역한다. 4) 휴리스틱 검사와 수동 검토를 거쳐 최종 데이터셋을 구축한다.
실험 결과, GPT-4가 가장 우수한 성능을 보였으며 모델 크기 증가가 다국어 코드 생성 능력 향상에 중요한 역할을 하는 것으로 나타났다. 그러나 현재 언어 모델들은 서로 다른 언어로 표현된 동일한 의미를 충분히 포착하지 못하는 한계를 보였다.
Stats
영어 프롬프트를 23개 언어로 번역하고 다시 영어로 번역한 결과, BERTScore가 0.95 미만인 경우 재번역을 수행했다.
최종적으로 22,080개의 프롬프트를 포함하며, 평균 8.33개의 테스트 케이스가 있다.