핵심 개념
코드 대형 언어 모델의 성능 향상을 위해 고품질 데이터 선별 기법을 개발하고 적용하여 기존 모델들을 능가하는 성과를 달성하였다.
초록
이 기술 보고서에서는 코드 대형 언어 모델인 CodeShell을 소개한다. CodeShell은 GPT-2 아키텍처를 기반으로 하며, Grouped-Query Attention과 Rotary Positional Encoding 기법을 적용하여 효율적이고 문맥 확장에 유리한 구조를 갖추고 있다.
데이터 수집 및 전처리 과정에서는 중복 제거, 퍼플렉서티 기반 필터링, 규칙 기반 필터링, 학습 기반 필터링 등 다양한 기법을 활용하여 100억 토큰 규모의 고품질 코드 데이터셋을 구축하였다. 이를 통해 500억 토큰 규모의 데이터로 학습한 CodeShell-7B 모델이 기존 모델들을 능가하는 성능을 달성하였다.
실험 결과, CodeShell-7B는 HumanEval과 MBPP 벤치마크에서 각각 34.3%, 38.7%의 정확도를 기록하며 기존 모델들을 압도하는 성과를 보였다. 또한 MultiPL-E 벤치마크에서도 다양한 프로그래밍 언어에 걸쳐 우수한 성능을 보였다.
데이터 품질의 중요성을 검증하기 위해 수행한 실험에서도, 고품질 데이터로 학습한 모델이 무작위 데이터로 학습한 모델 대비 약 100% 향상된 성능을 보였다. 이를 통해 대형 언어 모델의 성능 향상을 위해서는 고품질 데이터 확보가 핵심적임을 확인할 수 있었다.
통계
100억 토큰 규모의 고품질 코드 데이터셋을 구축하였다.
CodeShell-7B 모델은 HumanEval 벤치마크에서 34.3%의 정확도를 달성하였다.
CodeShell-7B 모델은 MBPP 벤치마크에서 38.7%의 정확도를 달성하였다.
인용구
"코드 대형 언어 모델의 성능 향상을 위해서는 고품질 데이터 확보가 핵심적이다."
"CodeShell-7B 모델은 기존 모델들을 압도하는 성과를 보였다."