핵심 개념
코드LLM 성능 향상을 위해서는 고품질 데이터 합성 및 필터링 기술이 중요하며, 본 논문에서는 최근 발전된 기술, 과제 및 미래 연구 방향을 제시합니다.
초록
코드LLM을 위한 데이터 합성 기법 마스터하기: 최근 발전, 과제 및 미래 방향
본 논문은 코드 이해 및 생성 능력을 갖춘 대규모 언어 모델(LLM)인 코드LLM의 성능 향상을 위한 데이터 합성 및 필터링 기술에 대한 연구 논문입니다.
본 연구는 코드 생성, 수정, 번역, 문서화와 같은 다양한 코드 관련 작업을 수행하는 코드LLM을 구축하기 위한 데이터 합성 및 필터링 기술의 최신 동향을 분석하고, 핵심 과제와 미래 연구 방향을 제시하는 것을 목표로 합니다.
저자들은 지난 2년간 발표된 데이터 합성 및 필터링 관련 50개 이상의 연구 논문을 검토하고 분석했습니다. 분석 대상 논문은 모델 구축 단계, 핵심 목표, 특정 작업의 세 가지 차원을 기준으로 분류되었습니다. 데이터 합성 기술은 모델 사전 훈련, 지도 학습 기반 미세 조정, 선호도 정렬, 모델 평가 단계에서 사용된 기술을 중심으로 분석되었으며, 데이터 필터링 기술은 규칙 기반, 인터프리터 기반, 소규모 모델 기반, LLM 기반, 오염 제거 기법으로 분류하여 분석되었습니다.