Temel Kavramlar
대형 언어 모델의 추론 능력을 소규모 모델에 전달하여 소규모 모델의 코드 생성 성능을 향상시킬 수 있다.
Özet
이 논문은 대형 언어 모델(LLM)의 추론 능력을 소규모 모델에 전달하여 소규모 모델의 코드 생성 성능을 향상시키는 CodePLAN 프레임워크를 제안한다.
대형 언어 모델은 "Chain-of-Thought" 기법을 통해 복잡한 프로그래밍 문제에 대한 해결 계획을 자율적으로 수립할 수 있지만, 소규모 모델은 이러한 추론 능력이 부족하여 코드 생성 성능이 떨어진다.
CodePLAN은 다중 과제 학습 방식을 사용하여 코드 생성과 해결 계획 생성 작업을 동시에 수행함으로써 소규모 모델의 추론 능력을 향상시킨다.
해결 계획의 품질을 높이기 위해 "역추론" 및 "계획 샘플링" 전략을 도입하였다.
실험 결과, CodePLAN은 기존 미세 조정 방식에 비해 APPS 벤치마크의 pass@1 지표에서 130% 이상 향상된 성능을 보였다.
İstatistikler
대형 언어 모델(LLM)은 "Chain-of-Thought" 기법을 통해 복잡한 프로그래밍 문제에 대한 해결 계획을 자율적으로 수립할 수 있다.
소규모 모델은 이러한 추론 능력이 부족하여 코드 생성 성능이 떨어진다.
CodePLAN은 다중 과제 학습 방식을 사용하여 코드 생성과 해결 계획 생성 작업을 동시에 수행함으로써 소규모 모델의 추론 능력을 향상시켰다.
CodePLAN은 APPS 벤치마크의 pass@1 지표에서 기존 미세 조정 방식에 비해 130% 이상 향상된 성능을 보였다.
Alıntılar
"대형 언어 모델(LLM)은 최근 'Chain-of-Thought' 프롬프팅 기술을 통해 코드 생성 분야에서 큰 진전을 이루었다."
"소규모 모델은 이러한 계획을 도출하는 데 어려움을 겪고 있어 코드 생성 능력이 저하되고 있다."
"CodePLAN은 LLM의 추론 능력을 소규모 모델에 전달하여 코드 생성 성능을 향상시키는 것을 목표로 한다."