Core Concepts
최근 수년간 자연어 처리 분야에서 발전한 대규모 언어 모델이 코드 처리 분야에서도 뛰어난 성과를 보이며, 자연어 처리와 소프트웨어 공학 간의 통합이 이루어지고 있다.
Abstract
이 연구는 코드 처리를 위한 언어 모델에 대한 종합적인 조사를 수행한다. 50개 이상의 모델, 30개 이상의 평가 과제, 170개 이상의 데이터셋, 800개 이상의 관련 연구를 다루고 있다.
먼저 코드 처리 모델을 일반 언어 모델(GPT 계열)과 코드 전용 모델로 구분하여 설명한다. 코드 전용 모델은 코드 특화 사전 학습 목표를 가지고 있다. 두 모델 간의 관계와 차이점을 논의하며, 통계 모델과 RNN에서 사전 학습 Transformer와 대규모 언어 모델로의 전환 과정을 강조한다.
또한 AST, CFG, 단위 테스트 등 코드 고유의 특징과 이를 활용한 코드 언어 모델 학습 방법을 소개한다. 마지막으로 코드 처리 분야의 주요 과제와 향후 발전 방향을 제시한다.
Stats
이 연구는 50개 이상의 코드 언어 모델을 다루고 있다.
30개 이상의 코드 처리 평가 과제와 170개 이상의 데이터셋을 다루고 있다.
800개 이상의 관련 연구 논문을 검토했다.
Quotes
"최근 수년간 자연어 처리 분야에서 발전한 대규모 언어 모델이 코드 처리 분야에서도 뛰어난 성과를 보이며, 자연어 처리와 소프트웨어 공학 간의 통합이 이루어지고 있다."
"코드 전용 모델은 코드 특화 사전 학습 목표를 가지고 있다."
"통계 모델과 RNN에서 사전 학습 Transformer와 대규모 언어 모델로의 전환 과정을 강조한다."