이 연구는 대규모 언어 모델(LLM)의 커밋 메시지 생성(CMG) 성능을 체계적으로 평가하고 개선하는 것을 목표로 한다.
먼저 널리 사용되는 CMG 데이터셋인 MCMD의 품질 문제를 파악하고, 이를 개선하여 고품질의 테스트셋을 구축하였다. 이를 바탕으로 다양한 최신 LLM과 기존 CMG 기법을 비교 평가한 결과, LLM이 기존 기법을 크게 능가하는 성능을 보였다. 특히 GPT-3.5가 가장 우수한 성과를 나타냈다.
이어서 실무에 부합하는 다양한 평가 지표(정확성, 완전성, 적용성, 가독성)를 통해 LLM의 CMG 성능을 심층 분석하였다. 결과적으로 GPT-3.5가 전반적으로 가장 우수한 성능을 보였지만, 다른 LLM도 각자의 장점을 가지고 있음이 확인되었다.
마지막으로 이 연구는 효율적인 검색 기반 In-Context Learning 프레임워크인 ERICommiter를 제안하여, 다양한 LLM의 CMG 성능을 크게 향상시켰다. ERICommiter는 검색 효율을 높이면서도 성능 저하를 최소화하여, LLM 기반 CMG 시스템의 실용성을 크게 높였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pengyu Xue,L... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14824.pdfDeeper Inquiries