本研究は、コミットメッセージ生成(CMG)タスクにおける大規模言語モデル(LLM)の性能を包括的に調査した。
まず、広く使用されているCMGデータセットMCMDの品質を分析し、実践者のニーズに合わせて高品質なテストセットを構築した。その上で、様々なLLMと従来のCMGアプローチを再評価した結果、LLMが圧倒的な性能を発揮することを示した。特に、GPT-3.5は最新のCMGアプローチRAEEを大幅に上回る結果となった。
さらに、オープンソースソフトウェア(OSS)の実践に即した観点から、LLMが生成したコミットメッセージの正確性、完全性、適用性、読みやすさを手動で評価した。その結果、GPT-3.5が全体的に最も優れた性能を示したが、LLMによって得意な側面が異なることが明らかになった。LLMはコード変更の「何を」行ったかを良く表現できるが、「なぜ」行ったかについては詳細に説明できない傾向がある。
最後に、LLMのCMG性能をさらに向上させるため、効率的な検索ベースのインコンテキスト学習(ICL)フレームワークERICommiterを提案した。ERICommiterは、高品質な事例を効率的に検索し、LLMの生成を導くことで、各種評価指標で大幅な性能向上を実現した。
本研究は、LLMのCMG分野における能力を理解し、実践者がこれらのツールを自身のワークフローに活用するための貴重な洞察を提供する。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pengyu Xue,L... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14824.pdfDeeper Inquiries