Core Concepts
大規模言語モデルを使ってコードドキュメンテーションを生成する際の性能比較と評価
Abstract
本研究は、大規模言語モデル(LLM)によるコードドキュメンテーション生成の包括的な比較分析を行っている。コードドキュメンテーションは、ソフトウェア開発プロセスの重要な部分である。本論文では、GPT-3.5、GPT-4、Bard、Llama2、Starchatなどのモデルを、正確性、完全性、関連性、理解しやすさ、読みやすさ、所要時間などの様々なパラメータで評価している。チェックリストベースのシステムを使うことで、主観性を最小限に抑え、より客観的な評価を行っている。
結果として、Starchatを除くすべてのLLMが、オリジナルのドキュメンテーションを一貫して上回っていることが分かった。特に、非公開のGPT-3.5、GPT-4、Bardは、さまざまなパラメータにおいて、オープンソース/ソースが利用可能なLLMであるLLama 2やStarChatよりも優れた性能を示した。生成にかかる時間については、GPT-4が最も長く、次いでLlama2、Bard、ChatGPTとStarChatが同程度の所要時間であった。また、ファイルレベルのドキュメンテーションは、時間以外のすべてのパラメータで、インラインおよび関数レベルのドキュメンテーションと比べて著しく低い性能を示した。
Stats
GPT-4は、他のモデルと比べて、コードドキュメンテーション生成に最も時間がかかった。
Starchatは、正確性、完全性、関連性の全てのパラメータで、オリジナルのドキュメンテーションを下回る性能を示した。
ファイルレベルのドキュメンテーションは、時間以外のすべてのパラメータで、インラインおよび関数レベルのドキュメンテーションよりも著しく低い性能を示した。