核心概念
コードドキュメンテーションの正確性と量が大規模言語モデルのコード理解能力に大きな影響を与える。正しくないドキュメンテーションはLLMのコード理解を大幅に阻害するが、不完全なドキュメンテーションはLLMのコード理解にそれほど影響しない。
要約
本研究は、大規模言語モデル(LLM)のコード理解能力に対するコードドキュメンテーションの影響を実証的に分析したものである。
実験では、HumanEvalデータセットの関数コードを使用し、ドキュメンテーションの正確性と量を変化させた上で、LLMにユニットテストの生成を行わせた。その結果、以下のことが明らかになった:
正しくないドキュメンテーションは、LLMのコード理解を大幅に阻害する。一方、不完全なドキュメンテーションはLLMのコード理解にそれほど影響しない。
コード内の変数名を動物名やランダムな文字列に変更しても、LLMのコード理解能力にはほとんど影響がない。
コードにコメントを付与しても、LLMのコード理解能力に大きな変化は見られない。ただし、コメントがある場合の方が、生成されたユニットテストのコードカバレッジは高くなる。
ドキュメンテーションの一部を削除した場合、LLMのコード理解能力に大きな影響は見られない。
以上の結果から、LLMのコード理解には、ドキュメンテーションの正確性が重要であり、量的な影響は小さいことが示された。今後は、より複雑なコードやドキュメンテーションを用いた検証が必要である。
統計
コードにコメントがある場合、生成されたユニットテストのコードカバレッジが高くなる。